คำถามในหัวข้อ 'beautifulsoup'
ตัวแยกวิเคราะห์ BeautifulSoup 3.1 แตกง่ายเกินไป
ฉันประสบปัญหาในการแยกวิเคราะห์ HTML ที่ไม่น่าเชื่อถือด้วย BeautifulSoup ปรากฎว่า HTMLParser ที่ใช้ในเวอร์ชันที่ใหม่กว่ามีความทนทานน้อยกว่า SGMLParser ที่ใช้ก่อนหน้านี้
BeautifulSoup มีโหมดแก้ไขจุดบกพร่องบ้างไหม?...
2413 มุมมอง
schedule
02.12.2023
Beautiful Soup: แยก href ออกจากรายการสั่ง HTML
ฉันกำลังพยายามแยก URL จากภายในรายการเรียงลำดับ HTML โดยใช้โมดูล BeautifulSoup python รหัสของฉันส่งคืนรายการ NONE ค่าเท่ากับจำนวนรายการจากรายการที่เรียงลำดับ เพื่อให้ฉันรู้ว่าฉันมาถูกที่แล้วในเอกสาร ผมทำอะไรผิดหรือเปล่า?
URL ที่ฉันดึงมาคือ...
2498 มุมมอง
schedule
28.10.2023
แนวปฏิบัติที่ดีที่สุดในการเขียนเว็บแครปเปอร์ที่สามารถบำรุงรักษาได้คืออะไร?
ฉันจำเป็นต้องใช้เครื่องขูดสองสามตัวเพื่อรวบรวมข้อมูลหน้าเว็บบางหน้า (เนื่องจากไซต์ไม่มี API แบบเปิด) แยกข้อมูลและบันทึกลงในฐานข้อมูล ขณะนี้ฉันกำลังใช้ซุปที่สวยงามเพื่อเขียนโค้ดดังนี้:
discount_price_text = soup.select("#detail-main...
1906 มุมมอง
schedule
28.12.2023
วิธีแยกเนื้อหาข้อความทั้งหมดจาก HTML โดยใช้ Beautiful Soup
ฉันต้องการแยกเนื้อหาข้อความอีเมล มันอยู่ในเนื้อหา HTML ใช้ BeautifulSoup เพื่อดึงข้อมูลจาก จาก ถึง และหัวเรื่อง เมื่อดึงเนื้อหาเนื้อหา จะดึงข้อมูลบรรทัดแรกเพียงอย่างเดียว โดยจะเหลือบรรทัดและย่อหน้าที่เหลือ
ขาดอะไรไปตรงนี้...
2829 มุมมอง
schedule
04.12.2023
Python (BeautifulSoup) - For Loop ส่งคืนผลลัพธ์ทั้งหมดสำหรับหนึ่ง div แทนที่จะเป็นค่าเดียวที่คาดไว้
ฉันกำลังสร้างที่ขูดสุขอนามัยอาหาร ฉันมาถึงจุดที่สามารถรับชื่อและที่อยู่ของร้านอาหารทั้งหมดได้สำเร็จตามรหัสไปรษณีย์ที่ผู้ใช้ป้อน ฉันได้พยายามให้แสดงค่าระดับสุขอนามัยอาหารสำหรับผลลัพธ์แต่ละรายการด้วย
ค่านี้จะถูกจัดเก็บไว้บนหน้าเว็บด้วยวิธีต่อไปนี้:...
256 มุมมอง
schedule
14.12.2023
แยกค่าตัวเลขโดยไม่มี class id ใน html โดยใช้ BeautifulSoup ใน python
ฉันต้องการแยกมูลค่าของ "จำนวนประชากรรหัสไปรษณีย์โดยประมาณในปี 2558" จากเว็บไซต์ข้อมูลเมืองสำหรับบางภูมิภาค ( http://www.city-data.com/zips/17033.html ) ฉันใช้บิวตี้ซุปเพื่อดึงคุณค่าออกมา แต่ก็ทำไม่สำเร็จ
ปัญหาคือเนื่องจากไม่มีรหัสคลาสที่เกี่ยวข้อง...
244 มุมมอง
schedule
27.12.2023
การแบ่งคำขอ urllib2/beautifulsoup ออกเป็นแพ็คเกจคำขอขนาดเล็ก
ฉันต้องการรวบรวมชุดสิทธิบัตรเกี่ยวกับคำค้นหา "รถยนต์" ฉันเขียนรหัสนี้:
import urllib2
from bs4 import BeautifulSoup
import sys
import StringIO
import re
search_term = 'automobile'
patent_list = []
for i in range(100): #for the first 100 pages...
37 มุมมอง
schedule
19.12.2023
ตัวเลือก Bs4: ขูดอเมซอนโดยใช้ซุปที่สวยงาม
ฉันกำลังพยายามขูดไซต์ที่มีลิงก์ไปยัง Amazon ด้วย Python โดยใช้เฟรมเวิร์กเหล่านี้ - ซีลีเนียม ซุปที่สวยงาม
เป้าหมายของฉันคือการขูดรายละเอียดผลิตภัณฑ์ของ Amazon ต่อไปนี้ -> ชื่อ ราคา คำอธิบาย รีวิวครั้งแรก...
2241 มุมมอง
schedule
12.12.2023
Python 3 การขูดด้วย Bs4
ฉันกำลังพยายามขูด HTML ของเว็บไซต์นี้: https://www.idealista.com/venta-viviendas/madrid-madrid/ กับ python 3 (โดยใช้ PyCharm) ฉันสนใจเฉพาะราคาบ้านเท่านั้น ดังนั้นฉันจึงจำกัดการค้นหาให้แคบลงเป็นช่วงต่างๆ เช่น:
import requests
from bs4 import...
283 มุมมอง
schedule
21.11.2023
ไม่พบ pd.read_html bs4 หลังจากนำเข้าสำเร็จแล้ว
ฉันคิดว่ารูปภาพนั้นอธิบายได้ในตัว แต่โดยพื้นฐานแล้วฉันได้ติดตั้งและอัปเดต bs4 สำเร็จแล้ว นำเข้าได้สำเร็จตามที่คุณเห็นในรายการ Jupyter Notebook ด้านบน แต่ถึงกระนั้นมันก็บอกฉันว่ามันไม่พบมันเมื่อพยายามเรียกใช้ pd.read_html()
ภาพหน้าจอ
65 มุมมอง
schedule
27.11.2023
ฉันไม่สามารถเข้าสู่ไซต์ด้วยเซสชันคำขอได้
ฉันต้องการเข้าสู่ระบบเว็บไซต์ตามเซสชันคำขอ
ตัวอย่างเช่น: https://turbobit.net
แต่ไม่สามารถเข้าสู่ระบบได้ตามปกติ รหัสดังนี้
# coding=utf-8
import lxml
import re
import requests
import socket
import socks
import sys
import time
from bs4...
336 มุมมอง
schedule
09.11.2023
โจทย์การหาธาตุตามคลาสกับน้ำซุปสวยๆ
กำลังพยายามดึงชื่อกิจกรรมในเพจนี้โดยใช้ซุปสวยๆ 4 : https://www.orbitxch.com/customer/sport/1
ฉันพยายามกรองโค้ด html สำหรับแท็กที่มี class="biab_item-link biab_market-link js-event-link biab_has-time"...
137 มุมมอง
schedule
02.11.2023
ไม่สามารถดึงเนื้อหาของบทความโดยใช้ beautifulsoup ใน python 3.7
ฉันกำลังขูดเว็บโดยใช้ beautifulsoup ใน python 3.7 โค้ดด้านล่างคัดลอกวันที่ ชื่อ แท็กได้สำเร็จ แต่ไม่ใช่เนื้อหาของบทความ มันคือการไม่มีให้แทน
import time
import requests
from bs4 import BeautifulSoup
from bs4.element import Tag
url =...
89 มุมมอง
schedule
08.12.2023
การจับคู่รูปแบบ Regex ที่จุดเริ่มต้นของสตริงด้วย BeautifulSoup
ขณะนี้ฉันกำลังมองหาวิธีดำเนินการจับคู่รูปแบบผ่าน regex ที่จุดเริ่มต้นของชื่อคลาส HTML รูปแบบที่ฉันพยายามจับคู่คือ:
"col-xs-.*"
สองตัวอย่างของคลาสในหน้า HTML คือ:
<div class="col-xs-12 col-sm-12 col-lg-12">
<div...
397 มุมมอง
schedule
25.12.2023
การดาวน์โหลด/การคัดลอกรูปภาพจาก python
ฉันพยายามดาวน์โหลดภาพทั้งหมดจากเว็บไซต์แต่ไม่สามารถทำได้ ฉันจะดาวน์โหลดรูปภาพทั้งหมดจากส่วนเฉพาะของเว็บไซต์และบันทึกลงในไดเร็กทอรีของฉันได้อย่างไร
โค้ดด้านล่างส่งออกรูปภาพทั้งหมดและบันทึกลิงก์รูปภาพไปยังไฟล์ csv...
43 มุมมอง
schedule
24.12.2023
วิธีเข้าถึงค่าแอตทริบิวต์ของแท็กด้วย BeautifulSoup
ฉันใช้ BeautifulSoup และขอการขูดเว็บ ฉันรู้วิธีแยกแอตทริบิวต์ระหว่างแท็กต่างๆ แต่หากสิ่งที่ฉันต้องการคือหมายเลข '4.31' ด้านล่างในแท็ก มีความคิดเห็นไหมว่าจะได้มันมาได้อย่างไร
<div class="starRating" title="4.31">
<svg
...
</svg>...
282 มุมมอง
schedule
03.11.2023
แยกวิเคราะห์ชื่อตั้งแต่หน้าที่ 3 เป็นต้นไปไม่ได้
ฉันได้สร้างสคริปต์ใน python โดยใช้โมดูลคำขอและไลบรารี BeautifulSoup เพื่อดึงชื่อของสมาชิกรายต่างๆ จากเว็บไซต์ สคริปต์สามารถดึงชื่อจากหน้าแรกและหน้าสองได้อย่างไม่มีที่ติ อย่างไรก็ตาม จะขูดชื่อเดียวกันตั้งแต่หน้าสามเป็นต้นไป...
81 มุมมอง
schedule
12.11.2023
Python WordCloud ไม่ได้ลบ Stopwords
ฉันกำลังพยายามสร้าง Wordcloud ที่ดึงคำจากรายละเอียดงานโดยอัตโนมัติและสร้าง wordcloud หากคุณมี stopwords=None ก็ควรจะลบรายการคำหยุดที่รู้จักของ wordcloud แต่โปรแกรมของฉันไม่ได้ลบ ฉันเชื่อว่ามันอาจจะเกี่ยวข้องกับการดึงลักษณะงานด้วยซุปที่สวยงาม...
157 มุมมอง
schedule
16.11.2023
ซุปแสนสวย - การเลือกคลาสให้ผลลัพธ์ที่ไม่คาดคิด
ฉันยังใหม่กับการเขียนโปรแกรมและกำลังเรียนรู้ Python ผ่านการขูดเว็บ สิ่งที่ฉันพยายามทำคือจับบรรทัดด้านล่างจากไซต์ที่แสดงอยู่ใน URL ของฉัน:
<a class=""...
34 มุมมอง
schedule
10.11.2023
ไม่สามารถขูดลิงก์และลิงก์ย่อยทั้งหมดจากหน้าเว็บได้
ฉันกำลังพยายามดึงลิงก์ทั้งหมดแบบวนซ้ำซึ่งอยู่ใต้ Automotive ในพื้นที่ด้านซ้ายของ หน้าเว็บ
มีความจำเป็นต้องใช้ลิงก์ที่รวบรวมทั้งหมดแบบวนซ้ำ เนื่องจากแต่ละลิงก์มีสาขา
ตัวอย่างเช่น หากคุณคลิกลิงก์ใดๆ ใต้ ยานยนต์...
257 มุมมอง
schedule
29.12.2023