คำถามในหัวข้อ 'beautifulsoup'

ตัวแยกวิเคราะห์ BeautifulSoup 3.1 แตกง่ายเกินไป
ฉันประสบปัญหาในการแยกวิเคราะห์ HTML ที่ไม่น่าเชื่อถือด้วย BeautifulSoup ปรากฎว่า HTMLParser ที่ใช้ในเวอร์ชันที่ใหม่กว่ามีความทนทานน้อยกว่า SGMLParser ที่ใช้ก่อนหน้านี้ BeautifulSoup มีโหมดแก้ไขจุดบกพร่องบ้างไหม?...
2413 มุมมอง
schedule 02.12.2023

Beautiful Soup: แยก href ออกจากรายการสั่ง HTML
ฉันกำลังพยายามแยก URL จากภายในรายการเรียงลำดับ HTML โดยใช้โมดูล BeautifulSoup python รหัสของฉันส่งคืนรายการ NONE ค่าเท่ากับจำนวนรายการจากรายการที่เรียงลำดับ เพื่อให้ฉันรู้ว่าฉันมาถูกที่แล้วในเอกสาร ผมทำอะไรผิดหรือเปล่า? URL ที่ฉันดึงมาคือ...
2498 มุมมอง
schedule 28.10.2023

แนวปฏิบัติที่ดีที่สุดในการเขียนเว็บแครปเปอร์ที่สามารถบำรุงรักษาได้คืออะไร?
ฉันจำเป็นต้องใช้เครื่องขูดสองสามตัวเพื่อรวบรวมข้อมูลหน้าเว็บบางหน้า (เนื่องจากไซต์ไม่มี API แบบเปิด) แยกข้อมูลและบันทึกลงในฐานข้อมูล ขณะนี้ฉันกำลังใช้ซุปที่สวยงามเพื่อเขียนโค้ดดังนี้: discount_price_text = soup.select("#detail-main...
1906 มุมมอง
schedule 28.12.2023

วิธีแยกเนื้อหาข้อความทั้งหมดจาก HTML โดยใช้ Beautiful Soup
ฉันต้องการแยกเนื้อหาข้อความอีเมล มันอยู่ในเนื้อหา HTML ใช้ BeautifulSoup เพื่อดึงข้อมูลจาก จาก ถึง และหัวเรื่อง เมื่อดึงเนื้อหาเนื้อหา จะดึงข้อมูลบรรทัดแรกเพียงอย่างเดียว โดยจะเหลือบรรทัดและย่อหน้าที่เหลือ ขาดอะไรไปตรงนี้...
2829 มุมมอง
schedule 04.12.2023

Python (BeautifulSoup) - For Loop ส่งคืนผลลัพธ์ทั้งหมดสำหรับหนึ่ง div แทนที่จะเป็นค่าเดียวที่คาดไว้
ฉันกำลังสร้างที่ขูดสุขอนามัยอาหาร ฉันมาถึงจุดที่สามารถรับชื่อและที่อยู่ของร้านอาหารทั้งหมดได้สำเร็จตามรหัสไปรษณีย์ที่ผู้ใช้ป้อน ฉันได้พยายามให้แสดงค่าระดับสุขอนามัยอาหารสำหรับผลลัพธ์แต่ละรายการด้วย ค่านี้จะถูกจัดเก็บไว้บนหน้าเว็บด้วยวิธีต่อไปนี้:...
256 มุมมอง

แยกค่าตัวเลขโดยไม่มี class id ใน html โดยใช้ BeautifulSoup ใน python
ฉันต้องการแยกมูลค่าของ "จำนวนประชากรรหัสไปรษณีย์โดยประมาณในปี 2558" จากเว็บไซต์ข้อมูลเมืองสำหรับบางภูมิภาค ( http://www.city-data.com/zips/17033.html ) ฉันใช้บิวตี้ซุปเพื่อดึงคุณค่าออกมา แต่ก็ทำไม่สำเร็จ ปัญหาคือเนื่องจากไม่มีรหัสคลาสที่เกี่ยวข้อง...
244 มุมมอง

การแบ่งคำขอ urllib2/beautifulsoup ออกเป็นแพ็คเกจคำขอขนาดเล็ก
ฉันต้องการรวบรวมชุดสิทธิบัตรเกี่ยวกับคำค้นหา "รถยนต์" ฉันเขียนรหัสนี้: import urllib2 from bs4 import BeautifulSoup import sys import StringIO import re search_term = 'automobile' patent_list = [] for i in range(100): #for the first 100 pages...
37 มุมมอง
schedule 19.12.2023

ตัวเลือก Bs4: ขูดอเมซอนโดยใช้ซุปที่สวยงาม
ฉันกำลังพยายามขูดไซต์ที่มีลิงก์ไปยัง Amazon ด้วย Python โดยใช้เฟรมเวิร์กเหล่านี้ - ซีลีเนียม ซุปที่สวยงาม เป้าหมายของฉันคือการขูดรายละเอียดผลิตภัณฑ์ของ Amazon ต่อไปนี้ -> ชื่อ ราคา คำอธิบาย รีวิวครั้งแรก...
2241 มุมมอง
schedule 12.12.2023

Python 3 การขูดด้วย Bs4
ฉันกำลังพยายามขูด HTML ของเว็บไซต์นี้: https://www.idealista.com/venta-viviendas/madrid-madrid/ กับ python 3 (โดยใช้ PyCharm) ฉันสนใจเฉพาะราคาบ้านเท่านั้น ดังนั้นฉันจึงจำกัดการค้นหาให้แคบลงเป็นช่วงต่างๆ เช่น: import requests from bs4 import...
283 มุมมอง
schedule 21.11.2023

ไม่พบ pd.read_html bs4 หลังจากนำเข้าสำเร็จแล้ว
ฉันคิดว่ารูปภาพนั้นอธิบายได้ในตัว แต่โดยพื้นฐานแล้วฉันได้ติดตั้งและอัปเดต bs4 สำเร็จแล้ว นำเข้าได้สำเร็จตามที่คุณเห็นในรายการ Jupyter Notebook ด้านบน แต่ถึงกระนั้นมันก็บอกฉันว่ามันไม่พบมันเมื่อพยายามเรียกใช้ pd.read_html() ภาพหน้าจอ
65 มุมมอง
schedule 27.11.2023

ฉันไม่สามารถเข้าสู่ไซต์ด้วยเซสชันคำขอได้
ฉันต้องการเข้าสู่ระบบเว็บไซต์ตามเซสชันคำขอ ตัวอย่างเช่น: https://turbobit.net แต่ไม่สามารถเข้าสู่ระบบได้ตามปกติ รหัสดังนี้ # coding=utf-8 import lxml import re import requests import socket import socks import sys import time from bs4...
336 มุมมอง
schedule 09.11.2023

โจทย์การหาธาตุตามคลาสกับน้ำซุปสวยๆ
กำลังพยายามดึงชื่อกิจกรรมในเพจนี้โดยใช้ซุปสวยๆ 4 : https://www.orbitxch.com/customer/sport/1 ฉันพยายามกรองโค้ด html สำหรับแท็กที่มี class="biab_item-link biab_market-link js-event-link biab_has-time"...
137 มุมมอง
schedule 02.11.2023

ไม่สามารถดึงเนื้อหาของบทความโดยใช้ beautifulsoup ใน python 3.7
ฉันกำลังขูดเว็บโดยใช้ beautifulsoup ใน python 3.7 โค้ดด้านล่างคัดลอกวันที่ ชื่อ แท็กได้สำเร็จ แต่ไม่ใช่เนื้อหาของบทความ มันคือการไม่มีให้แทน import time import requests from bs4 import BeautifulSoup from bs4.element import Tag url =...
89 มุมมอง
schedule 08.12.2023

การจับคู่รูปแบบ Regex ที่จุดเริ่มต้นของสตริงด้วย BeautifulSoup
ขณะนี้ฉันกำลังมองหาวิธีดำเนินการจับคู่รูปแบบผ่าน regex ที่จุดเริ่มต้นของชื่อคลาส HTML รูปแบบที่ฉันพยายามจับคู่คือ: "col-xs-.*" สองตัวอย่างของคลาสในหน้า HTML คือ: <div class="col-xs-12 col-sm-12 col-lg-12"> <div...
397 มุมมอง
schedule 25.12.2023

การดาวน์โหลด/การคัดลอกรูปภาพจาก python
ฉันพยายามดาวน์โหลดภาพทั้งหมดจากเว็บไซต์แต่ไม่สามารถทำได้ ฉันจะดาวน์โหลดรูปภาพทั้งหมดจากส่วนเฉพาะของเว็บไซต์และบันทึกลงในไดเร็กทอรีของฉันได้อย่างไร โค้ดด้านล่างส่งออกรูปภาพทั้งหมดและบันทึกลิงก์รูปภาพไปยังไฟล์ csv...
43 มุมมอง
schedule 24.12.2023

วิธีเข้าถึงค่าแอตทริบิวต์ของแท็กด้วย BeautifulSoup
ฉันใช้ BeautifulSoup และขอการขูดเว็บ ฉันรู้วิธีแยกแอตทริบิวต์ระหว่างแท็กต่างๆ แต่หากสิ่งที่ฉันต้องการคือหมายเลข '4.31' ด้านล่างในแท็ก มีความคิดเห็นไหมว่าจะได้มันมาได้อย่างไร <div class="starRating" title="4.31"> <svg ... </svg>...
282 มุมมอง
schedule 03.11.2023

แยกวิเคราะห์ชื่อตั้งแต่หน้าที่ 3 เป็นต้นไปไม่ได้
ฉันได้สร้างสคริปต์ใน python โดยใช้โมดูลคำขอและไลบรารี BeautifulSoup เพื่อดึงชื่อของสมาชิกรายต่างๆ จากเว็บไซต์ สคริปต์สามารถดึงชื่อจากหน้าแรกและหน้าสองได้อย่างไม่มีที่ติ อย่างไรก็ตาม จะขูดชื่อเดียวกันตั้งแต่หน้าสามเป็นต้นไป...
81 มุมมอง

Python WordCloud ไม่ได้ลบ Stopwords
ฉันกำลังพยายามสร้าง Wordcloud ที่ดึงคำจากรายละเอียดงานโดยอัตโนมัติและสร้าง wordcloud หากคุณมี stopwords=None ก็ควรจะลบรายการคำหยุดที่รู้จักของ wordcloud แต่โปรแกรมของฉันไม่ได้ลบ ฉันเชื่อว่ามันอาจจะเกี่ยวข้องกับการดึงลักษณะงานด้วยซุปที่สวยงาม...
157 มุมมอง
schedule 16.11.2023

ซุปแสนสวย - การเลือกคลาสให้ผลลัพธ์ที่ไม่คาดคิด
ฉันยังใหม่กับการเขียนโปรแกรมและกำลังเรียนรู้ Python ผ่านการขูดเว็บ สิ่งที่ฉันพยายามทำคือจับบรรทัดด้านล่างจากไซต์ที่แสดงอยู่ใน URL ของฉัน: <a class=""...
34 มุมมอง

ไม่สามารถขูดลิงก์และลิงก์ย่อยทั้งหมดจากหน้าเว็บได้
ฉันกำลังพยายามดึงลิงก์ทั้งหมดแบบวนซ้ำซึ่งอยู่ใต้ Automotive ในพื้นที่ด้านซ้ายของ หน้าเว็บ มีความจำเป็นต้องใช้ลิงก์ที่รวบรวมทั้งหมดแบบวนซ้ำ เนื่องจากแต่ละลิงก์มีสาขา ตัวอย่างเช่น หากคุณคลิกลิงก์ใดๆ ใต้ ยานยนต์...
257 มุมมอง