สิ่งพิมพ์ตามแท็ก beautifulsoup [python, html, parsing, beautifulsoup, html-parsing]

คำถามในหัวข้อ 'beautifulsoup'

ตัวแยกวิเคราะห์ BeautifulSoup 3.1 แตกง่ายเกินไป

ฉันประสบปัญหาในการแยกวิเคราะห์ HTML ที่ไม่น่าเชื่อถือด้วย BeautifulSoup ปรากฎว่า HTMLParser ที่ใช้ในเวอร์ชันที่ใหม่กว่ามีความทนทานน้อยกว่า SGMLParser ที่ใช้ก่อนหน้านี้ BeautifulSoup มีโหมดแก้ไขจุดบกพร่องบ้างไหม?...

2413 มุมมอง

02.12.2023

Beautiful Soup: แยก href ออกจากรายการสั่ง HTML

ฉันกำลังพยายามแยก URL จากภายในรายการเรียงลำดับ HTML โดยใช้โมดูล BeautifulSoup python รหัสของฉันส่งคืนรายการ NONE ค่าเท่ากับจำนวนรายการจากรายการที่เรียงลำดับ เพื่อให้ฉันรู้ว่าฉันมาถูกที่แล้วในเอกสาร ผมทำอะไรผิดหรือเปล่า? URL ที่ฉันดึงมาคือ...

2498 มุมมอง

python html beautifulsoup html-parsing href

28.10.2023

แนวปฏิบัติที่ดีที่สุดในการเขียนเว็บแครปเปอร์ที่สามารถบำรุงรักษาได้คืออะไร?

ฉันจำเป็นต้องใช้เครื่องขูดสองสามตัวเพื่อรวบรวมข้อมูลหน้าเว็บบางหน้า (เนื่องจากไซต์ไม่มี API แบบเปิด) แยกข้อมูลและบันทึกลงในฐานข้อมูล ขณะนี้ฉันกำลังใช้ซุปที่สวยงามเพื่อเขียนโค้ดดังนี้: discount_price_text = soup.select("#detail-main...

1906 มุมมอง

python web web-scraping beautifulsoup

28.12.2023

วิธีแยกเนื้อหาข้อความทั้งหมดจาก HTML โดยใช้ Beautiful Soup

ฉันต้องการแยกเนื้อหาข้อความอีเมล มันอยู่ในเนื้อหา HTML ใช้ BeautifulSoup เพื่อดึงข้อมูลจาก จาก ถึง และหัวเรื่อง เมื่อดึงเนื้อหาเนื้อหา จะดึงข้อมูลบรรทัดแรกเพียงอย่างเดียว โดยจะเหลือบรรทัดและย่อหน้าที่เหลือ ขาดอะไรไปตรงนี้...

2829 มุมมอง

python-2.7 html parsing beautifulsoup

04.12.2023

Python (BeautifulSoup) - For Loop ส่งคืนผลลัพธ์ทั้งหมดสำหรับหนึ่ง div แทนที่จะเป็นค่าเดียวที่คาดไว้

ฉันกำลังสร้างที่ขูดสุขอนามัยอาหาร ฉันมาถึงจุดที่สามารถรับชื่อและที่อยู่ของร้านอาหารทั้งหมดได้สำเร็จตามรหัสไปรษณีย์ที่ผู้ใช้ป้อน ฉันได้พยายามให้แสดงค่าระดับสุขอนามัยอาหารสำหรับผลลัพธ์แต่ละรายการด้วย ค่านี้จะถูกจัดเก็บไว้บนหน้าเว็บด้วยวิธีต่อไปนี้:...

256 มุมมอง

python-3.x python web-scraping beautifulsoup

14.12.2023

แยกค่าตัวเลขโดยไม่มี class id ใน html โดยใช้ BeautifulSoup ใน python

ฉันต้องการแยกมูลค่าของ "จำนวนประชากรรหัสไปรษณีย์โดยประมาณในปี 2558" จากเว็บไซต์ข้อมูลเมืองสำหรับบางภูมิภาค ( http://www.city-data.com/zips/17033.html ) ฉันใช้บิวตี้ซุปเพื่อดึงคุณค่าออกมา แต่ก็ทำไม่สำเร็จ ปัญหาคือเนื่องจากไม่มีรหัสคลาสที่เกี่ยวข้อง...

244 มุมมอง

python-3.x web-scraping beautifulsoup html-parsing text-parsing

27.12.2023

การแบ่งคำขอ urllib2/beautifulsoup ออกเป็นแพ็คเกจคำขอขนาดเล็ก

ฉันต้องการรวบรวมชุดสิทธิบัตรเกี่ยวกับคำค้นหา "รถยนต์" ฉันเขียนรหัสนี้: import urllib2 from bs4 import BeautifulSoup import sys import StringIO import re search_term = 'automobile' patent_list = [] for i in range(100): #for the first 100 pages...

37 มุมมอง

beautifulsoup urllib urllib2

19.12.2023

ตัวเลือก Bs4: ขูดอเมซอนโดยใช้ซุปที่สวยงาม

ฉันกำลังพยายามขูดไซต์ที่มีลิงก์ไปยัง Amazon ด้วย Python โดยใช้เฟรมเวิร์กเหล่านี้ - ซีลีเนียม ซุปที่สวยงาม เป้าหมายของฉันคือการขูดรายละเอียดผลิตภัณฑ์ของ Amazon ต่อไปนี้ -> ชื่อ ราคา คำอธิบาย รีวิวครั้งแรก...

2241 มุมมอง

python web-scraping beautifulsoup

12.12.2023

Python 3 การขูดด้วย Bs4

ฉันกำลังพยายามขูด HTML ของเว็บไซต์นี้: https://www.idealista.com/venta-viviendas/madrid-madrid/ กับ python 3 (โดยใช้ PyCharm) ฉันสนใจเฉพาะราคาบ้านเท่านั้น ดังนั้นฉันจึงจำกัดการค้นหาให้แคบลงเป็นช่วงต่างๆ เช่น: import requests from bs4 import...

283 มุมมอง

python beautifulsoup

21.11.2023

ไม่พบ pd.read_html bs4 หลังจากนำเข้าสำเร็จแล้ว

ฉันคิดว่ารูปภาพนั้นอธิบายได้ในตัว แต่โดยพื้นฐานแล้วฉันได้ติดตั้งและอัปเดต bs4 สำเร็จแล้ว นำเข้าได้สำเร็จตามที่คุณเห็นในรายการ Jupyter Notebook ด้านบน แต่ถึงกระนั้นมันก็บอกฉันว่ามันไม่พบมันเมื่อพยายามเรียกใช้ pd.read_html() ภาพหน้าจอ

65 มุมมอง

python pandas beautifulsoup

27.11.2023

ฉันไม่สามารถเข้าสู่ไซต์ด้วยเซสชันคำขอได้

ฉันต้องการเข้าสู่ระบบเว็บไซต์ตามเซสชันคำขอ ตัวอย่างเช่น: https://turbobit.net แต่ไม่สามารถเข้าสู่ระบบได้ตามปกติ รหัสดังนี้ # coding=utf-8 import lxml import re import requests import socket import socks import sys import time from bs4...

336 มุมมอง

python python-requests beautifulsoup

09.11.2023

โจทย์การหาธาตุตามคลาสกับน้ำซุปสวยๆ

กำลังพยายามดึงชื่อกิจกรรมในเพจนี้โดยใช้ซุปสวยๆ 4 : https://www.orbitxch.com/customer/sport/1 ฉันพยายามกรองโค้ด html สำหรับแท็กที่มี class="biab_item-link biab_market-link js-event-link biab_has-time"...

137 มุมมอง

python web-scraping beautifulsoup

02.11.2023

ไม่สามารถดึงเนื้อหาของบทความโดยใช้ beautifulsoup ใน python 3.7

ฉันกำลังขูดเว็บโดยใช้ beautifulsoup ใน python 3.7 โค้ดด้านล่างคัดลอกวันที่ ชื่อ แท็กได้สำเร็จ แต่ไม่ใช่เนื้อหาของบทความ มันคือการไม่มีให้แทน import time import requests from bs4 import BeautifulSoup from bs4.element import Tag url =...

89 มุมมอง

web-scraping beautifulsoup python-3.7

08.12.2023

การจับคู่รูปแบบ Regex ที่จุดเริ่มต้นของสตริงด้วย BeautifulSoup

ขณะนี้ฉันกำลังมองหาวิธีดำเนินการจับคู่รูปแบบผ่าน regex ที่จุดเริ่มต้นของชื่อคลาส HTML รูปแบบที่ฉันพยายามจับคู่คือ: "col-xs-.*" สองตัวอย่างของคลาสในหน้า HTML คือ: <div class="col-xs-12 col-sm-12 col-lg-12"> <div...

397 มุมมอง

python-3.x beautifulsoup regex

25.12.2023

การดาวน์โหลด/การคัดลอกรูปภาพจาก python

ฉันพยายามดาวน์โหลดภาพทั้งหมดจากเว็บไซต์แต่ไม่สามารถทำได้ ฉันจะดาวน์โหลดรูปภาพทั้งหมดจากส่วนเฉพาะของเว็บไซต์และบันทึกลงในไดเร็กทอรีของฉันได้อย่างไร โค้ดด้านล่างส่งออกรูปภาพทั้งหมดและบันทึกลิงก์รูปภาพไปยังไฟล์ csv...

43 มุมมอง

python-3.x beautifulsoup

24.12.2023

วิธีเข้าถึงค่าแอตทริบิวต์ของแท็กด้วย BeautifulSoup

ฉันใช้ BeautifulSoup และขอการขูดเว็บ ฉันรู้วิธีแยกแอตทริบิวต์ระหว่างแท็กต่างๆ แต่หากสิ่งที่ฉันต้องการคือหมายเลข '4.31' ด้านล่างในแท็ก มีความคิดเห็นไหมว่าจะได้มันมาได้อย่างไร <div class="starRating" title="4.31"> <svg ... </svg>...

282 มุมมอง

python web-scraping beautifulsoup

03.11.2023

แยกวิเคราะห์ชื่อตั้งแต่หน้าที่ 3 เป็นต้นไปไม่ได้

ฉันได้สร้างสคริปต์ใน python โดยใช้โมดูลคำขอและไลบรารี BeautifulSoup เพื่อดึงชื่อของสมาชิกรายต่างๆ จากเว็บไซต์ สคริปต์สามารถดึงชื่อจากหน้าแรกและหน้าสองได้อย่างไม่มีที่ติ อย่างไรก็ตาม จะขูดชื่อเดียวกันตั้งแต่หน้าสามเป็นต้นไป...

81 มุมมอง

python-3.x python web-scraping python-requests beautifulsoup

12.11.2023

Python WordCloud ไม่ได้ลบ Stopwords

ฉันกำลังพยายามสร้าง Wordcloud ที่ดึงคำจากรายละเอียดงานโดยอัตโนมัติและสร้าง wordcloud หากคุณมี stopwords=None ก็ควรจะลบรายการคำหยุดที่รู้จักของ wordcloud แต่โปรแกรมของฉันไม่ได้ลบ ฉันเชื่อว่ามันอาจจะเกี่ยวข้องกับการดึงลักษณะงานด้วยซุปที่สวยงาม...

157 มุมมอง

python beautifulsoup word-cloud

16.11.2023

ซุปแสนสวย - การเลือกคลาสให้ผลลัพธ์ที่ไม่คาดคิด

ฉันยังใหม่กับการเขียนโปรแกรมและกำลังเรียนรู้ Python ผ่านการขูดเว็บ สิ่งที่ฉันพยายามทำคือจับบรรทัดด้านล่างจากไซต์ที่แสดงอยู่ใน URL ของฉัน: <a class=""...

34 มุมมอง

python request html web-scraping beautifulsoup

10.11.2023

ไม่สามารถขูดลิงก์และลิงก์ย่อยทั้งหมดจากหน้าเว็บได้

ฉันกำลังพยายามดึงลิงก์ทั้งหมดแบบวนซ้ำซึ่งอยู่ใต้ Automotive ในพื้นที่ด้านซ้ายของ หน้าเว็บ มีความจำเป็นต้องใช้ลิงก์ที่รวบรวมทั้งหมดแบบวนซ้ำ เนื่องจากแต่ละลิงก์มีสาขา ตัวอย่างเช่น หากคุณคลิกลิงก์ใดๆ ใต้ ยานยนต์...

257 มุมมอง

python-3.x python web-scraping beautifulsoup

29.12.2023