Pertanyaan tentang topik tersebut 'beautifulsoup'
Parser BeautifulSoup 3.1 terlalu mudah rusak
Saya kesulitan mengurai beberapa HTML yang cerdik dengan BeautifulSoup. Ternyata HTMLParser yang digunakan di versi yang lebih baru kurang toleran dibandingkan SGMLParser yang digunakan sebelumnya.
Apakah BeautifulSoup memiliki semacam mode...
2413 dilihat
schedule
02.12.2023
Sup Cantik: Mengekstrak href dari daftar pesanan HTML
Saya mencoba mengekstrak URL dari dalam daftar pesanan HTML menggunakan modul python BeautifulSoup. Kode saya mengembalikan daftar nilai NONE yang jumlahnya sama dengan jumlah item dari daftar yang diurutkan sehingga saya tahu saya berada di tempat...
2498 dilihat
schedule
28.10.2023
Apa praktik terbaik untuk menulis web scraper yang dapat dipelihara?
Saya perlu menerapkan beberapa pencakar untuk merayapi beberapa halaman web (karena situs tersebut tidak memiliki API terbuka), mengekstrak informasi dan menyimpannya ke database. Saat ini saya menggunakan sup yang indah untuk menulis kode seperti...
1906 dilihat
schedule
28.12.2023
Cara mengurai semua konten teks dari HTML menggunakan Beautiful Soup
Saya ingin mengekstrak konten pesan email. Itu ada dalam konten html, menggunakan BeautifulSoup untuk mengambil Dari, Ke dan subjek. Saat mengambil konten isi, ia mengambil baris pertama saja. Itu meninggalkan baris dan paragraf yang tersisa....
2829 dilihat
schedule
04.12.2023
Python (BeautifulSoup) - For Loop mengembalikan semua hasil untuk satu div, bukan satu nilai yang diharapkan
Saya sedang membuat pengikis Kebersihan Makanan. Saya telah sampai pada titik di mana saya berhasil mendapatkan nama dan alamat semua restoran berdasarkan kode pos yang dimasukkan oleh pengguna. Saya telah mencoba menampilkan nilai peringkat...
256 dilihat
schedule
14.12.2023
Mengekstraksi nilai numerik tanpa id kelas di html menggunakan BeautifulSoup dengan python
Saya ingin mengekstrak nilai "Perkiraan populasi kode pos pada tahun 2015" dari situs data kota untuk wilayah tertentu ( http://www.city-data.com/zips/17033.html ). Saya menggunakan beautifulsoup untuk mengekstrak nilainya, tetapi tidak berhasil....
244 dilihat
schedule
27.12.2023
membagi permintaan urllib2/beautifulsoup menjadi paket permintaan yang lebih kecil
Saya ingin mengumpulkan satu set ID paten tentang istilah pencarian 'mobil'. Saya menulis kode ini:
import urllib2
from bs4 import BeautifulSoup
import sys
import StringIO
import re
search_term = 'automobile'
patent_list = []
for i in...
37 dilihat
schedule
19.12.2023
Penyeleksi Bs4: Kikis Amazon menggunakan Sup Cantik
Saya mencoba mengikis situs yang memiliki tautan ke Amazon dengan Python menggunakan kerangka kerja ini - selenium, sup yang indah.
Tujuan saya adalah mengikis detail produk Amazon Berikut --> Judul, Harga, Deskripsi, Ulasan Pertama
Tetapi saya...
2241 dilihat
schedule
12.12.2023
Mengikis Python 3 dengan Bs4
Saya mencoba mengikis HTML situs web ini: https://www.idealista.com/venta-viviendas/madrid-madrid/ dengan python 3 (menggunakan PyCharm). Saya hanya tertarik pada harga rumah jadi saya mempersempit pencarian saya pada rentang tertentu seperti:...
283 dilihat
schedule
21.11.2023
pd.read_html bs4 tidak ditemukan setelah berhasil diimpor
Saya pikir gambarnya cukup jelas tetapi pada dasarnya saya telah berhasil menginstal dan memperbarui bs4, berhasil mengimpornya seperti yang Anda lihat pada entri Notebook Jupyter di atas tetapi tetap saja ia memberi tahu saya bahwa ia tidak...
65 dilihat
schedule
27.11.2023
Saya tidak bisa masuk ke situs dengan Sesi Permintaan
Saya ingin masuk ke situs web dengan sesi permintaan.
Misalnya: https://turbobit.net
Tapi tidak bisa login normal, kodenya sebagai berikut:
# coding=utf-8
import lxml
import re
import requests
import socket
import socks
import sys
import...
336 dilihat
schedule
09.11.2023
Masalah menemukan elemen berdasarkan kelas dengan sup yang indah
Saya mencoba mendapatkan nama acara di halaman ini, menggunakan sup cantik 4 : https://www.orbitxch.com/customer/sport/1
Saya mencoba memfilter kode html untuk tag dengan class="biab_item-link biab_market-link js-event-link biab_has-time",...
137 dilihat
schedule
02.11.2023
Tidak dapat mengambil konten artikel menggunakan beautifulsoup di python 3.7
Saya melakukan pengikisan web menggunakan beautifulsoup dengan python 3.7. Kode di bawah ini berhasil menggores tanggal, judul, tag tetapi tidak isi artikelnya. Sebaliknya, ia memberikan None.
import time
import requests
from bs4 import...
89 dilihat
schedule
08.12.2023
Pencocokan Pola Regex di Awal String dengan BeautifulSoup
Saat ini saya sedang mencari cara untuk melakukan pencocokan pola melalui regex di awal nama kelas HTML. Pola yang saya coba cocokkan adalah:
"col-xs-.*"
Dua contoh kelas di halaman HTML adalah:
<div class="col-xs-12 col-sm-12...
397 dilihat
schedule
25.12.2023
Mengunduh/menggores gambar web dari python
Saya mencoba mengunduh semua gambar dari situs web tetapi tidak dapat melakukannya. Bagaimana saya bisa mengunduh semua gambar dari bagian tertentu di situs web dan menyimpannya ke direktori saya?
Kode di bawah ini mengekspor semua gambar dan...
43 dilihat
schedule
24.12.2023
Cara mengakses nilai atribut tag dengan BeautifulSoup
Saya menggunakan BeautifulSoup dan meminta web scraping. Saya tahu cara mengekstrak atribut antar tag, tetapi jika yang saya inginkan adalah nomor '4.31' di bawah dalam tag, adakah yang tahu cara mendapatkannya?
<div class="starRating"...
282 dilihat
schedule
03.11.2023
Tidak dapat menguraikan nama dari halaman ketiga dan seterusnya
Saya telah membuat skrip dengan python menggunakan modul permintaan dan perpustakaan BeautifulSoup untuk mengambil nama anggota yang berbeda dari situs web. Script dapat mengambil nama dari halaman pertama dan halaman kedua dengan sempurna. Namun,...
81 dilihat
schedule
12.11.2023
Python WordCloud tidak menghapus Stopwords
Saya mencoba membuat Wordcloud yang secara otomatis mengambil kata-kata dari deskripsi pekerjaan dan membuat Wordcloud. Jika Anda memiliki stopwords=None, itu seharusnya menghapus daftar stopwords yang diketahui di wordcloud, tetapi program saya...
157 dilihat
schedule
16.11.2023
Sup Cantik - Memilih Kelas Memiliki Hasil Tak Terduga
Saya baru mengenal pemrograman dan telah mempelajari Python melalui web scraping. Apa yang saya coba lakukan adalah menangkap baris di bawah ini dari situs yang tercantum di URL saya:
<a class=""...
34 dilihat
schedule
10.11.2023
Tidak dapat menghapus semua link dan sublinknya dari halaman web
Saya mencoba mengambil semua tautan secara rekursif yang terletak di bawah Automotive di area sisi kiri halaman web .
Semua tautan yang dikumpulkan perlu digunakan secara rekursif karena setiap tautan memiliki cabang.
Misalnya, jika Anda...
257 dilihat
schedule
29.12.2023