Вопросы по теме 'beautifulsoup'
Парсер BeautifulSoup 3.1 слишком легко ломается
У меня возникли проблемы с разбором некоторых хитрых HTML-кодов с помощью BeautifulSoup. Оказывается, HTMLParser, используемый в более новых версиях, менее устойчив, чем SGMLParser, использовавшийся ранее.
Есть ли у BeautifulSoup какой-то...
2413 просмотров
schedule
02.12.2023
Beautiful Soup: извлечение href из упорядоченного списка HTML
Я пытаюсь извлечь URL-адреса из упорядоченного списка HTML, используя модуль Python BeautifulSoup. Мой код возвращает список значений NONE, число которых равно количеству элементов в упорядоченном списке, поэтому я знаю, что нахожусь в нужном месте в...
2498 просмотров
schedule
28.10.2023
Каков наилучший способ написания поддерживаемых парсеров?
Мне нужно реализовать несколько парсеров для сканирования некоторых веб-страниц (поскольку сайт не имеет открытого API), извлечения информации и сохранения в базе данных. В настоящее время я использую красивый суп для написания такого кода:...
1906 просмотров
schedule
28.12.2023
Как разобрать весь текстовый контент из HTML с помощью Beautiful Soup
Я хотел извлечь содержимое сообщения электронной почты. Он находится в html-содержимом, используется BeautifulSoup , чтобы получить From, To и тему. При извлечении содержимого тела он извлекает только первую строку. Он оставляет оставшиеся строки...
2829 просмотров
schedule
04.12.2023
Python (BeautifulSoup) - цикл For Loop возвращает все результаты для одного div вместо одного ожидаемого значения
Я создаю скребок для гигиены пищевых продуктов. Я дошел до того момента, когда могу успешно получить названия и адреса всех ресторанов в зависимости от того, какой почтовый индекс введен пользователем. Я попытался отобразить значение рейтинга...
256 просмотров
schedule
14.12.2023
Извлечение числового значения без идентификатора класса в html с использованием BeautifulSoup в python
Я хочу извлечь значение «Расчетное население с почтовым индексом в 2015 году» с веб-сайта городских данных для определенного региона ( http://www.city-data.com/zips/17033.html ). Я использовал BeautifulSoup для извлечения значения, но не смог...
244 просмотров
schedule
27.12.2023
разделение запросов urllib2/beautifulsoup на более мелкие пакеты запросов
Я хотел собрать набор идентификаторов патентов по поисковому запросу «автомобиль». Я написал этот код:
import urllib2
from bs4 import BeautifulSoup
import sys
import StringIO
import re
search_term = 'automobile'
patent_list = []
for i in...
37 просмотров
schedule
19.12.2023
Селекторы Bs4: очистите Amazon с помощью Beautiful Soup
Я пытаюсь очистить сайт, на котором есть ссылки на Amazon, с помощью Python, используя эти фреймворки - селен, красивый суп.
Моя цель - очистить следующие сведения о продуктах Amazon -> Название, цена, описание, первый обзор
Но у меня проблемы с...
2241 просмотров
schedule
12.12.2023
Парсинг Python 3 с помощью Bs4
Я пытаюсь очистить HTML-код этого веб-сайта: https://www.idealista.com/venta-viviendas/madrid-madrid/ с помощью Python 3 (используя PyCharm). Меня интересуют только цены на дома, поэтому я сужаю поиск до определенных диапазонов, например:...
283 просмотров
schedule
21.11.2023
pd.read_html bs4 не найден после успешного импорта
Я думаю, что изображение говорит само за себя, но в основном я успешно установил и обновил bs4, успешно импортировал его, как вы видите в приведенной выше записи Jupyter Notebook, но, тем не менее, он говорит мне, что не нашел его при попытке...
65 просмотров
schedule
27.11.2023
Я не могу войти на сайт с сеансами запросов
Я хочу войти на сайт с помощью сеансов запросов.
Например: https://turbobit.net
Но не могу нормально войти, код такой:
# coding=utf-8
import lxml
import re
import requests
import socket
import socks
import sys
import time
from bs4 import...
336 просмотров
schedule
09.11.2023
Проблема с поиском элементов по классам с красивым супом
Я пытаюсь получить название событий на этой странице, используя красивый суп 4: https://www.orbitxch.com/customer/sport/1
Я попытался отфильтровать html-код для тегов с class="biab_item-link biab_market-link js-event-link biab_has-time", если бы...
137 просмотров
schedule
02.11.2023
Не удается получить содержимое статей с помощью beautifulsoup в Python 3.7
Я занимаюсь веб-парсингом с помощью beautifulsoup в python 3.7. Приведенный ниже код успешно очищает дату, заголовок, теги, но не содержимое статей. Вместо этого он дает None.
import time
import requests
from bs4 import BeautifulSoup
from...
89 просмотров
schedule
08.12.2023
Сопоставление шаблонов регулярных выражений в начале строки с помощью BeautifulSoup
В настоящее время я ищу способ выполнить сопоставление с образцом с помощью регулярного выражения в начале имени класса HTML. Шаблон, который я пытаюсь сопоставить:
"col-xs-.*"
Два примера классов на HTML-странице:
<div...
397 просмотров
schedule
25.12.2023
Загрузка/выбор изображений из python
Я пытаюсь загрузить все изображения с веб-сайта, но не могу этого сделать. Как я могу загрузить все изображения из определенного раздела веб-сайта и сохранить их в своем каталоге?
Приведенный ниже код экспортирует все изображение и сохраняет...
43 просмотров
schedule
24.12.2023
Как получить доступ к значению атрибута тега с помощью BeautifulSoup
Я использую BeautifulSoup и запрашиваю веб-скрейпинг. Я знаю, как извлечь атрибут между тегами, но если мне нужно число '4.31' ниже в теге, есть идеи, как его получить?
<div class="starRating" title="4.31">
<svg
...
</svg>...
282 просмотров
schedule
03.11.2023
Невозможно разобрать имена с третьей страницы и далее
Я создал сценарий на Python, используя модуль запросов и библиотеку BeautifulSoup, чтобы получить имена разных участников с веб-сайта. Скрипт может безупречно получить имя с первой и второй страниц. Тем не менее, он удаляет те же имена с третьей...
81 просмотров
schedule
12.11.2023
Python WordCloud не удаляет стоп-слова
Я пытаюсь создать Wordcloud, который автоматически извлекает слова из описания работы и создает облако слов. Если у вас есть стоп-слова = Нет, предполагается удалить список известных стоп-слов wordcloud, но моя программа этого не делает. Я полагаю,...
157 просмотров
schedule
16.11.2023
Красивый суп - выбор класса привел к неожиданным результатам
Я новичок в программировании и изучаю Python с помощью парсинга веб-страниц. То, что я пытаюсь сделать, это захватить следующую строку с сайта, указанного в моем URL-адресе:
<a class=""...
34 просмотров
schedule
10.11.2023
Не удается очистить все ссылки и их подссылки с веб-страницы
Я пытаюсь рекурсивно получить все ссылки, расположенные под Automotive в левой области этого веб-страница .
Все собранные ссылки необходимо использовать рекурсивно, так как каждая ссылка имеет ответвления.
Например, если вы нажмете любую ссылку...
257 просмотров
schedule
29.12.2023