Публикации по тегам beautifulsoup [python, html, parsing, beautifulsoup, html-parsing]

Вопросы по теме 'beautifulsoup'

Парсер BeautifulSoup 3.1 слишком легко ломается

У меня возникли проблемы с разбором некоторых хитрых HTML-кодов с помощью BeautifulSoup. Оказывается, HTMLParser, используемый в более новых версиях, менее устойчив, чем SGMLParser, использовавшийся ранее. Есть ли у BeautifulSoup какой-то...

2413 просмотров

02.12.2023

Beautiful Soup: извлечение href из упорядоченного списка HTML

Я пытаюсь извлечь URL-адреса из упорядоченного списка HTML, используя модуль Python BeautifulSoup. Мой код возвращает список значений NONE, число которых равно количеству элементов в упорядоченном списке, поэтому я знаю, что нахожусь в нужном месте в...

2498 просмотров

python html beautifulsoup html-parsing href

28.10.2023

Каков наилучший способ написания поддерживаемых парсеров?

Мне нужно реализовать несколько парсеров для сканирования некоторых веб-страниц (поскольку сайт не имеет открытого API), извлечения информации и сохранения в базе данных. В настоящее время я использую красивый суп для написания такого кода:...

1906 просмотров

python web web-scraping beautifulsoup

28.12.2023

Как разобрать весь текстовый контент из HTML с помощью Beautiful Soup

Я хотел извлечь содержимое сообщения электронной почты. Он находится в html-содержимом, используется BeautifulSoup , чтобы получить From, To и тему. При извлечении содержимого тела он извлекает только первую строку. Он оставляет оставшиеся строки...

2829 просмотров

python-2.7 html parsing beautifulsoup

04.12.2023

Python (BeautifulSoup) - цикл For Loop возвращает все результаты для одного div вместо одного ожидаемого значения

Я создаю скребок для гигиены пищевых продуктов. Я дошел до того момента, когда могу успешно получить названия и адреса всех ресторанов в зависимости от того, какой почтовый индекс введен пользователем. Я попытался отобразить значение рейтинга...

256 просмотров

python-3.x python web-scraping beautifulsoup

14.12.2023

Извлечение числового значения без идентификатора класса в html с использованием BeautifulSoup в python

Я хочу извлечь значение «Расчетное население с почтовым индексом в 2015 году» с веб-сайта городских данных для определенного региона ( http://www.city-data.com/zips/17033.html ). Я использовал BeautifulSoup для извлечения значения, но не смог...

244 просмотров

python-3.x web-scraping beautifulsoup html-parsing text-parsing

27.12.2023

разделение запросов urllib2/beautifulsoup на более мелкие пакеты запросов

Я хотел собрать набор идентификаторов патентов по поисковому запросу «автомобиль». Я написал этот код: import urllib2 from bs4 import BeautifulSoup import sys import StringIO import re search_term = 'automobile' patent_list = [] for i in...

37 просмотров

beautifulsoup urllib urllib2

19.12.2023

Селекторы Bs4: очистите Amazon с помощью Beautiful Soup

Я пытаюсь очистить сайт, на котором есть ссылки на Amazon, с помощью Python, используя эти фреймворки - селен, красивый суп. Моя цель - очистить следующие сведения о продуктах Amazon -> Название, цена, описание, первый обзор Но у меня проблемы с...

2241 просмотров

python web-scraping beautifulsoup

12.12.2023

Парсинг Python 3 с помощью Bs4

Я пытаюсь очистить HTML-код этого веб-сайта: https://www.idealista.com/venta-viviendas/madrid-madrid/ с помощью Python 3 (используя PyCharm). Меня интересуют только цены на дома, поэтому я сужаю поиск до определенных диапазонов, например:...

283 просмотров

python beautifulsoup

21.11.2023

pd.read_html bs4 не найден после успешного импорта

Я думаю, что изображение говорит само за себя, но в основном я успешно установил и обновил bs4, успешно импортировал его, как вы видите в приведенной выше записи Jupyter Notebook, но, тем не менее, он говорит мне, что не нашел его при попытке...

65 просмотров

python pandas beautifulsoup

27.11.2023

Я не могу войти на сайт с сеансами запросов

Я хочу войти на сайт с помощью сеансов запросов. Например: https://turbobit.net Но не могу нормально войти, код такой: # coding=utf-8 import lxml import re import requests import socket import socks import sys import time from bs4 import...

336 просмотров

python python-requests beautifulsoup

09.11.2023

Проблема с поиском элементов по классам с красивым супом

Я пытаюсь получить название событий на этой странице, используя красивый суп 4: https://www.orbitxch.com/customer/sport/1 Я попытался отфильтровать html-код для тегов с class="biab_item-link biab_market-link js-event-link biab_has-time", если бы...

137 просмотров

python web-scraping beautifulsoup

02.11.2023

Не удается получить содержимое статей с помощью beautifulsoup в Python 3.7

Я занимаюсь веб-парсингом с помощью beautifulsoup в python 3.7. Приведенный ниже код успешно очищает дату, заголовок, теги, но не содержимое статей. Вместо этого он дает None. import time import requests from bs4 import BeautifulSoup from...

89 просмотров

web-scraping beautifulsoup python-3.7

08.12.2023

Сопоставление шаблонов регулярных выражений в начале строки с помощью BeautifulSoup

В настоящее время я ищу способ выполнить сопоставление с образцом с помощью регулярного выражения в начале имени класса HTML. Шаблон, который я пытаюсь сопоставить: "col-xs-.*" Два примера классов на HTML-странице: <div...

397 просмотров

python-3.x beautifulsoup regex

25.12.2023

Загрузка/выбор изображений из python

Я пытаюсь загрузить все изображения с веб-сайта, но не могу этого сделать. Как я могу загрузить все изображения из определенного раздела веб-сайта и сохранить их в своем каталоге? Приведенный ниже код экспортирует все изображение и сохраняет...

43 просмотров

python-3.x beautifulsoup

24.12.2023

Как получить доступ к значению атрибута тега с помощью BeautifulSoup

Я использую BeautifulSoup и запрашиваю веб-скрейпинг. Я знаю, как извлечь атрибут между тегами, но если мне нужно число '4.31' ниже в теге, есть идеи, как его получить? <div class="starRating" title="4.31"> <svg ... </svg>...

282 просмотров

python web-scraping beautifulsoup

03.11.2023

Невозможно разобрать имена с третьей страницы и далее

Я создал сценарий на Python, используя модуль запросов и библиотеку BeautifulSoup, чтобы получить имена разных участников с веб-сайта. Скрипт может безупречно получить имя с первой и второй страниц. Тем не менее, он удаляет те же имена с третьей...

81 просмотров

python-3.x python web-scraping python-requests beautifulsoup

12.11.2023

Python WordCloud не удаляет стоп-слова

Я пытаюсь создать Wordcloud, который автоматически извлекает слова из описания работы и создает облако слов. Если у вас есть стоп-слова = Нет, предполагается удалить список известных стоп-слов wordcloud, но моя программа этого не делает. Я полагаю,...

157 просмотров

python beautifulsoup word-cloud

16.11.2023

Красивый суп - выбор класса привел к неожиданным результатам

Я новичок в программировании и изучаю Python с помощью парсинга веб-страниц. То, что я пытаюсь сделать, это захватить следующую строку с сайта, указанного в моем URL-адресе: <a class=""...

34 просмотров

python request html web-scraping beautifulsoup

10.11.2023

Не удается очистить все ссылки и их подссылки с веб-страницы

Я пытаюсь рекурсивно получить все ссылки, расположенные под Automotive в левой области этого веб-страница . Все собранные ссылки необходимо использовать рекурсивно, так как каждая ссылка имеет ответвления. Например, если вы нажмете любую ссылку...

257 просмотров

python-3.x python web-scraping beautifulsoup

29.12.2023