Python Community
12.9K subscribers
1.26K photos
37 videos
15 files
740 links
Python Community RU - СНГ сообщество Python-разработчиков

Чат канала: @python_community_chat

Сотрудничество: @cyberJohnny и @Sergey_bzd

РКН реестр:
https://knd.gov.ru/license?id=67847dd98e552d6b54a511ed&registryType=bloggersPermission
Download Telegram
⚡️ Извлекаем данные из HTML файлов

Beautiful soup
— модуль для python, позволяющий обработатывать XML и HTML файлы. Вместе с ним вы можете использовать самые разные парсеры, например — html5lib, lxml, html.parser, xml.

Установка: pip install beautifulsoup4

BeautifulSoup — класс, с которого начинается работа. Он принимает строку для обработки и модуль, который будет парсировать текст.

На самом деле, класс очень большой, поэтому здесь я оставлю документацию и пример для самостоятельного разбора.

Он, если что, на картинке выше.

#миниурок #bs4
⚡️ Парсим сайты

Нужно узнать заголовок последней новости? Отслеживать цену товара? Или автоматически находить решение на Stackoverflow? Вам поможет Beautiful soup.

Установка: pip install beautifulsoup4

Модуль может парсить HTML и XML файлы и находить на них нужную информацию. Например, найти заголовок (тег h1) или все ссылки на сайте.

Функционал довольно большой и весь список можно найти в документации.

#миниурок #bs4
👍13