Python Community
12.9K subscribers
1.24K photos
34 videos
15 files
730 links
Python Community RU - СНГ сообщество Python-разработчиков

Чат канала: @python_community_chat

Сотрудничество: @cyberJohnny и @Sergey_bzd

РКН реестр:
https://knd.gov.ru/license?id=67847dd98e552d6b54a511ed&registryType=bloggersPermission
Download Telegram
⚡️ Извлекаем данные с веб сайтов

Scrapy — это фреймворк с открытым исходным кодом, позволяющий быстрым и простым способом собирать данные с необходимых сайтов.

Установка: pip install scrapy

Первым делом необходимо создать наследника от scrapy.Spider. В нём вы задаёте ссылки и реализуете метод parse, который обрабатывает результаты запроса.

Запускать скрипт необходимо с помощью scrapy runspider srappy_file.py, в результате чего вы получите огромный вывод работы фреймворка.

Что бы избавится от логов, можете перенаправить их в файл --logfile=log_file_name.txt или --nolog для полного их отключения (не рекомендуется). А чтобы отделить логи от данных парсинга, добавьте в опции -o output_file.json.

#миниурок #scrapy
⚡️ Собираем информацию с сайтов

Для этого часто используются роботы, а основой для их создания может послужить scrapy.

Установка:
pip install scrapy

Первым делом, нам нужно подготовить проект. Вводим в терминал scrapy startproject name, где на место name вводим имя будущей папки.

Окей, теперь создаём quotes_spider.py в name/spiders. Далее вводим туда код из примера выше (его можно найти тут).

Теперь просто запускам «паучка »с помощью scrapy crawl quotes и наблюдаем за результатом.

#миниурок #scrapy