Python Community

⚡️ Извлекаем данные с веб сайтов

Scrapy — это фреймворк с открытым исходным кодом, позволяющий быстрым и простым способом собирать данные с необходимых сайтов.

Установка:

pip install scrapy

Первым делом необходимо создать наследника от scrapy.Spider. В нём вы задаёте ссылки и реализуете метод parse, который обрабатывает результаты запроса.

Запускать скрипт необходимо с помощью scrapy runspider srappy_file.py, в результате чего вы получите огромный вывод работы фреймворка.

Что бы избавится от логов, можете перенаправить их в файл --logfile=log_file_name.txt или --nolog для полного их отключения (не рекомендуется). А чтобы отделить логи от данных парсинга, добавьте в опции -o output_file.json.

#миниурок #scrapy

8.48K views16:01

Python Community

⚡️ Собираем информацию с сайтов

Для этого часто используются роботы, а основой для их создания может послужить scrapy.

Установка:

pip install scrapy

Первым делом, нам нужно подготовить проект. Вводим в терминал scrapy startproject name, где на место name вводим имя будущей папки.

Окей, теперь создаём quotes_spider.py в name/spiders. Далее вводим туда код из примера выше (его можно найти тут).

Теперь просто запускам «паучка »с помощью scrapy crawl quotes и наблюдаем за результатом.

#миниурок #scrapy

3.85K views16:00

About

Blog

Apps

Platform