⚡️ Извлекаем данные с веб сайтов
Scrapy — это фреймворк с открытым исходным кодом, позволяющий быстрым и простым способом собирать данные с необходимых сайтов.
Установка:
Запускать скрипт необходимо с помощью
Что бы избавится от логов, можете перенаправить их в файл --
#миниурок #scrapy
Scrapy — это фреймворк с открытым исходным кодом, позволяющий быстрым и простым способом собирать данные с необходимых сайтов.
Установка:
pip install scrapy
Первым делом необходимо создать наследника от scrapy.Spider. В нём вы задаёте ссылки и реализуете метод parse, который обрабатывает результаты запроса. Запускать скрипт необходимо с помощью
scrapy runspider srappy_file.py
, в результате чего вы получите огромный вывод работы фреймворка.Что бы избавится от логов, можете перенаправить их в файл --
logfile=log_file_name.txt
или --nolog
для полного их отключения (не рекомендуется). А чтобы отделить логи от данных парсинга, добавьте в опции -o output_file.json
.#миниурок #scrapy
⚡️ Собираем информацию с сайтов
Для этого часто используются роботы, а основой для их создания может послужить scrapy.
Установка:
Окей, теперь создаём
Теперь просто запускам «паучка »с помощью
#миниурок #scrapy
Для этого часто используются роботы, а основой для их создания может послужить scrapy.
Установка:
pip install scrapy
Первым делом, нам нужно подготовить проект. Вводим в терминал scrapy startproject name
, где на место name вводим имя будущей папки.Окей, теперь создаём
quotes_spider.py
в name/spiders
. Далее вводим туда код из примера выше (его можно найти тут).Теперь просто запускам «паучка »с помощью
scrapy crawl quotes
и наблюдаем за результатом.#миниурок #scrapy