Python3

آموزش استفاده از ماژول Scrapy 🕷

Scrapy یکی از قدرتمندترین ماژول‌های پایتون برای وب اسکرپینگ است. این ابزار عالی به شما کمک می‌کند تا داده‌ها را از وب‌سایت‌ها استخراج کنید. 🚀

وب اسکرپینگ به فرآیند استخراج اطلاعات از وب‌سایت‌ها گفته می‌شود که معمولاً به صورت خودکار انجام می‌شود. Scrapy این کار را بسیار آسان و کارآمد می‌کند.

مرحله 1: نصب Scrapy 🛠

ابتدا باید این ماژول را نصب کنید. می‌توانید از دستور زیر استفاده کنید:

pip install scrapy

این دستور Scrapy را روی سیستم شما نصب می‌کند.

مرحله 2: ایجاد پروژه Scrapy 📁
یک پروژه جدید ایجاد کنید:

scrapy startproject myproject

به جای myproject نام پروژه خود را وارد کنید. این دستور ساختار اولیه پروژه Scrapy را ایجاد می‌کند.

مرحله 3: ایجاد Spider 🕸
به دایرکتوری پروژه بروید و یک Spider جدید ایجاد کنید:

cd myproject
scrapy genspider example example.com

این دستور یک Spider با نام example ایجاد می‌کند که وب‌سایت example.com را هدف قرار می‌دهد.

مرحله 4: نوشتن کد Spider ✍️
فایل example.py را باز کنید و کد Spider خود را بنویسید. این یک مثال ساده است:

import scrapy

class ExampleSpider(scrapy.Spider):
    name = "example"  # نام Spider
    start_urls = [
        'https://example.com',  # URL شروع
    ]

    def parse(self, response):
        for title in response.css('title'):  # انتخاب عنوان صفحه با استفاده از CSS Selector
            yield {'title': title.get()}  # استخراج عنوان و ذخیره آن

- import scrapy: ماژول Scrapy را وارد می‌کند.
- name: نام Spider که باید یکتا باشد.
- start_urls: لیستی از URL هایی که Spider باید از آنها شروع به کار کند.
- parse: متدی که برای پردازش پاسخ از URL های شروع استفاده می‌شود.
- response.css('title'): انتخاب عنوان صفحه با استفاده از CSS Selector.
- yield: استخراج و بازگشت داده‌ها.

مرحله 5: اجرای Spider 🎬

حالا می‌توانید Spider خود را اجرا کنید و داده‌ها را استخراج کنید:

scrapy crawl example -o output.json

این دستور Spider را اجرا کرده و داده‌های استخراج شده را در یک فایل JSON ذخیره می‌کند.

نکات تکمیلی:

- CSS Selectors: برای انتخاب عناصر HTML از CSS Selectors استفاده کنید.
- XPath: می‌توانید از XPath نیز برای انتخاب عناصر استفاده کنید.
- Pipelines: برای پردازش و ذخیره‌سازی داده‌های استخراج شده از Pipelines استفاده کنید.

استفاده از Scrapy می‌تواند استخراج داده‌ها را به شدت ساده و کارآمد کند. امیدوارم این آموزش برای شما مفید باشد! 😊

(کانال تلگرامی ما)

#Python #Scrapy #وب_اسکرپینگ #آموزش #برنامه_نویسی

Python3

🎓 آموزش و پروژه‌های Python
آموزش‌های کاربردی و پروژه‌های عملی Python برای همه سطوح. 🚀

59 views16:01

About

Blog

Apps

Platform