برای web scraping هایی بد قلق از pydoll استفاده کنید. مدت زیادی نیست که این ابزار اومده ولی خیلی قوی عمل میکنه. معمولا سخت ترین سیستم ها برای دور زدن سیستم های گوگله. من الان فارم gmail برای خودم راه انداختم و با همین کدش رو نوشتم. گوگل اصلا متوجه نمیشه. در صورتی که با playwright هزار مدل ژانگولر بازی باید در میاوردیم که گوگل متوجه نشه
https://github.com/autoscrape-labs/pydoll
https://github.com/autoscrape-labs/pydoll
GitHub
GitHub - autoscrape-labs/pydoll: Pydoll is a library for automating chromium-based browsers without a WebDriver, offering realistic…
Pydoll is a library for automating chromium-based browsers without a WebDriver, offering realistic interactions. - GitHub - autoscrape-labs/pydoll: Pydoll is a library for automating chromium-base...
👍44
داشتم فکر میکردم فاصله زمانی بین هر دفعه که میرم سلمونی چقدره که نمودارش رو کشیدم و نتیجه این شد.
به طور میانگین هر ۳۰ روز میرم و بین ساعات ۱۷ تا ۲۰ :)
پ.ن. این نمودار رو قبلا توییت کرده بودم.
https://x.com/vahidbaghi95/status/1871202852133364072
به طور میانگین هر ۳۰ روز میرم و بین ساعات ۱۷ تا ۲۰ :)
پ.ن. این نمودار رو قبلا توییت کرده بودم.
https://x.com/vahidbaghi95/status/1871202852133364072
👍16
میانگین امتیاز همه فیلم و سریال های IMDb در ژانر های مختلف.
رنگ قرمز (سریال ها)
رنگ آبی که زیر چارت قرمز قرار گرفته و فکر میکنم کاملا مشخصه (فیلم ها)
برای رسم این نمودار از دیتاست های زیر استفاده شده :
https://datasets.imdbws.com/title.episode.tsv.gz
https://datasets.imdbws.com/title.ratings.tsv.gz
رنگ قرمز (سریال ها)
رنگ آبی که زیر چارت قرمز قرار گرفته و فکر میکنم کاملا مشخصه (فیلم ها)
برای رسم این نمودار از دیتاست های زیر استفاده شده :
https://datasets.imdbws.com/title.episode.tsv.gz
https://datasets.imdbws.com/title.ratings.tsv.gz
👍15
دیشب 5090 هم داشت. اون خیلی خفن تر از 4090 بود مشخصاتش. امروز اومدم بگیرم دیدم هیچی نمونده. همه رو اجاره کردن. اینم باید تست کنم.
👍17
به عنوان یه کار فان یه کد ساده نوشتم توی cloudflare worker که هر ۱۲ ساعت میاد ارزونترین و گرونترین محصول دیجیکالا رو پیدا میکنه و لاگش رو نگهداری میکنه.
هدف؟ هیچی!
https://digikala-price-history.vahidbaghi.ir/
هدف؟ هیچی!
https://digikala-price-history.vahidbaghi.ir/
👍41
Dataphile
به عنوان یه کار فان یه کد ساده نوشتم توی cloudflare worker که هر ۱۲ ساعت میاد ارزونترین و گرونترین محصول دیجیکالا رو پیدا میکنه و لاگش رو نگهداری میکنه. هدف؟ هیچی! https://digikala-price-history.vahidbaghi.ir/
حالا چی شد ایده به ذهنم رسید؟ من دیجیپلاس دارم. بعد ۴-۵ روز بیشتر ازش نمونده و ۵ تا ارسال رایگان دیگه هم دارم.
رفتم دیجیکالا رو بر اساس ارزانترین سورت کردم. یه سری دریوری سفارش بدم صرفا برای اینکه ارسال رایگان هام رو استفاده کنم 😂
بعد برام جالب شد که ببینم در طول زمان، ارزونترین کالای دیجیکالا چه تغییری میکنه؟ صرفا برای اینکه ببینم چقدر طول میکشه که دیگه کالایی با مبلغ مثلا ۲-۳ هزار تومن اصلا وجود نداشته باشه.
رفتم دیجیکالا رو بر اساس ارزانترین سورت کردم. یه سری دریوری سفارش بدم صرفا برای اینکه ارسال رایگان هام رو استفاده کنم 😂
بعد برام جالب شد که ببینم در طول زمان، ارزونترین کالای دیجیکالا چه تغییری میکنه؟ صرفا برای اینکه ببینم چقدر طول میکشه که دیگه کالایی با مبلغ مثلا ۲-۳ هزار تومن اصلا وجود نداشته باشه.
👍25
حالا کار های دیگهای هم به ذهنم رسیده. مثلا از ارزانترین کالای دیجیکالا انقدر بخرم که ناموجود بشه 😂😂
بعد برم سراغ دومین ارزانترین و .... 😂
بعد برم سراغ دومین ارزانترین و .... 😂
👍22
Forwarded from Reza Jafari
کل سیستم پرامپت Claude لیک شده که 24 هزار توکنه! از لینک زیر میتونید مطالعه کنید.
میتونه راهنمای خیلی خوبی در توسعه llmها براتون باشه.
لینک
@reza_jafari_ai
میتونه راهنمای خیلی خوبی در توسعه llmها براتون باشه.
لینک
@reza_jafari_ai
👍16
تفکیک آگهیهای روزنامهٔ رسمی (۱۳۰۷ تا ۱۳۸۱)
ریپازیتوری زیر حاوی اسکریپت پایتونی است که نسخۀ اسکنشدۀ روزنامهٔ رسمی را—از سال ۱۳۰۷ تا ۱۳۸۱ هجری خورشیدی—بهصورت کاملاً خودکار به باکسهای مجزای آگهی تفکیک میکند.
تصاویر روزنامههای خام از درگاه ocr.rrk.ir بارگیری و سپس این اسکریپت روی تصاویر خروجی اعمال میشود تا هر آگهی را بهشکل تصویر جداگانه استخراج کند. در نهایت توسط سرویس scanify.ir به متن تبدیل (OCR) شدهاند.
https://github.com/Rasmio-com/OldRRK
ریپازیتوری زیر حاوی اسکریپت پایتونی است که نسخۀ اسکنشدۀ روزنامهٔ رسمی را—از سال ۱۳۰۷ تا ۱۳۸۱ هجری خورشیدی—بهصورت کاملاً خودکار به باکسهای مجزای آگهی تفکیک میکند.
تصاویر روزنامههای خام از درگاه ocr.rrk.ir بارگیری و سپس این اسکریپت روی تصاویر خروجی اعمال میشود تا هر آگهی را بهشکل تصویر جداگانه استخراج کند. در نهایت توسط سرویس scanify.ir به متن تبدیل (OCR) شدهاند.
https://github.com/Rasmio-com/OldRRK
GitHub
GitHub - Rasmio-com/OldRRK
Contribute to Rasmio-com/OldRRK development by creating an account on GitHub.
👍27
داشتم در مورد Daylight Saving Time در سال های مختلف در ایران تحقیق میکردم که ببینم چه بازه هایی DST داشتیم و چه بازه هایی نداشتیم که نتیجه به صورت زیر شد.
۱۳۵۶-۱۳۵۷: نخستین دوره اجرای ساعت تابستانی در ایران
۱۳۵۷-۱۳۷۰: توقف اجرای قانون DST
۱۳۷۰-۱۳۸۴: بازگشت و اجرای مجدد ساعت تابستانی به مدت ۱۴ سال
۱۳۸۵-۱۳۸۶: لغو موقت ساعت تابستانی
۱۳۸۷-۱۴۰۱: دوره طولانیمدت اجرای مجدد ساعت تابستانی
۱۴۰۲ تاکنون: لغو قانون ساعت تابستانی
۱۳۵۶-۱۳۵۷: نخستین دوره اجرای ساعت تابستانی در ایران
۱۳۵۷-۱۳۷۰: توقف اجرای قانون DST
۱۳۷۰-۱۳۸۴: بازگشت و اجرای مجدد ساعت تابستانی به مدت ۱۴ سال
۱۳۸۵-۱۳۸۶: لغو موقت ساعت تابستانی
۱۳۸۷-۱۴۰۱: دوره طولانیمدت اجرای مجدد ساعت تابستانی
۱۴۰۲ تاکنون: لغو قانون ساعت تابستانی
👍19