Dataphile
2.98K subscribers
66 photos
7 videos
36 files
117 links
در این کانال مطالبی که دوست دارم رو قرار میدم و موضوع خاصی نداره. هر مطلبی دلم بخواد میذارم


https://twitter.com/vahidbaghi95
https://vahidbaghi.ir/blog
@VahidBaghi
Download Telegram
Audio
2. A few regression models to start
#bnomial
👍3
Audio
اومدم و ابیات شاهنامه رو دادم به notebooklm که یه پادکست ازش بسازه.

بخش سیاوش رو انتخاب کردم و از ۲۲ بخشی که داشت، ۹ بخش اولش رو فقط دادم. فقط هم ابیات رو دادم. هیچ توضیحی اضافه نکردم.

میشه کل شاهنامه رو بخش بخش داد و به نظرم خیلی جذابه!
👍43
برای web scraping هایی بد قلق از pydoll استفاده کنید. مدت زیادی نیست که این ابزار اومده ولی خیلی قوی عمل میکنه. معمولا سخت ترین سیستم ها برای دور زدن سیستم های گوگله. من الان فارم gmail برای خودم راه انداختم و با همین کدش رو نوشتم. گوگل اصلا متوجه نمیشه. در صورتی که با playwright هزار مدل ژانگولر بازی باید در میاوردیم که گوگل متوجه نشه

https://github.com/autoscrape-labs/pydoll
👍44
داشتم فکر میکردم فاصله زمانی بین هر دفعه که میرم سلمونی چقدره که نمودارش رو کشیدم و نتیجه این شد.
به طور میانگین هر ۳۰ روز میرم و بین ساعات ۱۷ تا ۲۰ :)

پ.ن. این نمودار رو قبلا توییت کرده بودم.
https://x.com/vahidbaghi95/status/1871202852133364072
👍16
میانگین امتیاز همه فیلم و سریال های IMDb در ژانر های مختلف.

رنگ قرمز (سریال ها)
رنگ آبی که زیر چارت قرمز قرار گرفته و فکر میکنم کاملا مشخصه (فیلم ها)

برای رسم این نمودار از دیتاست های زیر استفاده شده :
https://datasets.imdbws.com/title.episode.tsv.gz
https://datasets.imdbws.com/title.ratings.tsv.gz
👍15
نمودار قبلی رو میشه یه جور دیگه هم دید.

محور افقی : میانگین امتیاز فیلم ها در اون ژانر
محور عمودی : میانگین امتیاز سریال ها در اون ژانر

همونطور که از نمودار قبلی هم مشخصه، ژانر News توی فیلم ها میانگین امتیاز بالاتری داره.
👍13
امتیاز ها رو از دید Box Plot هم میشه دید که میانه امتیاز ها در ژانر های مختلف چه جوری بوده.
👍8
همبستگی بین ژانر ها چه جوری بوده؟

یه فیلم، معمولا چند تا ژانر داره. یعنی مثلا فیلم میتونه کمدی و اکشن باشه. این هیت‌مپ دقیقا داره همین رو نشون میده
👍19
روند میانگین امتیازات ژانر های مختلف در طول زمان
👍17
کدوم ژانر ها بیشترین تعداد فیلم و سریال رو به خودشون اختصاص دادن؟
👍17
یه H200 برای train اجاره کردم. اما به شکل عجیبی فرآیند train روی RTX 4090 سریع تر بود. البته تا جایی که میدونم سری H خودش رو توی scale نشون میده. به خصوص اینکه رم و پهنای باند خیلی بیشتری داره. مثلا همین سرویسی که گرفتم ۱۴۰ گیگ vram داره و ۲۵۸ گیگ هم ram داره
👍11
دیشب 5090 هم داشت. اون خیلی خفن تر از 4090 بود مشخصاتش. امروز اومدم بگیرم دیدم هیچی نمونده. همه رو اجاره کردن. اینم باید تست کنم.
👍17
به عنوان یه کار فان یه کد ساده نوشتم توی cloudflare worker که هر ۱۲ ساعت میاد ارزون‌ترین و گرون‌ترین محصول دیجی‌کالا رو پیدا میکنه و لاگش رو نگهداری میکنه.
هدف؟ هیچی!

https://digikala-price-history.vahidbaghi.ir/
👍41
Dataphile
به عنوان یه کار فان یه کد ساده نوشتم توی cloudflare worker که هر ۱۲ ساعت میاد ارزون‌ترین و گرون‌ترین محصول دیجی‌کالا رو پیدا میکنه و لاگش رو نگهداری میکنه. هدف؟ هیچی! https://digikala-price-history.vahidbaghi.ir/
حالا چی شد ایده به ذهنم رسید؟ من دیجی‌پلاس دارم. بعد ۴-۵ روز بیشتر ازش نمونده و ۵ تا ارسال رایگان دیگه هم دارم.
رفتم دیجی‌کالا رو بر اساس ارزان‌ترین سورت کردم. یه سری دری‌وری سفارش بدم صرفا برای اینکه ارسال رایگان هام رو استفاده کنم 😂
بعد برام جالب شد که ببینم در طول زمان، ارزون‌ترین کالای دیجی‌کالا چه تغییری میکنه؟ صرفا برای اینکه ببینم چقدر طول میکشه که دیگه کالایی با مبلغ مثلا ۲-۳ هزار تومن اصلا وجود نداشته باشه.
👍25
حالا کار های دیگه‌ای هم به ذهنم رسیده. مثلا از ارزان‌ترین کالای دیجی‌کالا انقدر بخرم که ناموجود بشه 😂😂
بعد برم سراغ دومین ارزان‌ترین و .... 😂
👍22
Forwarded from Reza Jafari
کل سیستم پرامپت Claude لیک شده که 24 هزار توکنه! از لینک زیر میتونید مطالعه کنید.
میتونه راهنمای خیلی خوبی در توسعه llmها براتون باشه.

لینک

@reza_jafari_ai
👍16
Audio
اگر شما هم مثل من حوصله نداشتید کلش رو بخونید، این رو دادم به notebooklm و پادکستش رو تولید کرد :)
👍19
تفکیک آگهی‌های روزنامهٔ رسمی (۱۳۰۷ تا ۱۳۸۱)

ریپازیتوری زیر حاوی اسکریپت پایتونی است که نسخۀ اسکن‌شدۀ روزنامهٔ رسمی را—از سال ۱۳۰۷ تا ۱۳۸۱ هجری خورشیدی—به‌صورت کاملاً خودکار به باکس‌های مجزای آگهی تفکیک می‌کند.
تصاویر روزنامه‌های خام از درگاه ocr.rrk.ir بارگیری و سپس این اسکریپت روی تصاویر خروجی اعمال می‌شود تا هر آگهی را به‌شکل تصویر جداگانه استخراج کند. در نهایت توسط سرویس scanify.ir به متن تبدیل (OCR) شده‌اند.

https://github.com/Rasmio-com/OldRRK
👍27
داشتم در مورد Daylight Saving Time در سال های مختلف در ایران تحقیق میکردم که ببینم چه بازه هایی DST داشتیم و چه بازه هایی نداشتیم که نتیجه به صورت زیر شد.


۱۳۵۶-۱۳۵۷: نخستین دوره اجرای ساعت تابستانی در ایران
۱۳۵۷-۱۳۷۰: توقف اجرای قانون DST
۱۳۷۰-۱۳۸۴: بازگشت و اجرای مجدد ساعت تابستانی به مدت ۱۴ سال
۱۳۸۵-۱۳۸۶: لغو موقت ساعت تابستانی
۱۳۸۷-۱۴۰۱: دوره طولانی‌مدت اجرای مجدد ساعت تابستانی
۱۴۰۲ تاکنون: لغو قانون ساعت تابستانی
👍19