مهندسی داده
792 subscribers
112 photos
7 videos
24 files
314 links
BigData.ir کانال رسمی وب سایت
مطالبی راجع به مهندسی داده و طراحی زیرساخت‌های پردازش دیتا و ابزارهای مدرن دیتا
ارتباط با ادمین: @smbanaei
گروه تخصصی مهندسی داده 👇
https://t.iss.one/bigdata_ir_discussions2
کانال یوتیوب 👇
https://www.youtube.com/@irbigdata
Download Telegram
الگوریتم توصیه گر توییتر؛ هنوز هم منبع الهام است—even if you’re not Elon 😄

درست است که بیش از دو سال از متن‌باز شدن الگوریتم توصیه گر توئیتر یا همان بخش «For You» توییتر گذشته، اما این پروژه هنوز هم از آن نمونه‌هایی‌ست که می‌توان بارها و بارها به آن برگشت و نکات تازه‌ای از دلش بیرون کشید. چرا؟ چون وقتی قلب الگوریتمی که روزانه برای میلیاردها نفر محتوا پیشنهاد می‌دهد را ببینید، فقط بحث کد نیست—بلکه با یک زیست‌بوم پیچیده از تصمیم‌گیری، مدل‌سازی و حتی طنز مواجه می‌شوید. بیایید این مخزن کد را خیلی سریع و بدون وارد شدن در جزییات فنی آن مرور کنیم.

https://github.com/FareedKhan-dev/KG-Pipeline.git

🔍 چه خبر در دل الگوریتم؟

الگوریتم توصیه‌گر توییتر از چند مرحله اصلی تشکیل شده:

انتخاب توئیت‌های اولیه - Candidate Sources

ابتدا توییتر از بین صدها میلیون توییت، حدود ۱۵۰۰ توییت «نامزد» را انتخاب می‌کند—هم از کسانی که دنبالشان می‌کنید (In-Network) و هم غریبه‌ها (Out-of-Network).

بخش Ranking

این توییت‌ها سپس توسط یک مدل عصبی با بیش از ۴۸ میلیون پارامتر رتبه‌بندی می‌شوند. هدف؟ پیش‌بینی احتمال تعامل مثبت شما با هر توییت.

فیلتر و اعمال الگوریتم‌های مکاشفه‌ای - Heuristics and Filters

حالا نوبت انواع و اقسام فیلترهاست؛ از فیلتر کردن محتوای تکراری و حساب‌های بلاک‌شده گرفته تا یک فیلتر خاص به‌نام author_is_elon 😅 که اگر نویسنده توییت ایلان ماسک باشد، شرایط متفاوتی اعمال می‌شود!


🎯 و این تازه اول ماجراست... توئیت‌های اولیه را چگونه پیدا کنیم ؟

📌 یکی از بخش‌های جالب الگوریتم، بررسی گرایش‌های سیاسی است. فیلترهایی وجود دارد که حتی در سطوح مختلف بررسی می‌کند آیا یک توییت به گرایش‌های دموکرات یا جمهوری‌خواه نزدیک است یا خیر. (بله! الگوریتم هم سیاست‌زده شده 😄) و شما به کدام گرایش سیاسی نزدیک‌تر هستید!

📌 بخش «Embedding Spaces» الگوریتم، کاربران و توییت‌ها را وارد فضای برداری‌ای می‌کند که بر اساس شباهت علایق و محتوا عمل می‌کند و یافتن سریع توئیت‌های کاندید اولیه را ممکن می‌کند. یکی از مشهورترین این فضاها، SimClusters است.

📌 این کامیونیتی‌ها (Communities) در SimClusters، از گروه‌های کوچک دوستانه گرفته تا کل جمعیت علاقه‌مند به سیاست یا موسیقی پاپ را در بر می‌گیرند—و جالب‌تر اینجاست که هر سه هفته یک‌بار دوباره آموزش داده می‌شوند و جایگاه ما در این جامعه‌ها مدام به‌روزرسانی می‌شود. نتیجه؟ توییت‌هایی که می‌بینیم کاملاً وابسته است به اینکه در آن لحظه، ما در کدام کامیونیتی قرار داریم.


🤖 داستان الگوریتم توییتر چیزی فراتر از مهندسی است

این سیستم نه‌تنها با داده‌های تعاملات انسانی تغذیه می‌شود، بلکه خودش هم بازتابی از ساختارهای اجتماعی و فکری کاربرانش است. شفاف‌سازی توییتر با متن‌باز کردن چنین سیستمی، فارغ از انگیزه‌های تجاری، یک حرکت جسورانه در تاریخ الگوریتم‌های شخصی‌سازی بود.

📁 پروژه در GitHub هنوز پابرجاست. و اگر تا حالا نرفتید نگاهش بندازید، مطمئن باشید چیزهایی خواهید دید که فقط در مستندهای نتفلیکس انتظارش را دارید!

🧠 آیا ما نیاز به ساخت الگوریتمی مشابه داریم؟ شاید.

📊 آیا می‌توان از ایده‌های آن در سیستم‌های توصیه‌گر فروشگاهی، شبکه‌های اجتماعی یا پلتفرم‌های محتوایی استفاده کرد؟ قطعاً.

#الگوریتم_توصیه‌گر #مهندسی_داده #توییتر #توسعه_دهنده #یادگیری_ماشین #توسعه_متن_باز #SimClusters #GraphJet #ML #Scala #ForYou