مهندسی داده
792 subscribers
112 photos
7 videos
24 files
314 links
BigData.ir کانال رسمی وب سایت
مطالبی راجع به مهندسی داده و طراحی زیرساخت‌های پردازش دیتا و ابزارهای مدرن دیتا
ارتباط با ادمین: @smbanaei
گروه تخصصی مهندسی داده 👇
https://t.iss.one/bigdata_ir_discussions2
کانال یوتیوب 👇
https://www.youtube.com/@irbigdata
Download Telegram
معرفی سایت DataNerd.tech؛ مرجعی برای تحلیل مهارت‌ها و حقوق مشاغل داده‌ای

سایت DataNerd.tech به عنوان یک مرجع تحلیلی📊، با هدف کمک به متخصصان داده ایجاد شده است تا بتوانند با آگاهی بیشتر، مسیر شغلی خود را انتخاب کنند.

این پلتفرم با جمع‌آوری روزانه حدود ۶۵۰۰ آگهی شغلی از نتایج جستجوی گوگل و تحلیل آن‌ها از طریق پردازش زبان طبیعی (NLP)، پرطرفدارترین مهارت‌ها و متوسط حقوق هر موقعیت شغلی را ارائه می‌دهد.

آدرس سایت : https://datanerd.tech

در بخش مربوط به مهندسین داده، مهارت‌هایی مانند #SQL، #Python، #AWS، #Azure و #Spark جزو پرجستجوترین مهارت‌ها هستند. این داده‌ها به کاربران کمک می‌کند تا بدانند چه مهارت‌هایی در بازار کار بیشتر مورد توجه قرار دارند و بر چه زمینه‌هایی تمرکز بیشتری داشته باشند. همچنین سایت دارای بخشی برای مشاهده روند تغییرات محبوبیت مهارت‌ها در طول زمان است که تصویری دقیق‌تر از تحولات بازار ارائه می‌دهد. 📈

بر اساس تحلیل‌های ارائه‌شده در DataNerd.tech، پردرآمدترین مشاغل 💵 به ترتیب شامل مهندس نرم‌افزار، مهندس یادگیری ماشین و مهندس داده هستند.

از سوی دیگر، گران‌ترین مهارت‌های 💎 بازار عبارتند از #Scala، #Spark، #Snowflake، #Java و #Python که توجه به آن‌ها می‌تواند در افزایش فرصت‌های شغلی و درآمد تأثیر قابل توجهی داشته باشد.

هدف اصلی این سایت، شفاف‌سازی مسیر یادگیری و جلوگیری از هدررفت زمان متخصصان داده در مهارت‌های کم‌ارزش است. DataNerd.tech در مسیر خود به سوی ایجاد یک منبع باز از اطلاعات بازار کار، به کاربران کمک می‌کند تا تصمیمات آگاهانه‌تر و بهینه‌تری برای توسعه مهارت‌های حرفه‌ای خود بگیرند. 🚀


یک حقیقت تلخ : دنیا امروز به مهارت‌های کلاد نیاز بیشتری دارد، اما در ایران، به دلیل محدودیت‌ها، ما بیشتر مجبوریم روی پروژه‌های اپن سورس که امکان اجرا روی سرورهای خودمان را دارند، کار کنیم.


#مهندسی_داده #تحلیل_داده #علم_داده #بازار_کار_داده #هوش_مصنوعی #Data_Engineering #Data_Science #Data_Analytics #Machine_Learning #Career_Growth
👍2
الگوریتم توصیه گر توییتر؛ هنوز هم منبع الهام است—even if you’re not Elon 😄

درست است که بیش از دو سال از متن‌باز شدن الگوریتم توصیه گر توئیتر یا همان بخش «For You» توییتر گذشته، اما این پروژه هنوز هم از آن نمونه‌هایی‌ست که می‌توان بارها و بارها به آن برگشت و نکات تازه‌ای از دلش بیرون کشید. چرا؟ چون وقتی قلب الگوریتمی که روزانه برای میلیاردها نفر محتوا پیشنهاد می‌دهد را ببینید، فقط بحث کد نیست—بلکه با یک زیست‌بوم پیچیده از تصمیم‌گیری، مدل‌سازی و حتی طنز مواجه می‌شوید. بیایید این مخزن کد را خیلی سریع و بدون وارد شدن در جزییات فنی آن مرور کنیم.

https://github.com/FareedKhan-dev/KG-Pipeline.git

🔍 چه خبر در دل الگوریتم؟

الگوریتم توصیه‌گر توییتر از چند مرحله اصلی تشکیل شده:

انتخاب توئیت‌های اولیه - Candidate Sources

ابتدا توییتر از بین صدها میلیون توییت، حدود ۱۵۰۰ توییت «نامزد» را انتخاب می‌کند—هم از کسانی که دنبالشان می‌کنید (In-Network) و هم غریبه‌ها (Out-of-Network).

بخش Ranking

این توییت‌ها سپس توسط یک مدل عصبی با بیش از ۴۸ میلیون پارامتر رتبه‌بندی می‌شوند. هدف؟ پیش‌بینی احتمال تعامل مثبت شما با هر توییت.

فیلتر و اعمال الگوریتم‌های مکاشفه‌ای - Heuristics and Filters

حالا نوبت انواع و اقسام فیلترهاست؛ از فیلتر کردن محتوای تکراری و حساب‌های بلاک‌شده گرفته تا یک فیلتر خاص به‌نام author_is_elon 😅 که اگر نویسنده توییت ایلان ماسک باشد، شرایط متفاوتی اعمال می‌شود!


🎯 و این تازه اول ماجراست... توئیت‌های اولیه را چگونه پیدا کنیم ؟

📌 یکی از بخش‌های جالب الگوریتم، بررسی گرایش‌های سیاسی است. فیلترهایی وجود دارد که حتی در سطوح مختلف بررسی می‌کند آیا یک توییت به گرایش‌های دموکرات یا جمهوری‌خواه نزدیک است یا خیر. (بله! الگوریتم هم سیاست‌زده شده 😄) و شما به کدام گرایش سیاسی نزدیک‌تر هستید!

📌 بخش «Embedding Spaces» الگوریتم، کاربران و توییت‌ها را وارد فضای برداری‌ای می‌کند که بر اساس شباهت علایق و محتوا عمل می‌کند و یافتن سریع توئیت‌های کاندید اولیه را ممکن می‌کند. یکی از مشهورترین این فضاها، SimClusters است.

📌 این کامیونیتی‌ها (Communities) در SimClusters، از گروه‌های کوچک دوستانه گرفته تا کل جمعیت علاقه‌مند به سیاست یا موسیقی پاپ را در بر می‌گیرند—و جالب‌تر اینجاست که هر سه هفته یک‌بار دوباره آموزش داده می‌شوند و جایگاه ما در این جامعه‌ها مدام به‌روزرسانی می‌شود. نتیجه؟ توییت‌هایی که می‌بینیم کاملاً وابسته است به اینکه در آن لحظه، ما در کدام کامیونیتی قرار داریم.


🤖 داستان الگوریتم توییتر چیزی فراتر از مهندسی است

این سیستم نه‌تنها با داده‌های تعاملات انسانی تغذیه می‌شود، بلکه خودش هم بازتابی از ساختارهای اجتماعی و فکری کاربرانش است. شفاف‌سازی توییتر با متن‌باز کردن چنین سیستمی، فارغ از انگیزه‌های تجاری، یک حرکت جسورانه در تاریخ الگوریتم‌های شخصی‌سازی بود.

📁 پروژه در GitHub هنوز پابرجاست. و اگر تا حالا نرفتید نگاهش بندازید، مطمئن باشید چیزهایی خواهید دید که فقط در مستندهای نتفلیکس انتظارش را دارید!

🧠 آیا ما نیاز به ساخت الگوریتمی مشابه داریم؟ شاید.

📊 آیا می‌توان از ایده‌های آن در سیستم‌های توصیه‌گر فروشگاهی، شبکه‌های اجتماعی یا پلتفرم‌های محتوایی استفاده کرد؟ قطعاً.

#الگوریتم_توصیه‌گر #مهندسی_داده #توییتر #توسعه_دهنده #یادگیری_ماشین #توسعه_متن_باز #SimClusters #GraphJet #ML #Scala #ForYou