ML & AI resources
168 subscribers
165 photos
13 videos
7 files
505 links
Explore AI & Deep Learning with us. Join our Telegram channel for the latest insights and tutorials, managed by CE students from Amirkabir University of Technology.

🆔 @ML_AI_resourses
Download Telegram
Forwarded from Ai Events️ (حمید محمودآبادی)
داستان غول نوظهور چینی هوش مصنوعی  Deepseek

شرکت deepseek که امروز همه‌مون از مدل رایگان بی‌محدودیت deepseek v3 به وجود اومدیم و الان هم مدل متن باز رایگان R1 رو به عنوان رقیب برای o1 داده، چطوری شکل گرفته؟
این شرکت بدون هیچ سرمایه‌گذاری خطرپذیر، مدلی متن‌باز تولید کرد که با غول‌هایی مانند OpenAI و Anthropic رقابت می‌کند. مدلی که با یک‌دهم هزینه آموزش و ۲۰ تا ۵۰ برابر ارزان‌تر در استنتاج، به مرزهای جدیدی در هوش مصنوعی دست یافته است.
در سال ۲۰۰۷، سه مهندس به نام‌های Xu Jin، Zheng Dawei و Liang Wenfeng (مدیرعامل فعلی) در دانشگاه Zhejiang با هم آشنا شدند و با هدف ساخت یک صندوق کمّی (Quant) که با هوش مصنوعی پیشرفته کار کند، دور هم جمع شدند. از آن زمان تا امروز یک استراتژی در جذب نیرو انسانی داشتند، به جای استخدام افراد باتجربه، آن‌ها روی استعدادهای جوان و کنجکاو سرمایه‌گذاری کردند. مدیر مدیر عامل deepseek l می‌گه: «ما بیشتر نقش‌های فنی را به فارغ‌التحصیلان جدید یا افرادی با ۱ تا ۲ سال تجربه سپردیم.».

این تیم به مدت ۸ سال به‌طور خاموش روی ایده‌های مختلف معاملات الگوریتمی کار کردند تا اینکه در سال ۲۰۱۵ شرکت High-Flyer را تأسیس کردند. فرهنگ استخدام و نوآوری آن‌ها به خوبی جواب داد. تا سال ۲۰۲۱، آن‌ها به موفقیت‌های چشمگیری دست یافته بودند:
۱۴۰ میلیون دلار سرمایه‌گذاری و ساخت یک پلتفرم بزرگ هوش مصنوعی برای معاملات.
مالکیت ۱۰,۰۰۰ کارت گرافیک NVIDIA A100.
تبدیل شدن به یکی از ۴ صندوق کمّی برتر با ۱۵ میلیارد دلار دارایی تحت مدیریت (AUM).

اما سپس همه چیز فروپاشید. سال ۲۰۲۲ موفقیت High-Flyer به نقطه ضعف آن تبدیل شد. آن‌ها خیلی بزرگ و سریع رشد کرده بودند و شروع به از دست دادن میلیاردها دلار کردند، طی چند فصل متوالی روی سرمایه‌های تحت مدیریت‌شون ضرر دادند و از شاخص بازار بورس چین عقب ماندند.
دولت چین در پی کندی اقتصادی، بحران مسکن و کاهش شاخص بورس، شروع به محدود کردن صنعت معاملات کمّی کرد. شاخص CSI300 (شاخص سهام برتر چین) به پایین‌ترین حد خود رسید و معامله‌گران فرکانس بالا را مقصر اصلی این فروپاشی دانستند. High-Flyer با خطر انقراض مواجه شد.
در سال ۲۰۲۳ آن‌ها تغییر جهت دادند. DeepSeek، یک آزمایشگاه هوش مصنوعی، با استفاده از استعدادهای موجود و ۱۰,۰۰۰ کارت گرافیک خود تأسیس کردند. بدون هیچ سرمایه‌گذاری خطرپذیر. آن‌ها همه چیز را روی این شرط بستند.
آن‌ها همان فلسفه استخدام خود را حفظ کردند: استخدام «فارغ‌التحصیلان نخبه» جای محققان باتجربه هوش مصنوعی.
مدیر عامل deepseek می‌گه: «هیچ جادوگری وجود ندارد. ما بیشتر فارغ‌التحصیلان جدید از دانشگاه‌های برتر، دانشجویان دکتری در سال‌های چهارم یا پنجم و برخی جوانانی که چند سال پیش فارغ‌التحصیل شده‌اند را استخدام می‌کنیم.»

شرکت DeepSeek در اوایل سال ۲۰۲۴ با معرفی DeepSeek v2 را ارائه کردند.
تا سپتامبر، آن‌ها ابتدا مقاله‌ی R1-lite-preview را به عنوان اولین مدلی که با مدل استدلالی o1 OpenAI رقابت می‌کرد، منتشر کردند، . این مدل با استفاده از یک تکنیک جدید یادگیری تقویتی (RL) که از محاسبات زمان استنتاج  استفاده می‌کرد، از همه رقبا (متن‌باز یا اختصاصی) پیشی گرفت.
در کریسمس، آن‌ها DeepSeek v3  ارائه کردند که با تنها ۶ میلیون دلار هزینه آموزش، با ChatGPT-4o و Claude 3.5 Sonnet رقابت کرد.
هزینه‌های API که ۲۰ تا ۵۰ برابر ارزان‌تر از رقبا است.

این هفته، آن‌ها اولین مدل استدلالی کاملاً متن‌باز را منتشر کردند که با OpenAI o1 برابری می‌کرد. آن‌ها یافته‌های خود را به‌صورت عمومی به اشتراک گذاشتند و فاش کردند که این مدل را تنها از طریق یادگیری تقویتی (RL) و بدون نیاز به تنظیم دقیق نظارت‌شده یا مدل‌سازی پاداش آموزش داده‌اند.
و هزینه‌های API هنوز ۲۰ تا ۵۰ برابر ارزان‌تر از رقبا هستند:
مدل DeepSeek R1 حدود  ۰.۱۴ تا ۰.۵۵ دلار برای هر ۱ میلیون توکن ورودی، ۲.۱۹ دلار برای هر ۱ میلیون توکن خروجی.
مدل OpenAI o1 حدود ۷.۵۰ تا ۱۵ دلار برای هر ۱ میلیون توکن ورودی، ۶۰ دلار برای هر ۱ میلیون توکن خروجی.
Source

@Ai_Events
2🔥1
Forwarded from Out of Distribution (Mahdi)
جایگزینی برای کراس انتروپی

صبح یک مقاله جالب دیدم که البته باعث افسردگیم شد. ایده‌اش اینه که پیشنهاد داده لاس cross entropy رو با یک لاس دیگه که خودش اسمش رو گذاشته harmonic loss جایگزین کنیم. لاسش این شکلیه که عوض این که لایه قبلی رو در ماتریس وزن ضرب داخلی کنه و بعد سافتمکس بگیره، میاد برای هر کلاس، یک بردار قابل یادگیری در نظر می‌گیره و بعد فاصله رپرزنتیشن رو با هر کدام از این بردارها می‌گیره و این فاصله‌ها رو به توان یک هایپرپارامتری می‌رسونه و خیلی ساده نرمالایزشون می‌کنه و همین رو لاس می‌گیره. اومده روی تسکهای الگوریتمیک ساده و mnist و lm آموزش داده و نشون داده مدلش با دیتای کمتر نسبت به کراس انتروپی بهتر آموزش می‌بینه، پدیده grokking براش زودتر رخ میده و البته تفسیرپذیری بهتری داره.

افسردگیم حالا اینه که مشابه همین ایده رو چند ماه پیش پیپر کردم فرستادم برای یک ژورنالی و چند ماهه منتظرم جواب بگیرم که احتمالا ریجکته. این دوستمون ولی از اونجایی که MIT هست با arxiv کردن ساده ایده‌اش رو معرفی کرده و البته با حجم امکاناتی هم که دستشه میزان اکسپریمنت قابل توجهی تونسته بگیره.

لینک:
arxiv.org/abs/2502.01628
3
Forwarded from LLM Club
ویدیوی جلسه‌های پیشین ژورنال‌کلاب‌:
جلسه‌ی ۱. پرسش و پاسخ آزاد - دکتر علی اسلامی (ضبط نشده)
جلسه‌ی ۲. بهبود قدرت استدلال در مدل‌های زبانی بزرگ (استار و وی‌استار) - معین سلیمی (ضبط نشده)
جلسه‌ی ۳. مدل‌های زبانی چندزبانه؛ چرا و چگونه؟ - دکتر مرضیه فدایی
جلسه‌ی ۴. مروری بر روش‌های به‌کارگیری تکنیک‌های یادگیری تقویتی در مدل‌های زبانی بزرگ و برعکس - معین سلیمی
جلسه‌ی ۵. روش‌های کارای فاین‌تیونینگ در مدل‌های زبانی بزرگ - معین سلیمی
جلسه‌ی ۶. رونمایی از LayerSkip؛ روش جدید متا اِی‌آی برای سرعت‌بخشی به فرآیند تولید توکن در مدل‌های زبانی بزرگ - معین سلیمی
جلسه‌ی ۷. بررسی پژوهش Self-Instruct - یگانه کردی
جلسه‌ی ۸. معماری دوگانه برای بهبود ایمنی و کارایی در مدل‌های زبانی بزرگ - شروین قاسملو
جلسه‌ی ۹. مروری بر برخی از نوآوری‌های اخیر در رگ و چالش‌های آن‌ها - حانیه سرتیپی
جلسه‌ی ۱۰. انتساب مقیاس‌پذیر رفتار مدل‌های زبانی بزرگ به منابع داده و نورون‌ها - طاها بهادری
جلسه‌ی ۱۱. «بهبود قدرت استدلال در مدل‌های زبانی بزرگ»؛ بررسی شش پژوهش پذیرفته شده در آی‌سی‌ام‌ال ۲۰۲۴ - معین سلیمی
جلسه‌ی ۱۲. بررسی دو پژوهش مالتی‌مدال: مالمو و پیکسمو - محمدرضا صالحی (ضبط‌نشده‌‌)
جلسه‌ی ۱۳. عامل‌های مالتی‌مدال‌: استدلال، استفاده از ابزار و حافظه - علی‌رضا فتحی
این لیست به‌روز می‌شود
Forwarded from گیتهاب فارسی
Prompt_Engineering
این مخزن مجموعه‌ای گسترده از راهنماها و پیاده‌سازی‌ها برای روش‌های Prompt Engineering را از مفاهیم پایه تا استراتژی‌های پیشرفته ارائه می‌دهد.

این منبع مهمی برای یادگیری هنر تعامل مؤثر با مدل‌های زبانی بزرگ و استفاده از آن‌ها در برنامه‌های هوش مصنوعی است.

5️⃣ GitHub
🔥2
Forwarded from System 2 - Spring 2025
🎥 فیلم جلسه اول درس System 2
🔸 موضوع: Introduction & Motivation
🔸 مدرسین: دکتر رهبان و آقای سمیعی
🔸 تاریخ: ۲۱ بهمن ۱۴۰۳
🔸لینک‌ یوتیوب
🔸 لینک آپارات
توضیح خیلی سرراست روی موضوع ELBO یا Lower Variational Bound که هم توی VAE و هم توی Diffusion Models استفاده شده.

یه مروری روی اینکه مساله چیه:
محاسبه احتمال واقعی فضای input میدونیم intractable هست.


و این روش چجوری بهمون کمک میکنه که بتونیم این رو دور بزنیم:
راه‌حل اینه که ما میخوایم احتمال فضای input رو افزایش بدیم به کمک فریمورک Maximum Likelihood، خب حالا به جای اینکه خود احتمال که intractable هست رو maximize کنیم، یک کران پایین از احتمال به دست میاریم و سعی میکنیم که این کران پایین رو maximize کنیم. تو این حالت پس میتونیم انتظار داشته باشیم که خود احتمال هم افزایش پیدا میکنه (البته با یه اختلافی بین کران پایین و مقدار واقعی)


برای جزییات بیشتر، میتونین به این بلاگ سر بزنین :)

https://jaketae.github.io/study/elbo/
👌2
Forwarded from DeepMind AI Expert (Farzad 🦅)
اینجا سایت مشهور arxiv اومده مدلهای بزرگ o3 mini و claude و جمنای رو به سایتش اضافه کرده و میتونین با مقالات چت کنین خلاصه کنید مقایسه کنید و...
https://www.alphaxiv.org/explore

#علوم_پزشکی #ایده_جذاب # #مقاله

🔸 مطالب بیشتر 👇👇

@AI_DeepMind
🔸 @AI_Person
🔥21
Forwarded from DeepMind AI Expert (Farzad 🦅)
این دوره بشدت خوب و کامل از سباستین راسچکا بزرگ که دارای چندین کتاب خوب و کاربردی دیگری هم هست این دوره #یادگیری_عمیق و مدلهای مولد رو ارائه داده علاقمندان این حوزه ببینید

▪️ Intro to Deep Learning and Generative Models by Sebastian Raschka.

#منابع #مدل_مولد #مولد #هوش_مصنوعی #پایتون #برنامه_نویسی


🔸 مطالب بیشتر 👇👇

@AI_DeepMind
🔸 @AI_Person
1👍1
Strong recommend for this book and the JAX/TPU docs, even if you are using Torch / GPUs. Clean notation and mental model for some challenging ideas.

https://github.com/jax-ml/scaling-book/
https://github.com/jax-ml/scaling-book/discussions/25
https://docs.jax.dev/en/latest/notebooks/shard_map.html

Post: https://x.com/srush_nlp/status/1925942348082516432
1
I feel like half of my social media feed is composed of AI grifters saying software developers are not going to make it. Combine that sentiment with some economic headwinds and it's easy to feel like we're all screwed. I think that's bullshit. The best days of our industry lie ahead.

https://dustinewers.com/ignore-the-grifters/
🤔1