ML & AI resources – Telegram

ML & AI resources

@ML_AI_resourses

168 subscribers

165 photos

13 videos

7 files

505 links

Explore AI & Deep Learning with us. Join our Telegram channel for the latest insights and tutorials, managed by CE students from Amirkabir University of Technology.

🆔 @ML_AI_resourses

Download Telegram

About

Blog

Apps

Platform

ML & AI resources

168 subscribers

ML & AI resources

نمیدونم شما با این پیج HuggingFace آشنا بودین یا نه ولی اگه آشنا بودین بهتون حسودی میکنم :)

https://huggingface.co/papers/2501.05441

برای اونایی که مثل من آشنایی نداشتن، پیپرا رو تو هاگینک فیس لینک میکنن ملت حاضر در صحنه توی کامیونیتی میتونن بیان کامنت بزارن در رابطش. یه چیزی شبیه ریویو های پابلیک کنفرانسی مثل openreview، ولی خب قاعدتاً خیلی سطحی تر و غیر رسمی تر :)

این پیپرم هایپ امروزه
خلاصش اینه که تو دوره‌ای که دیفیوژن یکه تازی میکنه، نویسنده ها ادعا میکنن gan رو تونستن از گور بلند کنن و باهاش بیسلاین های دیفیوژنی رو هم outperform کنن.

Paper page - The GAN is dead; long live the GAN! A Modern GAN Baseline

Join the discussion on this paper page

141 viewsAmir 01, 09:11

ML & AI resources

ML & AI resources

دو تا ویدیو فوق العاده برای فهم NeRF و چرایی عملکرد فوق العادش: https://youtu.be/WSfEfZ0ilw4?si=Hm8Eirm_Ga0wficH https://youtu.be/dCmCZs2Hpi0?si=BXt28UyhfFJKZkeC

شاید با دیدن این ویدیو فکر کنین که دیگه NeRF آخرت 3D Rconstruction و Novel View Synthesis محسوب میشه ولی باید بگم سخت در اشتباهین. NeRF درسته که نسبت به روش‌های قبل از خودش، روش سریع‌تر و منعطف تری برای این تسکه، با این حال به شدت کنده و ماکزیمم frame rate که شما میتونین از بهینه‌ترین پیاده سازی NeRF بهش برسین در اوردر ۱ تا ۱۰ fps میشه :)
از طرف دیگه، شما به هیچ‌وجه دسترسی به 3D Structure ندارین و صرفا با استفاده از مدل اورفیت شده NeRF می‌تونین به صورت آفلاین view های جدید سنتز کنین.

برای حل این دو مشکل مفهومی تحت عنوان 3D Gaussian Splatting معرفی میشه (اگه اشتباه نکنم در SIGGRAPH23) به این شکل که یه موجودیت سه بعدی رو به جای اینکه به صورت یک Radiance Field در نظر بگیره، به ازای هر point در فضای سه بعدی یک گوی بیضوی (نمیدونم اصلا همچین ترمی درست هست یا نه ولی فعلا از من بپذیرین. در زبان خارجه بهش میگن 3D Gaussian Splat) در نظر گرفته میشه و با در نظر گرفتن Projection های مختلف از این جسم یا صحنه سه‌بعدی و اختلاف این Projected View و تصویر Ground Truth از اون زاویه دید، این گوی‌ها رو آپدیت می‌کنه.
وبسایت رسمی کار:
https://repo-sam.inria.fr/fungraph/3d-gaussian-splatting/

کانسپت جالبیه اگه دوست داشتین بیشتر بدونین این محتوا‌ها رو توصیه می‌کنم (از کوتاه به بلند :) ) :
۱. https://youtu.be/Tnij_xHEnXc?si=ZGAKXxQ7a-lOmDwe
۲. https://youtu.be/VkIJbpdTujE?si=W6NJ4mHbZp5LTK2F
۳. https://youtu.be/IUEzsWOOErE?si=bUkrLPWew6eLn1VX

مرور جزئی‌تر روی مقاله:
https://youtu.be/xTp88ZOtm58?si=nk3BJGwkbqdLj5KW

What is 3D Gaussian Splatting?

How does 3D Gaussian Splatting work? It's kinda complex but we are gonna break it down for you in 3 minutes.

3D Gaussian Splatting for Real-Time Radiance Field Rendering Paper:
https://repo-sam.inria.fr/fungraph/3d-gaussian-splatting/

Shoutout to Maged…

❤4

134 viewsAmir 01, edited 14:25

ML & AI resources

Forwarded from Out of Distribution (Mahdi)

در مورد Quantization و مدل‌های 1.58بیتی

امروز این مقاله رو دیدم که مدل Flux رو در ستینگ ۱.۵۸ بیتی، کوانتایز کرده بود و ادعا کرده بود که تقریبا همون کیفیت مدل Flux رو با صرف مموری کمتر ارائه می‌ده (در واقع پارامتر‌های مدل رو کوانتایز کرده بودند طوری که حجم نگه‌داری این flux کوانتایز‌شده از ۲۳ گیگ به ۳ گیگ و میزان مموری لازم برای اینفرنس گرفتن هم براش از ۲۴ گیگ به کمتر از ۵ گیگ رسیده)

همین بهانه‌ای شد تا وسوسه بشم بیشتر راجع به کوانتیزیشن مدل‌ها بخونم. در همین راستا، این بلاگ فوق‌العاده رو پیدا کردم که مساله رو از کف (از نحوه نمایش اعداد در فورمت‌های مختلف fp32 و fp16 و bfp16 و uint18) شروع کرده و تا کوانتیزیشن ۱.۵۸ بیتی پیش برده.

به صورت خلاصه مساله اینه که در مواجهه با شبکه‌های عصبی ما با دو مجموعه value مواجه هستیم که باید روی این مقادیر، عملیات‌های ریاضی انجام بدیم و اونها رو نگه‌داری کنیم. مقادیر میانی شبکه (یا activation‌ها) و وزن‌های شبکه که پارامترهاش هستند. ما به صورت عادی این مقادیر رو به صورت fp32 باهاشون کار می‌کنیم. حالا کوانتیزیشن قصدش اینه که عوض این شبکه‌ای داشته باشیم که این مقادیر رو fp32 نگه‌داری کنه، به شکل‌های دیگه‌ای مثل fp16 یا int8 نگهداری کنه تا هم مموری کمتری بخوان و هم اگر شد سریع‌تر بشه از شبکه inference گرفت. حالا ما دو نوع quantization می‌تونیم داشته باشیم. Post-Training Quantization و Quantization Aware Training. اولی این شکلیه که اول یک شبکه رو در همون حالت عادی fp32 آموزشش می‌دن و بعد از اتمام آموزش سعی می‌کنن تا مقادیر شبکه رو به تایپ‌های سبک‌تر کوانتایزش کنند. دومی این شکلیه که سعی می‌کنند در همون فرآیند آموزش شبکه، آموزش وزن‌ها رو جوری انجام بدن که انگار واقعا در همون تایپ سبک‌تر دارن انجام می‌شن. دقت کیفیت مدل‌های حاصل از روش دوم، نسبت به روش اول بالاتره قاعدتا. مساله ولی خب به این سادگی‌ها نیست و پیچیدگی‌هایی برای خودش داره. مثلا نمی‌شه که پارامترهای شبکه رو کوانتایز کرد و مقادیر میانی رو به امان خدا ول کرد، این دو تا روی هم تاثیر دارند.

حالا یک سال پیش مقاله‌ای به نام BitNet اومد و هدفش رو کوانتایزکردن وزن‌های شبکه ترنسفورمری در یک بیت گذاشت. یعنی می‌خواست به شبکه‌ای برسه که هر وزن شبکه یا ۱+ باشه یا ۱-. برای این کار اومد مقادیر میانی رو هم به uint8 کوانتایز کرد. اساس کارش هم این شکلی بود که اومد هر چی لایه Linear بود را با لایه ابداعی خودش تحت عنوان BitLlinear جایگزین کرد. در واقع لایه‌های خطی رو با لایه‌های خطی که وزن‌هاش فقط می‌تونستن یک یا منفی یک باشند جایگزین کرد. کلیت ایده هم این شکلیه که موقع آموزش مقدار هر وزن w در همون fp32 نگه‌داری می‌شه ولی از یک فانکشن sign رد می‌شن که مقادیرش رو به مثبت یک یا منفی یک تغییر می‌ده. موقع بک‌وارد که گرادیان عقب میاد این w رو روش اثر می‌گذاره ولی موقع فوروارد پارامتری که در شبکه اثرگذاره همون نتیجه فانکنش sign بر w هست. وقتی هم که فرآیند آموزش تموم شد همون w‌هایی که صفر و یک هستند به عنوان مدل ریلیز می‌شن. مدتی بعد از این مقاله، یک مقاله دیگه با عنوان 1.58 - bit اومد. ایده کلی این مقاله این بود که وزن‌ها بتونن عوض دو مقدار، حالا سه مقدار یک و صفر و منفی‌یک بگیرند. ایده فنی‌تر این مقاله هم این بود که اگر لایه‌خطی رو این جوری فرض بگیریم که در ضرب ماتریسی، عناصر یک بردار ماتریس در یک بردار ضرب می‌شن و بعد با هم جمع می‌شن، با فرض این که وزن‌ها می‌تونن صفر و یک و منفی‌ یک باشند، می‌تونیم که تکه ضرب رو حذف کنیم و صرفا به جمع تبدیلش کنیم و این جوری در محاسبات و ذخیره‌سازی صرفه‌جویی کنیم. از نشانه‌های قدرت این روش این که وقتی روی لاما ۱۳ بیلیونی اعمالش کردند، به مدلی بهتر، سریع تر، با میزان حافظه کمتر و مصرف انرژی کمتری نسبت به لامای ۳ میلیاردی fp16 ای رسیدند و کلی مورد مقایسه دیگه این شکلی.

لینک بلاگ:
https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-quantization

Maartengrootendorst

A Visual Guide to Quantization

Exploring memory-efficient techniques for LLMs

🔥1

123 viewsAmir 01, 22:45

ML & AI resources

Forwarded from Geek Alerts

گوگل معماری جدیدی به نام «تایتان‌ها» (Titans) برای هوش مصنوعی معرفی کرده که میتونه داده‌های بلند مدت رو به خاطر بسپاره.
این از نظر کارایی بهتر از مدل قبلی و معروف Transformers هست.
کارکردش اینجوری که از یک ماژول حافظه عصبی استفاده میکنه و یاد میگیره چه چیزهایی رو به خاطر بیاره و کدوم‌هارو فراموش کنه.
این ماژول اجازه میده میلیون‌ها نقطه دیتا رو بدون از دست دادن با دقت بالا پردازش کنه.
در واقع تو ساختش از حافظه انسان الهام گرفتن، حافظه کوتاه مدت ما دقیق اما محدوده و حافظه بلند مدت ما برای مدت بیشتری دیتا رو ذخیره میکنه.
ما معمولا از ترکیب این‌ها استفاده میکنیم و این کاری هست که titans هم انجام میده.
نتیجه اینه که مدل میتونه مسائل بسیار پیچیده‌تر رو حل کنه.
علی بهروز (ایرانی و دانش‌آموخته شریف) محقق ارشد این معماری جدید در گوگل هست.
https://arxiv.org/pdf/2501.00663v1
analyticsindiamag
@geekalerts

👍4❤2

137 viewsAmir 01, 13:56

ML & AI resources

یکی از موقعیت‌هایی که برای اینترنشیپ دانشجوهای کارشناسی وجود داره، موقعیت موسسه هوش مصنوعی INSAIT کشور بلغارستان هست که تونسته تعداد خوبی از اساتید و ریسرچرهای برجسته این حوزه رو در این موسسه جذب کنه. اگه دوست داشتین که یه تجربه اینترنشیپ بین المللی داشته باشین، این اینترنشیپ رو بهتون توصیه میکنم. اگه دوستان ترم پایین‌تری رو میشناسین که مقطع کارشناسی هستن و ترم ۵ یا ۷ هستن، این پیام رو براشون ارسال کنین :)
ددلاین ثبت نام این اینترنشیپ ۳ مارچ ۲۰۲۵ هست. یه چک کنین شاید شما هم یکی از اینترن های تابستون این موسسه باشین :)

https://www.linkedin.com/posts/insaitinstitute_insait-announces-the-opening-of-applications-activity-7285931040106287104-42-_

🎓 INSAIT announces the opening of applications for its summer research… | INSAIT - Institute for Computer Science, Artificial Intelligence…

🎓 INSAIT announces the opening of applications for its summer research internship program - SURF 2025! 🌟

🌍 This is the 3rd edition of SURF, which in its past 2 editions already attracted some of the most talented young researchers in AI and computing from…

❤3

189 viewsAmir 01, 10:18

ML & AI resources

Forwarded from پیشنهادهایی برای #اپلای #applyabroad

اگه دوست دارید یادبگیرید چطور agent های خودتون را درست کنید و دیپلوی کنید، کمپانی HuggingFace یک دوره رایگان گذاشته. این دوره از یادگیری مفاهیم اصلی شروع میشه و بعد کار با فریمورک های مختلف مثل langchain و llamaIndex و Smolagents را یاد میدن. و آخر هم که چندین مثال واقعی استفاده از agent ها را یاد میگیرید. به نظر میاد که certificate هم میدن (که البته به نظر من دادن یا ندادن اون اصلا مهم نیست!). یکی از بهترین دوره های کاربردی میتونه باشه!
تو این لینک برید و ثبت نام کنید.

https://huggingface.us17.list-manage.com/subscribe?u=7f57e683fa28b51bfc493d048&id=9ed45a3ef6

منبع: https://x.com/MehdiAllahyari/status/1881187533926662635

❤1👍1

127 viewsAmir 01, 08:14

ML & AI resources

Forwarded from Ai Events️ (حمید محمودآبادی)

داستان غول نوظهور چینی هوش مصنوعی Deepseek

شرکت deepseek که امروز همه‌مون از مدل رایگان بی‌محدودیت deepseek v3 به وجود اومدیم و الان هم مدل متن باز رایگان R1 رو به عنوان رقیب برای o1 داده، چطوری شکل گرفته؟
این شرکت بدون هیچ سرمایه‌گذاری خطرپذیر، مدلی متن‌باز تولید کرد که با غول‌هایی مانند OpenAI و Anthropic رقابت می‌کند. مدلی که با یک‌دهم هزینه آموزش و ۲۰ تا ۵۰ برابر ارزان‌تر در استنتاج، به مرزهای جدیدی در هوش مصنوعی دست یافته است.
در سال ۲۰۰۷، سه مهندس به نام‌های Xu Jin، Zheng Dawei و Liang Wenfeng (مدیرعامل فعلی) در دانشگاه Zhejiang با هم آشنا شدند و با هدف ساخت یک صندوق کمّی (Quant) که با هوش مصنوعی پیشرفته کار کند، دور هم جمع شدند. از آن زمان تا امروز یک استراتژی در جذب نیرو انسانی داشتند، به جای استخدام افراد باتجربه، آن‌ها روی استعدادهای جوان و کنجکاو سرمایه‌گذاری کردند. مدیر مدیر عامل deepseek l می‌گه: «ما بیشتر نقش‌های فنی را به فارغ‌التحصیلان جدید یا افرادی با ۱ تا ۲ سال تجربه سپردیم.».

این تیم به مدت ۸ سال به‌طور خاموش روی ایده‌های مختلف معاملات الگوریتمی کار کردند تا اینکه در سال ۲۰۱۵ شرکت High-Flyer را تأسیس کردند. فرهنگ استخدام و نوآوری آن‌ها به خوبی جواب داد. تا سال ۲۰۲۱، آن‌ها به موفقیت‌های چشمگیری دست یافته بودند:
۱۴۰ میلیون دلار سرمایه‌گذاری و ساخت یک پلتفرم بزرگ هوش مصنوعی برای معاملات.
مالکیت ۱۰,۰۰۰ کارت گرافیک NVIDIA A100.
تبدیل شدن به یکی از ۴ صندوق کمّی برتر با ۱۵ میلیارد دلار دارایی تحت مدیریت (AUM).

اما سپس همه چیز فروپاشید. سال ۲۰۲۲ موفقیت High-Flyer به نقطه ضعف آن تبدیل شد. آن‌ها خیلی بزرگ و سریع رشد کرده بودند و شروع به از دست دادن میلیاردها دلار کردند، طی چند فصل متوالی روی سرمایه‌های تحت مدیریت‌شون ضرر دادند و از شاخص بازار بورس چین عقب ماندند.
دولت چین در پی کندی اقتصادی، بحران مسکن و کاهش شاخص بورس، شروع به محدود کردن صنعت معاملات کمّی کرد. شاخص CSI300 (شاخص سهام برتر چین) به پایین‌ترین حد خود رسید و معامله‌گران فرکانس بالا را مقصر اصلی این فروپاشی دانستند. High-Flyer با خطر انقراض مواجه شد.
در سال ۲۰۲۳ آن‌ها تغییر جهت دادند. DeepSeek، یک آزمایشگاه هوش مصنوعی، با استفاده از استعدادهای موجود و ۱۰,۰۰۰ کارت گرافیک خود تأسیس کردند. بدون هیچ سرمایه‌گذاری خطرپذیر. آن‌ها همه چیز را روی این شرط بستند.
آن‌ها همان فلسفه استخدام خود را حفظ کردند: استخدام «فارغ‌التحصیلان نخبه» جای محققان باتجربه هوش مصنوعی.
مدیر عامل deepseek می‌گه: «هیچ جادوگری وجود ندارد. ما بیشتر فارغ‌التحصیلان جدید از دانشگاه‌های برتر، دانشجویان دکتری در سال‌های چهارم یا پنجم و برخی جوانانی که چند سال پیش فارغ‌التحصیل شده‌اند را استخدام می‌کنیم.»

شرکت DeepSeek در اوایل سال ۲۰۲۴ با معرفی DeepSeek v2 را ارائه کردند.
تا سپتامبر، آن‌ها ابتدا مقاله‌ی R1-lite-preview را به عنوان اولین مدلی که با مدل استدلالی o1 OpenAI رقابت می‌کرد، منتشر کردند، . این مدل با استفاده از یک تکنیک جدید یادگیری تقویتی (RL) که از محاسبات زمان استنتاج استفاده می‌کرد، از همه رقبا (متن‌باز یا اختصاصی) پیشی گرفت.
در کریسمس، آن‌ها DeepSeek v3 ارائه کردند که با تنها ۶ میلیون دلار هزینه آموزش، با ChatGPT-4o و Claude 3.5 Sonnet رقابت کرد.
هزینه‌های API که ۲۰ تا ۵۰ برابر ارزان‌تر از رقبا است.

این هفته، آن‌ها اولین مدل استدلالی کاملاً متن‌باز را منتشر کردند که با OpenAI o1 برابری می‌کرد. آن‌ها یافته‌های خود را به‌صورت عمومی به اشتراک گذاشتند و فاش کردند که این مدل را تنها از طریق یادگیری تقویتی (RL) و بدون نیاز به تنظیم دقیق نظارت‌شده یا مدل‌سازی پاداش آموزش داده‌اند.
و هزینه‌های API هنوز ۲۰ تا ۵۰ برابر ارزان‌تر از رقبا هستند:
مدل DeepSeek R1 حدود ۰.۱۴ تا ۰.۵۵ دلار برای هر ۱ میلیون توکن ورودی، ۲.۱۹ دلار برای هر ۱ میلیون توکن خروجی.
مدل OpenAI o1 حدود ۷.۵۰ تا ۱۵ دلار برای هر ۱ میلیون توکن ورودی، ۶۰ دلار برای هر ۱ میلیون توکن خروجی.
Source

@Ai_Events

❤2🔥1

137 viewsAmir 01, 13:14

ML & AI resources

Forwarded from Out of Distribution (Mahdi)

جایگزینی برای کراس انتروپی

صبح یک مقاله جالب دیدم که البته باعث افسردگیم شد. ایده‌اش اینه که پیشنهاد داده لاس cross entropy رو با یک لاس دیگه که خودش اسمش رو گذاشته harmonic loss جایگزین کنیم. لاسش این شکلیه که عوض این که لایه قبلی رو در ماتریس وزن ضرب داخلی کنه و بعد سافتمکس بگیره، میاد برای هر کلاس، یک بردار قابل یادگیری در نظر می‌گیره و بعد فاصله رپرزنتیشن رو با هر کدام از این بردارها می‌گیره و این فاصله‌ها رو به توان یک هایپرپارامتری می‌رسونه و خیلی ساده نرمالایزشون می‌کنه و همین رو لاس می‌گیره. اومده روی تسکهای الگوریتمیک ساده و mnist و lm آموزش داده و نشون داده مدلش با دیتای کمتر نسبت به کراس انتروپی بهتر آموزش می‌بینه، پدیده grokking براش زودتر رخ میده و البته تفسیرپذیری بهتری داره.

افسردگیم حالا اینه که مشابه همین ایده رو چند ماه پیش پیپر کردم فرستادم برای یک ژورنالی و چند ماهه منتظرم جواب بگیرم که احتمالا ریجکته. این دوستمون ولی از اونجایی که MIT هست با arxiv کردن ساده ایده‌اش رو معرفی کرده و البته با حجم امکاناتی هم که دستشه میزان اکسپریمنت قابل توجهی تونسته بگیره.

لینک:
arxiv.org/abs/2502.01628

❤3

116 viewsAmir 01, 09:08

ML & AI resources

Forwarded from LLM Club

ویدیوی جلسه‌های پیشین ژورنال‌کلاب‌:
جلسه‌ی ۱. پرسش و پاسخ آزاد - دکتر علی اسلامی (ضبط نشده)
جلسه‌ی ۲. بهبود قدرت استدلال در مدل‌های زبانی بزرگ (استار و وی‌استار) - معین سلیمی (ضبط نشده)
جلسه‌ی ۳. مدل‌های زبانی چندزبانه؛ چرا و چگونه؟ - دکتر مرضیه فدایی
جلسه‌ی ۴. مروری بر روش‌های به‌کارگیری تکنیک‌های یادگیری تقویتی در مدل‌های زبانی بزرگ و برعکس - معین سلیمی
جلسه‌ی ۵. روش‌های کارای فاین‌تیونینگ در مدل‌های زبانی بزرگ - معین سلیمی
جلسه‌ی ۶. رونمایی از LayerSkip؛ روش جدید متا اِی‌آی برای سرعت‌بخشی به فرآیند تولید توکن در مدل‌های زبانی بزرگ - معین سلیمی
جلسه‌ی ۷. بررسی پژوهش Self-Instruct - یگانه کردی
جلسه‌ی ۸. معماری دوگانه برای بهبود ایمنی و کارایی در مدل‌های زبانی بزرگ - شروین قاسملو
جلسه‌ی ۹. مروری بر برخی از نوآوری‌های اخیر در رگ و چالش‌های آن‌ها - حانیه سرتیپی
جلسه‌ی ۱۰. انتساب مقیاس‌پذیر رفتار مدل‌های زبانی بزرگ به منابع داده و نورون‌ها - طاها بهادری
جلسه‌ی ۱۱. «بهبود قدرت استدلال در مدل‌های زبانی بزرگ»؛ بررسی شش پژوهش پذیرفته شده در آی‌سی‌ام‌ال ۲۰۲۴ - معین سلیمی
جلسه‌ی ۱۲. بررسی دو پژوهش مالتی‌مدال: مالمو و پیکسمو - محمدرضا صالحی (ضبط‌نشده‌‌)
جلسه‌ی ۱۳. عامل‌های مالتی‌مدال‌: استدلال، استفاده از ابزار و حافظه - علی‌رضا فتحی
این لیست به‌روز می‌شود

125 viewsAmir 01, 17:38

ML & AI resources

Forwarded from گیتهاب فارسی

Prompt_Engineering
این مخزن مجموعه‌ای گسترده از راهنماها و پیاده‌سازی‌ها برای روش‌های Prompt Engineering را از مفاهیم پایه تا استراتژی‌های پیشرفته ارائه می‌دهد.

این منبع مهمی برای یادگیری هنر تعامل مؤثر با مدل‌های زبانی بزرگ و استفاده از آن‌ها در برنامه‌های هوش مصنوعی است.

5️⃣ GitHub

🔥2

159 viewsKeivan Ipchi Hagh, 18:42

ML & AI resources

این بلاگ اصلا نیاز به توضیح نداره.
اگه یه جوری کارتون به دیفیوژن گره خورده، کامل‌ترین توضیح رو میتونین اینجا پیدا کنین:
https://goyalpramod.github.io/blogs/demysitifying_diffusion_models/

Pramod’s Blog

Demystifying Diffusion Models

Diffusion models like Stable Diffusion, Flux, Dall-e etc are an enigma built upon multiple ideas and mathematical breakthroughs. So is the nature of it that most tutorials on the topic are extremely complicated or even when simplified talk a lot about it…

❤2👍1

226 viewsAmir 01, 09:41

ML & AI resources

Forwarded from System 2 - Spring 2025

🎥 فیلم جلسه اول درس System 2
🔸 موضوع: Introduction & Motivation
🔸 مدرسین: دکتر رهبان و آقای سمیعی
🔸 تاریخ: ۲۱ بهمن ۱۴۰۳
🔸لینک‌ یوتیوب
🔸 لینک آپارات

142 viewsAmir 01, 19:48

ML & AI resources

توضیح خیلی سرراست روی موضوع ELBO یا Lower Variational Bound که هم توی VAE و هم توی Diffusion Models استفاده شده.

یه مروری روی اینکه مساله چیه:

محاسبه احتمال واقعی فضای input میدونیم intractable هست.

و این روش چجوری بهمون کمک میکنه که بتونیم این رو دور بزنیم:

راه‌حل اینه که ما میخوایم احتمال فضای input رو افزایش بدیم به کمک فریمورک Maximum Likelihood، خب حالا به جای اینکه خود احتمال که intractable هست رو maximize کنیم، یک کران پایین از احتمال به دست میاریم و سعی میکنیم که این کران پایین رو maximize کنیم. تو این حالت پس میتونیم انتظار داشته باشیم که خود احتمال هم افزایش پیدا میکنه (البته با یه اختلافی بین کران پایین و مقدار واقعی)

برای جزییات بیشتر، میتونین به این بلاگ سر بزنین :)

https://jaketae.github.io/study/elbo/

From ELBO to DDPM

In this short post, we will take a look at variational lower bound, also referred to as the evidence lower bound or ELBO for short. While I have referenced ELBO in a previous blog post on VAEs, the proofs and formulations presented in the post seems somewhat…

👌2

195 viewsAmir 01, 14:04

ML & AI resources

ML & AI resources

این بلاگ اصلا نیاز به توضیح نداره. اگه یه جوری کارتون به دیفیوژن گره خورده، کامل‌ترین توضیح رو میتونین اینجا پیدا کنین: https://goyalpramod.github.io/blogs/demysitifying_diffusion_models/

بلاگ پیشنهادی دکتر Yang Song (شروع کننده تعبیر شبکه های score-based از شبکه های دیفیوژنی)، برای شروع درک دیفیوژن:

https://baincapitalventures.notion.site/Diffusion-Without-Tears-14e1469584c180deb0a9ed9aa6ff7a4c

baincapitalventures on Notion

Diffusion Without Tears | Notion

Slater Stich, Bain Capital Ventures

🔥1👌1

226 viewsAmir 01, 09:15

ML & AI resources

Forwarded from DeepMind AI Expert (Farzad 🦅)

اینجا سایت مشهور arxiv اومده مدلهای بزرگ o3 mini و claude و جمنای رو به سایتش اضافه کرده و میتونین با مقالات چت کنین خلاصه کنید مقایسه کنید و...
https://www.alphaxiv.org/explore

#علوم_پزشکی #ایده_جذاب # #مقاله

🔸 مطالب بیشتر 👇👇

✅ @AI_DeepMind
🔸 @AI_Person

Discuss, discover, and read arXiv papers.

🔥2❤1

165 viewsFarhan, 10:11

ML & AI resources

https://youtu.be/0VLAoVGf_74?si=AbQAWNuCgFFuaNGp

How DeepSeek Rewrote the Transformer [MLA]

Thanks to KiwiCo for sponsoring today’s video! Go to https://www.kiwico.com/welchlabs and use code WELCHLABS for 50% off your first monthly club crate or for 20% off your first Panda Crate!

MLA/DeepSeek Poster at 17:12 (Free shipping for a limited time…

183 viewsAmir 01, 15:59

ML & AI resources

https://youtu.be/pneluWj-U-o?si=VUp8lfhiBDM2tGbZ

The Fisher Information

The machine learning consultancy: https://truetheta.io
Join my email list to get educational and useful articles (and nothing else!): https://mailchi.mp/truetheta/true-theta-email-list
Want to work together? See here: https://truetheta.io/about/#want-to-work…

188 viewsAmir 01, 18:14

ML & AI resources

https://www.nvidia.com/en-us/on-demand/session/gtc25-S73269/

Diffusion Models: The Swiss Army Knife for Generative AI in Science | GTC 25 2025 | NVIDIA On-Demand

Diffusion models have transformed generative AI by enabling breakthroughs in diverse applications, such as images, videos, and speech

169 viewsAmir 01, 19:09

ML & AI resources

https://github.com/google-research/tuning_playbook

GitHub - google-research/tuning_playbook: A playbook for systematically maximizing the performance of deep learning models.

A playbook for systematically maximizing the performance of deep learning models. - google-research/tuning_playbook

174 viewsAmir 01, 14:35

ML & AI resources

https://www.youtube.com/watch?v=UKcWu1l_UNw&list=WL&index=2&pp=gAQBiAQB

THIS is why large language models can understand the world

5 years ago, nobody would have guessed that scaling up LLMs would as successful as they are. This belief, in part, was due to the fact that all known statistical learning theory predicted that massively oversized models should overfit, and hence perform worse…

🔥1

200 viewsSeyed Matin Tavakoli Afshari, 04:40

ML & AI resources

https://www.youtube.com/watch?v=I10q6fjPxJ0

Statistics made easy ! ! ! Learn about the t-test, the chi square test, the p value and more

Learning statistics doesn’t need to be difficult. This introduction to stats will give you an understanding of how to apply statistical tests to different types of data. You’ll learn about numeric and categorical data and gain an understanding of when to…

🔥2

208 viewsSeyed Matin Tavakoli Afshari, 18:47