Forwarded from Deep Time
خداحافظ Adam
با معرفی ADOPT بهتره Optimizer مدلهای Deep Learning و LLM رو تغییر بدیم. مشکل اساسی Adam در واقع عدم تضمین convergence در فرآیند آپدیت وزنها بود که در ADOPT حل شده. اما این برتری فقط در تئوری نیست و در عمل هم در اکثریت مسائل بهتر بوده.
ایده اصلی و راه حل برای تضمین همگرایی هم دو مورد هست:
۱_ حذف گرادیان کنونی از تخمین momentum دوم
۲_ نرمالایز کردن گرادیان قبل از آپدیت momentum
Paper
Github
کد:
با معرفی ADOPT بهتره Optimizer مدلهای Deep Learning و LLM رو تغییر بدیم. مشکل اساسی Adam در واقع عدم تضمین convergence در فرآیند آپدیت وزنها بود که در ADOPT حل شده. اما این برتری فقط در تئوری نیست و در عمل هم در اکثریت مسائل بهتر بوده.
ایده اصلی و راه حل برای تضمین همگرایی هم دو مورد هست:
۱_ حذف گرادیان کنونی از تخمین momentum دوم
۲_ نرمالایز کردن گرادیان قبل از آپدیت momentum
Paper
Github
کد:
from adopt import ADOPT
#optimizer = Adam(model.parameters(), lr=1e-3)
optimizer = ADOPT(model.parameters(), lr=1e-3)
❤1
Forwarded from PyTorch Howsam
کانال یوتوب Umar Jamil یکی از بهترین کانالهای آموزش مباحث بروز و پیچیده یادگیری عمیق هست. به نظرم تعداد سابسکرایبرها و ویوهاش اصلا در حد محتواش نیست. فقط نگاه کن ویدئوهای آخر کانالش چه آموزشهایی هست:
- پیادهسازی Vision Language Model با پایتورچ از صفر
- تفسیرپذیری در ماشین لرنینگ
- شبکه KAN
- و ...
امروز یک ویدئوی 7 ساعته از آموزش و پیادهسازی Flash Attention منتشر کرده!
فلش اتنشن میدونید چیه؟
یک الگوریتم بهینهسازی شده برای محاسبه اتنشن در شبکههای ترنسفورمری هست که منجر به افزایش سرعت و کاهش مصرف حافظه میشه. به تصویر پایین نگاه کنید؛ سمت راست تصویر، یک نمودار مقایسه زمان محاسبات اتنشن با فلش اتنشن وجود داره. از فلش اتنشن در مدلهای ترنسفورمری کوچک و بزرگ استفاده میشه.
کانال یوتوب Umar Jamil
@pytorch_howsam
- پیادهسازی Vision Language Model با پایتورچ از صفر
- تفسیرپذیری در ماشین لرنینگ
- شبکه KAN
- و ...
امروز یک ویدئوی 7 ساعته از آموزش و پیادهسازی Flash Attention منتشر کرده!
فلش اتنشن میدونید چیه؟
یک الگوریتم بهینهسازی شده برای محاسبه اتنشن در شبکههای ترنسفورمری هست که منجر به افزایش سرعت و کاهش مصرف حافظه میشه. به تصویر پایین نگاه کنید؛ سمت راست تصویر، یک نمودار مقایسه زمان محاسبات اتنشن با فلش اتنشن وجود داره. از فلش اتنشن در مدلهای ترنسفورمری کوچک و بزرگ استفاده میشه.
کانال یوتوب Umar Jamil
@pytorch_howsam
🔥4
Forwarded from PyTorch Howsam
سایت Cohere به مدیریت Luis Serrano و همکاری Jay Alammar و Meor Amer کورسی بنام LLM University ساخته. افرادی رو که اسم بردم، در زمینه تولید محتواهای آموزشی جذاب در هوش مصنوعی سابقه درخشانی دارن. حالا، با همکاری هم، این کورس جالب رو با هدف آشنایی افراد با GenAI LLM NLP راه انداختن.
یک نگاهی بندازیم به ماژولهای این کورس:
1. Large Language Models
2. Text Representation
3. Text Generation
4. Deployment
5. Semantic Search
6. Prompt Engineering
7. Retrieval-Augmented Generation (RAG)
8. Tool Use
9. Cohere on AWS
لینک کورس
@pytorch_howsam
یک نگاهی بندازیم به ماژولهای این کورس:
1. Large Language Models
2. Text Representation
3. Text Generation
4. Deployment
5. Semantic Search
6. Prompt Engineering
7. Retrieval-Augmented Generation (RAG)
8. Tool Use
9. Cohere on AWS
لینک کورس
@pytorch_howsam
Cohere
LLM University (LLMU)
Welcome to LLM University, your premier learning destination for mastering Enterprise AI technologies. Designed for developers and technical professionals, our hub offers comprehensive resources, expert-led courses, and step-by-step guides to help you start…
👍1
Forwarded from مرکز تحقیقات هوش مصنوعی پارت
جامعترین سیستم ارزیابی مدلهای زبانی فارسی متولد شد
🔹 متخصصان مرکز تحقیقات هوش مصنوعی پارت و آزمایشگاه پردازش زبان طبیعی دانشگاه صنعتی امیرکبیر با سرپرستی یکی از اساتید برجسته هوش مصنوعی کشور، سرکار خانم دکتر سعیده ممتازی، جامعترین و قدرتمندترین سیستم ارزیابی مدلهای زبانی فارسی (Open Persian LLM Leaderboard) را توسعه دادند، تا زیستبوم هوش مصنوعی کشور از این پس به سنجهای دقیق و یکپارچه برای ارزیابی LLMهای فارسی مجهز شود.
🔹 این سیستم ارزیابی شامل بیش از 40 هزار نمونه است که بخشی از آنها از چندین بنچمارک معتبر جهانی به فارسی برگردانده شده و بخشی دیگر در داخل کشور از پایه تهیه و برچسبزنی شدهاند. این تعداد نمونه، همواره در حال افزایش و بهروزرسانی است تا ضریب دقت در ارزیابیها هموار بهبود یابد. با این توضیحات، مدل ارائه شده، در کنار برترین بنچمارکهای جهانی قرار میگیرد.
🔹 بخش کوچکی از دادگان این سیستم ارزیابی (بنچمارک) هم اکنون به صورت متن باز در دسترس عموم قرار گرفته است.
🔗 برای ارزیابی مدل زبانی خود و دیگران کافی است کلیک کنید.
🆔 @Partdpai
🔹 متخصصان مرکز تحقیقات هوش مصنوعی پارت و آزمایشگاه پردازش زبان طبیعی دانشگاه صنعتی امیرکبیر با سرپرستی یکی از اساتید برجسته هوش مصنوعی کشور، سرکار خانم دکتر سعیده ممتازی، جامعترین و قدرتمندترین سیستم ارزیابی مدلهای زبانی فارسی (Open Persian LLM Leaderboard) را توسعه دادند، تا زیستبوم هوش مصنوعی کشور از این پس به سنجهای دقیق و یکپارچه برای ارزیابی LLMهای فارسی مجهز شود.
🔹 این سیستم ارزیابی شامل بیش از 40 هزار نمونه است که بخشی از آنها از چندین بنچمارک معتبر جهانی به فارسی برگردانده شده و بخشی دیگر در داخل کشور از پایه تهیه و برچسبزنی شدهاند. این تعداد نمونه، همواره در حال افزایش و بهروزرسانی است تا ضریب دقت در ارزیابیها هموار بهبود یابد. با این توضیحات، مدل ارائه شده، در کنار برترین بنچمارکهای جهانی قرار میگیرد.
🔹 بخش کوچکی از دادگان این سیستم ارزیابی (بنچمارک) هم اکنون به صورت متن باز در دسترس عموم قرار گرفته است.
🔗 برای ارزیابی مدل زبانی خود و دیگران کافی است کلیک کنید.
🆔 @Partdpai
🔥3
Forwarded from مرجع دیتاست فارسی (دیتاهابر)
تو این سایت میتونید مقالاتِ پولیِ مدیوم رو رایگان باز کنید. در واقع خودش اشتراکِ مدیوم خریده و از طریقِ این سایت در دسترسِ عموم قرار داده. مدیوم نقطهضعفهاش رو حل کرده. تمامِ روشهایِ قدیمیِ دورزدن paywall از کار افتاده. فقط همین روش جواب میده.
_Ayub Kokabi_
_Ayub Kokabi_
❤5
Forwarded from DeepMind AI Expert (Farzad 🦅)
نکاتی جذاب برای نوشتن مقالات و کارهای پژوهشی با LaTex
◾️ Tips for Writing a Research Paper using LaTeX
#مقاله
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
◾️ Tips for Writing a Research Paper using LaTeX
#مقاله
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
🔥2👎1
Forwarded from PyTorch Howsam
یک مدتی هست سایتی بنام aman.ai رو کشف کردم؛ حجم محتواهای آموزشی این سایت به شکل عجیبی زیاده! پر از بلاگ پست از سطح مقدماتی تا سطح بالا هست. حتی، کورسهای معروف استنفورد و کورسرا رو نتبرداری کردن! دوست دارم بیشتر بررسیش کنم.
شخصا وبلاگ و تولید محتوا رو دوست دارم و براش زیاد وقت میذارم. اما الان سوالم این هست که اینها چطوری این حجم محتوا رو آماده کردن؟! 🧐
شما فقط به لیست مطالبی که برای LLM آوردن، نگاه کن:
Primers • Overview of Large Language Models
@pytorch_howsam
شخصا وبلاگ و تولید محتوا رو دوست دارم و براش زیاد وقت میذارم. اما الان سوالم این هست که اینها چطوری این حجم محتوا رو آماده کردن؟! 🧐
شما فقط به لیست مطالبی که برای LLM آوردن، نگاه کن:
Primers • Overview of Large Language Models
توجه: برای شروع LLM روی این آموزش سرمایهگذاری نکنید. هم از مطالبی که در صفحه بالا گفتن و هم عنوانش مشخص هست که برای افراد از آب و گل دراومده هست!
@pytorch_howsam
aman.ai
Aman's AI Journal • Primers • Overview of Large Language Models
Aman's AI Journal | Course notes and learning material for Artificial Intelligence and Deep Learning Stanford classes.
Forwarded from هوشیو | رسانه تخصصی هوش مصنوعی
🔸 وبینار تخصصی: داده در مدلهای بزرگ زبانی (LLM)
💡 هوشیو با همکاری پژوهشکده هوش مصنوعی دانشگاه امیرکبیر برگزار میکند:
🗓 زمان: یکشنبه ۲۳ دی ۱۴۰۳، ساعت ۱۸:۳۰
🎙 مدرس: صدرا صبوری، دانشجوی دکتری علوم کامپیوتر در دانشگاه کالیفرنیای جنوبی (USC)
✳️ موضوعات وبینار:
◽️ اهمیت داده در توسعه LLMها
◽️ بررسی میزان دادههای کافی
◽️ روشهای ورود دادهها به مدلها
◽️ اصول تمیزسازی دادهها
◽️ مقایسه Fine-tuning با In-context Learning
◽️ ویژگیها و محدودیتهای In-context Learning
🔹 فرصت ویژه: با حمایت حامیان برنامه، تعداد محدودی بلیت با تخفیف ۸۰٪ در دسترس است!
برای ثبتنام، به لینک زیر مراجعه کنید:
👇
🌐 ثبتنام وبینار داده در LLM
🆔@hooshio
#هوشیو #هوش_مصنوعی #LLM #وبینار
💡 هوشیو با همکاری پژوهشکده هوش مصنوعی دانشگاه امیرکبیر برگزار میکند:
🗓 زمان: یکشنبه ۲۳ دی ۱۴۰۳، ساعت ۱۸:۳۰
🎙 مدرس: صدرا صبوری، دانشجوی دکتری علوم کامپیوتر در دانشگاه کالیفرنیای جنوبی (USC)
✳️ موضوعات وبینار:
◽️ اهمیت داده در توسعه LLMها
◽️ بررسی میزان دادههای کافی
◽️ روشهای ورود دادهها به مدلها
◽️ اصول تمیزسازی دادهها
◽️ مقایسه Fine-tuning با In-context Learning
◽️ ویژگیها و محدودیتهای In-context Learning
🔹 فرصت ویژه: با حمایت حامیان برنامه، تعداد محدودی بلیت با تخفیف ۸۰٪ در دسترس است!
برای ثبتنام، به لینک زیر مراجعه کنید:
👇
🌐 ثبتنام وبینار داده در LLM
🆔@hooshio
#هوشیو #هوش_مصنوعی #LLM #وبینار
👍1🔥1
دو تا ویدیو فوق العاده برای فهم NeRF و چرایی عملکرد فوق العادش:
https://youtu.be/WSfEfZ0ilw4?si=Hm8Eirm_Ga0wficH
https://youtu.be/dCmCZs2Hpi0?si=BXt28UyhfFJKZkeC
https://youtu.be/WSfEfZ0ilw4?si=Hm8Eirm_Ga0wficH
https://youtu.be/dCmCZs2Hpi0?si=BXt28UyhfFJKZkeC
YouTube
NeRFs: Neural Radiance Fields - Paper Explained
❤️ Support the channel ❤️
https://www.youtube.com/channel/UCkzW5JSFwvKRjXABI-UTAkQ/join
Paper: https://arxiv.org/abs/2003.08934
Full title: NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
Paid Courses I recommend for learning (affiliate…
https://www.youtube.com/channel/UCkzW5JSFwvKRjXABI-UTAkQ/join
Paper: https://arxiv.org/abs/2003.08934
Full title: NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
Paid Courses I recommend for learning (affiliate…
نمیدونم شما با این پیج HuggingFace آشنا بودین یا نه ولی اگه آشنا بودین بهتون حسودی میکنم :)
https://huggingface.co/papers/2501.05441
برای اونایی که مثل من آشنایی نداشتن، پیپرا رو تو هاگینک فیس لینک میکنن ملت حاضر در صحنه توی کامیونیتی میتونن بیان کامنت بزارن در رابطش. یه چیزی شبیه ریویو های پابلیک کنفرانسی مثل openreview، ولی خب قاعدتاً خیلی سطحی تر و غیر رسمی تر :)
این پیپرم هایپ امروزه
خلاصش اینه که تو دورهای که دیفیوژن یکه تازی میکنه، نویسنده ها ادعا میکنن gan رو تونستن از گور بلند کنن و باهاش بیسلاین های دیفیوژنی رو هم outperform کنن.
https://huggingface.co/papers/2501.05441
برای اونایی که مثل من آشنایی نداشتن، پیپرا رو تو هاگینک فیس لینک میکنن ملت حاضر در صحنه توی کامیونیتی میتونن بیان کامنت بزارن در رابطش. یه چیزی شبیه ریویو های پابلیک کنفرانسی مثل openreview، ولی خب قاعدتاً خیلی سطحی تر و غیر رسمی تر :)
این پیپرم هایپ امروزه
خلاصش اینه که تو دورهای که دیفیوژن یکه تازی میکنه، نویسنده ها ادعا میکنن gan رو تونستن از گور بلند کنن و باهاش بیسلاین های دیفیوژنی رو هم outperform کنن.
huggingface.co
Paper page - The GAN is dead; long live the GAN! A Modern GAN Baseline
Join the discussion on this paper page
ML & AI resources
دو تا ویدیو فوق العاده برای فهم NeRF و چرایی عملکرد فوق العادش: https://youtu.be/WSfEfZ0ilw4?si=Hm8Eirm_Ga0wficH https://youtu.be/dCmCZs2Hpi0?si=BXt28UyhfFJKZkeC
شاید با دیدن این ویدیو فکر کنین که دیگه NeRF آخرت 3D Rconstruction و Novel View Synthesis محسوب میشه ولی باید بگم سخت در اشتباهین. NeRF درسته که نسبت به روشهای قبل از خودش، روش سریعتر و منعطف تری برای این تسکه، با این حال به شدت کنده و ماکزیمم frame rate که شما میتونین از بهینهترین پیاده سازی NeRF بهش برسین در اوردر ۱ تا ۱۰ fps میشه :)
از طرف دیگه، شما به هیچوجه دسترسی به 3D Structure ندارین و صرفا با استفاده از مدل اورفیت شده NeRF میتونین به صورت آفلاین view های جدید سنتز کنین.
برای حل این دو مشکل مفهومی تحت عنوان 3D Gaussian Splatting معرفی میشه (اگه اشتباه نکنم در SIGGRAPH23) به این شکل که یه موجودیت سه بعدی رو به جای اینکه به صورت یک Radiance Field در نظر بگیره، به ازای هر point در فضای سه بعدی یک گوی بیضوی (نمیدونم اصلا همچین ترمی درست هست یا نه ولی فعلا از من بپذیرین. در زبان خارجه بهش میگن 3D Gaussian Splat) در نظر گرفته میشه و با در نظر گرفتن Projection های مختلف از این جسم یا صحنه سهبعدی و اختلاف این Projected View و تصویر Ground Truth از اون زاویه دید، این گویها رو آپدیت میکنه.
وبسایت رسمی کار:
https://repo-sam.inria.fr/fungraph/3d-gaussian-splatting/
کانسپت جالبیه اگه دوست داشتین بیشتر بدونین این محتواها رو توصیه میکنم (از کوتاه به بلند :) ) :
۱. https://youtu.be/Tnij_xHEnXc?si=ZGAKXxQ7a-lOmDwe
۲. https://youtu.be/VkIJbpdTujE?si=W6NJ4mHbZp5LTK2F
۳. https://youtu.be/IUEzsWOOErE?si=bUkrLPWew6eLn1VX
مرور جزئیتر روی مقاله:
https://youtu.be/xTp88ZOtm58?si=nk3BJGwkbqdLj5KW
از طرف دیگه، شما به هیچوجه دسترسی به 3D Structure ندارین و صرفا با استفاده از مدل اورفیت شده NeRF میتونین به صورت آفلاین view های جدید سنتز کنین.
برای حل این دو مشکل مفهومی تحت عنوان 3D Gaussian Splatting معرفی میشه (اگه اشتباه نکنم در SIGGRAPH23) به این شکل که یه موجودیت سه بعدی رو به جای اینکه به صورت یک Radiance Field در نظر بگیره، به ازای هر point در فضای سه بعدی یک گوی بیضوی (نمیدونم اصلا همچین ترمی درست هست یا نه ولی فعلا از من بپذیرین. در زبان خارجه بهش میگن 3D Gaussian Splat) در نظر گرفته میشه و با در نظر گرفتن Projection های مختلف از این جسم یا صحنه سهبعدی و اختلاف این Projected View و تصویر Ground Truth از اون زاویه دید، این گویها رو آپدیت میکنه.
وبسایت رسمی کار:
https://repo-sam.inria.fr/fungraph/3d-gaussian-splatting/
کانسپت جالبیه اگه دوست داشتین بیشتر بدونین این محتواها رو توصیه میکنم (از کوتاه به بلند :) ) :
۱. https://youtu.be/Tnij_xHEnXc?si=ZGAKXxQ7a-lOmDwe
۲. https://youtu.be/VkIJbpdTujE?si=W6NJ4mHbZp5LTK2F
۳. https://youtu.be/IUEzsWOOErE?si=bUkrLPWew6eLn1VX
مرور جزئیتر روی مقاله:
https://youtu.be/xTp88ZOtm58?si=nk3BJGwkbqdLj5KW
YouTube
What is 3D Gaussian Splatting?
How does 3D Gaussian Splatting work? It's kinda complex but we are gonna break it down for you in 3 minutes.
3D Gaussian Splatting for Real-Time Radiance Field Rendering Paper:
https://repo-sam.inria.fr/fungraph/3d-gaussian-splatting/
Shoutout to Maged…
3D Gaussian Splatting for Real-Time Radiance Field Rendering Paper:
https://repo-sam.inria.fr/fungraph/3d-gaussian-splatting/
Shoutout to Maged…
❤4
Forwarded from Out of Distribution (Mahdi)
در مورد Quantization و مدلهای 1.58بیتی
امروز این مقاله رو دیدم که مدل Flux رو در ستینگ ۱.۵۸ بیتی، کوانتایز کرده بود و ادعا کرده بود که تقریبا همون کیفیت مدل Flux رو با صرف مموری کمتر ارائه میده (در واقع پارامترهای مدل رو کوانتایز کرده بودند طوری که حجم نگهداری این flux کوانتایزشده از ۲۳ گیگ به ۳ گیگ و میزان مموری لازم برای اینفرنس گرفتن هم براش از ۲۴ گیگ به کمتر از ۵ گیگ رسیده)
همین بهانهای شد تا وسوسه بشم بیشتر راجع به کوانتیزیشن مدلها بخونم. در همین راستا، این بلاگ فوقالعاده رو پیدا کردم که مساله رو از کف (از نحوه نمایش اعداد در فورمتهای مختلف fp32 و fp16 و bfp16 و uint18) شروع کرده و تا کوانتیزیشن ۱.۵۸ بیتی پیش برده.
به صورت خلاصه مساله اینه که در مواجهه با شبکههای عصبی ما با دو مجموعه value مواجه هستیم که باید روی این مقادیر، عملیاتهای ریاضی انجام بدیم و اونها رو نگهداری کنیم. مقادیر میانی شبکه (یا activationها) و وزنهای شبکه که پارامترهاش هستند. ما به صورت عادی این مقادیر رو به صورت fp32 باهاشون کار میکنیم. حالا کوانتیزیشن قصدش اینه که عوض این شبکهای داشته باشیم که این مقادیر رو fp32 نگهداری کنه، به شکلهای دیگهای مثل fp16 یا int8 نگهداری کنه تا هم مموری کمتری بخوان و هم اگر شد سریعتر بشه از شبکه inference گرفت. حالا ما دو نوع quantization میتونیم داشته باشیم. Post-Training Quantization و Quantization Aware Training. اولی این شکلیه که اول یک شبکه رو در همون حالت عادی fp32 آموزشش میدن و بعد از اتمام آموزش سعی میکنن تا مقادیر شبکه رو به تایپهای سبکتر کوانتایزش کنند. دومی این شکلیه که سعی میکنند در همون فرآیند آموزش شبکه، آموزش وزنها رو جوری انجام بدن که انگار واقعا در همون تایپ سبکتر دارن انجام میشن. دقت کیفیت مدلهای حاصل از روش دوم، نسبت به روش اول بالاتره قاعدتا. مساله ولی خب به این سادگیها نیست و پیچیدگیهایی برای خودش داره. مثلا نمیشه که پارامترهای شبکه رو کوانتایز کرد و مقادیر میانی رو به امان خدا ول کرد، این دو تا روی هم تاثیر دارند.
حالا یک سال پیش مقالهای به نام BitNet اومد و هدفش رو کوانتایزکردن وزنهای شبکه ترنسفورمری در یک بیت گذاشت. یعنی میخواست به شبکهای برسه که هر وزن شبکه یا ۱+ باشه یا ۱-. برای این کار اومد مقادیر میانی رو هم به uint8 کوانتایز کرد. اساس کارش هم این شکلی بود که اومد هر چی لایه Linear بود را با لایه ابداعی خودش تحت عنوان BitLlinear جایگزین کرد. در واقع لایههای خطی رو با لایههای خطی که وزنهاش فقط میتونستن یک یا منفی یک باشند جایگزین کرد. کلیت ایده هم این شکلیه که موقع آموزش مقدار هر وزن w در همون fp32 نگهداری میشه ولی از یک فانکشن sign رد میشن که مقادیرش رو به مثبت یک یا منفی یک تغییر میده. موقع بکوارد که گرادیان عقب میاد این w رو روش اثر میگذاره ولی موقع فوروارد پارامتری که در شبکه اثرگذاره همون نتیجه فانکنش sign بر w هست. وقتی هم که فرآیند آموزش تموم شد همون wهایی که صفر و یک هستند به عنوان مدل ریلیز میشن. مدتی بعد از این مقاله، یک مقاله دیگه با عنوان 1.58 - bit اومد. ایده کلی این مقاله این بود که وزنها بتونن عوض دو مقدار، حالا سه مقدار یک و صفر و منفییک بگیرند. ایده فنیتر این مقاله هم این بود که اگر لایهخطی رو این جوری فرض بگیریم که در ضرب ماتریسی، عناصر یک بردار ماتریس در یک بردار ضرب میشن و بعد با هم جمع میشن، با فرض این که وزنها میتونن صفر و یک و منفی یک باشند، میتونیم که تکه ضرب رو حذف کنیم و صرفا به جمع تبدیلش کنیم و این جوری در محاسبات و ذخیرهسازی صرفهجویی کنیم. از نشانههای قدرت این روش این که وقتی روی لاما ۱۳ بیلیونی اعمالش کردند، به مدلی بهتر، سریع تر، با میزان حافظه کمتر و مصرف انرژی کمتری نسبت به لامای ۳ میلیاردی fp16 ای رسیدند و کلی مورد مقایسه دیگه این شکلی.
لینک بلاگ:
https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-quantization
امروز این مقاله رو دیدم که مدل Flux رو در ستینگ ۱.۵۸ بیتی، کوانتایز کرده بود و ادعا کرده بود که تقریبا همون کیفیت مدل Flux رو با صرف مموری کمتر ارائه میده (در واقع پارامترهای مدل رو کوانتایز کرده بودند طوری که حجم نگهداری این flux کوانتایزشده از ۲۳ گیگ به ۳ گیگ و میزان مموری لازم برای اینفرنس گرفتن هم براش از ۲۴ گیگ به کمتر از ۵ گیگ رسیده)
همین بهانهای شد تا وسوسه بشم بیشتر راجع به کوانتیزیشن مدلها بخونم. در همین راستا، این بلاگ فوقالعاده رو پیدا کردم که مساله رو از کف (از نحوه نمایش اعداد در فورمتهای مختلف fp32 و fp16 و bfp16 و uint18) شروع کرده و تا کوانتیزیشن ۱.۵۸ بیتی پیش برده.
به صورت خلاصه مساله اینه که در مواجهه با شبکههای عصبی ما با دو مجموعه value مواجه هستیم که باید روی این مقادیر، عملیاتهای ریاضی انجام بدیم و اونها رو نگهداری کنیم. مقادیر میانی شبکه (یا activationها) و وزنهای شبکه که پارامترهاش هستند. ما به صورت عادی این مقادیر رو به صورت fp32 باهاشون کار میکنیم. حالا کوانتیزیشن قصدش اینه که عوض این شبکهای داشته باشیم که این مقادیر رو fp32 نگهداری کنه، به شکلهای دیگهای مثل fp16 یا int8 نگهداری کنه تا هم مموری کمتری بخوان و هم اگر شد سریعتر بشه از شبکه inference گرفت. حالا ما دو نوع quantization میتونیم داشته باشیم. Post-Training Quantization و Quantization Aware Training. اولی این شکلیه که اول یک شبکه رو در همون حالت عادی fp32 آموزشش میدن و بعد از اتمام آموزش سعی میکنن تا مقادیر شبکه رو به تایپهای سبکتر کوانتایزش کنند. دومی این شکلیه که سعی میکنند در همون فرآیند آموزش شبکه، آموزش وزنها رو جوری انجام بدن که انگار واقعا در همون تایپ سبکتر دارن انجام میشن. دقت کیفیت مدلهای حاصل از روش دوم، نسبت به روش اول بالاتره قاعدتا. مساله ولی خب به این سادگیها نیست و پیچیدگیهایی برای خودش داره. مثلا نمیشه که پارامترهای شبکه رو کوانتایز کرد و مقادیر میانی رو به امان خدا ول کرد، این دو تا روی هم تاثیر دارند.
حالا یک سال پیش مقالهای به نام BitNet اومد و هدفش رو کوانتایزکردن وزنهای شبکه ترنسفورمری در یک بیت گذاشت. یعنی میخواست به شبکهای برسه که هر وزن شبکه یا ۱+ باشه یا ۱-. برای این کار اومد مقادیر میانی رو هم به uint8 کوانتایز کرد. اساس کارش هم این شکلی بود که اومد هر چی لایه Linear بود را با لایه ابداعی خودش تحت عنوان BitLlinear جایگزین کرد. در واقع لایههای خطی رو با لایههای خطی که وزنهاش فقط میتونستن یک یا منفی یک باشند جایگزین کرد. کلیت ایده هم این شکلیه که موقع آموزش مقدار هر وزن w در همون fp32 نگهداری میشه ولی از یک فانکشن sign رد میشن که مقادیرش رو به مثبت یک یا منفی یک تغییر میده. موقع بکوارد که گرادیان عقب میاد این w رو روش اثر میگذاره ولی موقع فوروارد پارامتری که در شبکه اثرگذاره همون نتیجه فانکنش sign بر w هست. وقتی هم که فرآیند آموزش تموم شد همون wهایی که صفر و یک هستند به عنوان مدل ریلیز میشن. مدتی بعد از این مقاله، یک مقاله دیگه با عنوان 1.58 - bit اومد. ایده کلی این مقاله این بود که وزنها بتونن عوض دو مقدار، حالا سه مقدار یک و صفر و منفییک بگیرند. ایده فنیتر این مقاله هم این بود که اگر لایهخطی رو این جوری فرض بگیریم که در ضرب ماتریسی، عناصر یک بردار ماتریس در یک بردار ضرب میشن و بعد با هم جمع میشن، با فرض این که وزنها میتونن صفر و یک و منفی یک باشند، میتونیم که تکه ضرب رو حذف کنیم و صرفا به جمع تبدیلش کنیم و این جوری در محاسبات و ذخیرهسازی صرفهجویی کنیم. از نشانههای قدرت این روش این که وقتی روی لاما ۱۳ بیلیونی اعمالش کردند، به مدلی بهتر، سریع تر، با میزان حافظه کمتر و مصرف انرژی کمتری نسبت به لامای ۳ میلیاردی fp16 ای رسیدند و کلی مورد مقایسه دیگه این شکلی.
لینک بلاگ:
https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-quantization
Maartengrootendorst
A Visual Guide to Quantization
Exploring memory-efficient techniques for LLMs
🔥1
Forwarded from Geek Alerts
گوگل معماری جدیدی به نام «تایتانها» (Titans) برای هوش مصنوعی معرفی کرده که میتونه دادههای بلند مدت رو به خاطر بسپاره.
این از نظر کارایی بهتر از مدل قبلی و معروف Transformers هست.
کارکردش اینجوری که از یک ماژول حافظه عصبی استفاده میکنه و یاد میگیره چه چیزهایی رو به خاطر بیاره و کدومهارو فراموش کنه.
این ماژول اجازه میده میلیونها نقطه دیتا رو بدون از دست دادن با دقت بالا پردازش کنه.
در واقع تو ساختش از حافظه انسان الهام گرفتن، حافظه کوتاه مدت ما دقیق اما محدوده و حافظه بلند مدت ما برای مدت بیشتری دیتا رو ذخیره میکنه.
ما معمولا از ترکیب اینها استفاده میکنیم و این کاری هست که titans هم انجام میده.
نتیجه اینه که مدل میتونه مسائل بسیار پیچیدهتر رو حل کنه.
علی بهروز (ایرانی و دانشآموخته شریف) محقق ارشد این معماری جدید در گوگل هست.
https://arxiv.org/pdf/2501.00663v1
analyticsindiamag
@geekalerts
این از نظر کارایی بهتر از مدل قبلی و معروف Transformers هست.
کارکردش اینجوری که از یک ماژول حافظه عصبی استفاده میکنه و یاد میگیره چه چیزهایی رو به خاطر بیاره و کدومهارو فراموش کنه.
این ماژول اجازه میده میلیونها نقطه دیتا رو بدون از دست دادن با دقت بالا پردازش کنه.
در واقع تو ساختش از حافظه انسان الهام گرفتن، حافظه کوتاه مدت ما دقیق اما محدوده و حافظه بلند مدت ما برای مدت بیشتری دیتا رو ذخیره میکنه.
ما معمولا از ترکیب اینها استفاده میکنیم و این کاری هست که titans هم انجام میده.
نتیجه اینه که مدل میتونه مسائل بسیار پیچیدهتر رو حل کنه.
علی بهروز (ایرانی و دانشآموخته شریف) محقق ارشد این معماری جدید در گوگل هست.
https://arxiv.org/pdf/2501.00663v1
analyticsindiamag
@geekalerts
👍4❤2
یکی از موقعیتهایی که برای اینترنشیپ دانشجوهای کارشناسی وجود داره، موقعیت موسسه هوش مصنوعی INSAIT کشور بلغارستان هست که تونسته تعداد خوبی از اساتید و ریسرچرهای برجسته این حوزه رو در این موسسه جذب کنه. اگه دوست داشتین که یه تجربه اینترنشیپ بین المللی داشته باشین، این اینترنشیپ رو بهتون توصیه میکنم. اگه دوستان ترم پایینتری رو میشناسین که مقطع کارشناسی هستن و ترم ۵ یا ۷ هستن، این پیام رو براشون ارسال کنین :)
ددلاین ثبت نام این اینترنشیپ ۳ مارچ ۲۰۲۵ هست. یه چک کنین شاید شما هم یکی از اینترن های تابستون این موسسه باشین :)
https://www.linkedin.com/posts/insaitinstitute_insait-announces-the-opening-of-applications-activity-7285931040106287104-42-_
ددلاین ثبت نام این اینترنشیپ ۳ مارچ ۲۰۲۵ هست. یه چک کنین شاید شما هم یکی از اینترن های تابستون این موسسه باشین :)
https://www.linkedin.com/posts/insaitinstitute_insait-announces-the-opening-of-applications-activity-7285931040106287104-42-_
Linkedin
🎓 INSAIT announces the opening of applications for its summer research… | INSAIT - Institute for Computer Science, Artificial Intelligence…
🎓 INSAIT announces the opening of applications for its summer research internship program - SURF 2025! 🌟
🌍 This is the 3rd edition of SURF, which in its past 2 editions already attracted some of the most talented young researchers in AI and computing from…
🌍 This is the 3rd edition of SURF, which in its past 2 editions already attracted some of the most talented young researchers in AI and computing from…
❤3
Forwarded from پیشنهادهایی برای #اپلای #applyabroad
اگه دوست دارید یادبگیرید چطور agent های خودتون را درست کنید و دیپلوی کنید، کمپانی HuggingFace یک دوره رایگان گذاشته. این دوره از یادگیری مفاهیم اصلی شروع میشه و بعد کار با فریمورک های مختلف مثل langchain و llamaIndex و Smolagents را یاد میدن. و آخر هم که چندین مثال واقعی استفاده از agent ها را یاد میگیرید. به نظر میاد که certificate هم میدن (که البته به نظر من دادن یا ندادن اون اصلا مهم نیست!). یکی از بهترین دوره های کاربردی میتونه باشه!
تو این لینک برید و ثبت نام کنید.
https://huggingface.us17.list-manage.com/subscribe?u=7f57e683fa28b51bfc493d048&id=9ed45a3ef6
منبع: https://x.com/MehdiAllahyari/status/1881187533926662635
تو این لینک برید و ثبت نام کنید.
https://huggingface.us17.list-manage.com/subscribe?u=7f57e683fa28b51bfc493d048&id=9ed45a3ef6
منبع: https://x.com/MehdiAllahyari/status/1881187533926662635
❤1👍1
Forwarded from Ai Events️ (حمید محمودآبادی)
داستان غول نوظهور چینی هوش مصنوعی Deepseek
شرکت deepseek که امروز همهمون از مدل رایگان بیمحدودیت deepseek v3 به وجود اومدیم و الان هم مدل متن باز رایگان R1 رو به عنوان رقیب برای o1 داده، چطوری شکل گرفته؟
این شرکت بدون هیچ سرمایهگذاری خطرپذیر، مدلی متنباز تولید کرد که با غولهایی مانند OpenAI و Anthropic رقابت میکند. مدلی که با یکدهم هزینه آموزش و ۲۰ تا ۵۰ برابر ارزانتر در استنتاج، به مرزهای جدیدی در هوش مصنوعی دست یافته است.
در سال ۲۰۰۷، سه مهندس به نامهای Xu Jin، Zheng Dawei و Liang Wenfeng (مدیرعامل فعلی) در دانشگاه Zhejiang با هم آشنا شدند و با هدف ساخت یک صندوق کمّی (Quant) که با هوش مصنوعی پیشرفته کار کند، دور هم جمع شدند. از آن زمان تا امروز یک استراتژی در جذب نیرو انسانی داشتند، به جای استخدام افراد باتجربه، آنها روی استعدادهای جوان و کنجکاو سرمایهگذاری کردند. مدیر مدیر عامل deepseek l میگه: «ما بیشتر نقشهای فنی را به فارغالتحصیلان جدید یا افرادی با ۱ تا ۲ سال تجربه سپردیم.».
این تیم به مدت ۸ سال بهطور خاموش روی ایدههای مختلف معاملات الگوریتمی کار کردند تا اینکه در سال ۲۰۱۵ شرکت High-Flyer را تأسیس کردند. فرهنگ استخدام و نوآوری آنها به خوبی جواب داد. تا سال ۲۰۲۱، آنها به موفقیتهای چشمگیری دست یافته بودند:
۱۴۰ میلیون دلار سرمایهگذاری و ساخت یک پلتفرم بزرگ هوش مصنوعی برای معاملات.
مالکیت ۱۰,۰۰۰ کارت گرافیک NVIDIA A100.
تبدیل شدن به یکی از ۴ صندوق کمّی برتر با ۱۵ میلیارد دلار دارایی تحت مدیریت (AUM).
اما سپس همه چیز فروپاشید. سال ۲۰۲۲ موفقیت High-Flyer به نقطه ضعف آن تبدیل شد. آنها خیلی بزرگ و سریع رشد کرده بودند و شروع به از دست دادن میلیاردها دلار کردند، طی چند فصل متوالی روی سرمایههای تحت مدیریتشون ضرر دادند و از شاخص بازار بورس چین عقب ماندند.
دولت چین در پی کندی اقتصادی، بحران مسکن و کاهش شاخص بورس، شروع به محدود کردن صنعت معاملات کمّی کرد. شاخص CSI300 (شاخص سهام برتر چین) به پایینترین حد خود رسید و معاملهگران فرکانس بالا را مقصر اصلی این فروپاشی دانستند. High-Flyer با خطر انقراض مواجه شد.
در سال ۲۰۲۳ آنها تغییر جهت دادند. DeepSeek، یک آزمایشگاه هوش مصنوعی، با استفاده از استعدادهای موجود و ۱۰,۰۰۰ کارت گرافیک خود تأسیس کردند. بدون هیچ سرمایهگذاری خطرپذیر. آنها همه چیز را روی این شرط بستند.
آنها همان فلسفه استخدام خود را حفظ کردند: استخدام «فارغالتحصیلان نخبه» جای محققان باتجربه هوش مصنوعی.
مدیر عامل deepseek میگه: «هیچ جادوگری وجود ندارد. ما بیشتر فارغالتحصیلان جدید از دانشگاههای برتر، دانشجویان دکتری در سالهای چهارم یا پنجم و برخی جوانانی که چند سال پیش فارغالتحصیل شدهاند را استخدام میکنیم.»
شرکت DeepSeek در اوایل سال ۲۰۲۴ با معرفی DeepSeek v2 را ارائه کردند.
تا سپتامبر، آنها ابتدا مقالهی R1-lite-preview را به عنوان اولین مدلی که با مدل استدلالی o1 OpenAI رقابت میکرد، منتشر کردند، . این مدل با استفاده از یک تکنیک جدید یادگیری تقویتی (RL) که از محاسبات زمان استنتاج استفاده میکرد، از همه رقبا (متنباز یا اختصاصی) پیشی گرفت.
در کریسمس، آنها DeepSeek v3 ارائه کردند که با تنها ۶ میلیون دلار هزینه آموزش، با ChatGPT-4o و Claude 3.5 Sonnet رقابت کرد.
هزینههای API که ۲۰ تا ۵۰ برابر ارزانتر از رقبا است.
این هفته، آنها اولین مدل استدلالی کاملاً متنباز را منتشر کردند که با OpenAI o1 برابری میکرد. آنها یافتههای خود را بهصورت عمومی به اشتراک گذاشتند و فاش کردند که این مدل را تنها از طریق یادگیری تقویتی (RL) و بدون نیاز به تنظیم دقیق نظارتشده یا مدلسازی پاداش آموزش دادهاند.
و هزینههای API هنوز ۲۰ تا ۵۰ برابر ارزانتر از رقبا هستند:
مدل DeepSeek R1 حدود ۰.۱۴ تا ۰.۵۵ دلار برای هر ۱ میلیون توکن ورودی، ۲.۱۹ دلار برای هر ۱ میلیون توکن خروجی.
مدل OpenAI o1 حدود ۷.۵۰ تا ۱۵ دلار برای هر ۱ میلیون توکن ورودی، ۶۰ دلار برای هر ۱ میلیون توکن خروجی.
Source
@Ai_Events
شرکت deepseek که امروز همهمون از مدل رایگان بیمحدودیت deepseek v3 به وجود اومدیم و الان هم مدل متن باز رایگان R1 رو به عنوان رقیب برای o1 داده، چطوری شکل گرفته؟
این شرکت بدون هیچ سرمایهگذاری خطرپذیر، مدلی متنباز تولید کرد که با غولهایی مانند OpenAI و Anthropic رقابت میکند. مدلی که با یکدهم هزینه آموزش و ۲۰ تا ۵۰ برابر ارزانتر در استنتاج، به مرزهای جدیدی در هوش مصنوعی دست یافته است.
در سال ۲۰۰۷، سه مهندس به نامهای Xu Jin، Zheng Dawei و Liang Wenfeng (مدیرعامل فعلی) در دانشگاه Zhejiang با هم آشنا شدند و با هدف ساخت یک صندوق کمّی (Quant) که با هوش مصنوعی پیشرفته کار کند، دور هم جمع شدند. از آن زمان تا امروز یک استراتژی در جذب نیرو انسانی داشتند، به جای استخدام افراد باتجربه، آنها روی استعدادهای جوان و کنجکاو سرمایهگذاری کردند. مدیر مدیر عامل deepseek l میگه: «ما بیشتر نقشهای فنی را به فارغالتحصیلان جدید یا افرادی با ۱ تا ۲ سال تجربه سپردیم.».
این تیم به مدت ۸ سال بهطور خاموش روی ایدههای مختلف معاملات الگوریتمی کار کردند تا اینکه در سال ۲۰۱۵ شرکت High-Flyer را تأسیس کردند. فرهنگ استخدام و نوآوری آنها به خوبی جواب داد. تا سال ۲۰۲۱، آنها به موفقیتهای چشمگیری دست یافته بودند:
۱۴۰ میلیون دلار سرمایهگذاری و ساخت یک پلتفرم بزرگ هوش مصنوعی برای معاملات.
مالکیت ۱۰,۰۰۰ کارت گرافیک NVIDIA A100.
تبدیل شدن به یکی از ۴ صندوق کمّی برتر با ۱۵ میلیارد دلار دارایی تحت مدیریت (AUM).
اما سپس همه چیز فروپاشید. سال ۲۰۲۲ موفقیت High-Flyer به نقطه ضعف آن تبدیل شد. آنها خیلی بزرگ و سریع رشد کرده بودند و شروع به از دست دادن میلیاردها دلار کردند، طی چند فصل متوالی روی سرمایههای تحت مدیریتشون ضرر دادند و از شاخص بازار بورس چین عقب ماندند.
دولت چین در پی کندی اقتصادی، بحران مسکن و کاهش شاخص بورس، شروع به محدود کردن صنعت معاملات کمّی کرد. شاخص CSI300 (شاخص سهام برتر چین) به پایینترین حد خود رسید و معاملهگران فرکانس بالا را مقصر اصلی این فروپاشی دانستند. High-Flyer با خطر انقراض مواجه شد.
در سال ۲۰۲۳ آنها تغییر جهت دادند. DeepSeek، یک آزمایشگاه هوش مصنوعی، با استفاده از استعدادهای موجود و ۱۰,۰۰۰ کارت گرافیک خود تأسیس کردند. بدون هیچ سرمایهگذاری خطرپذیر. آنها همه چیز را روی این شرط بستند.
آنها همان فلسفه استخدام خود را حفظ کردند: استخدام «فارغالتحصیلان نخبه» جای محققان باتجربه هوش مصنوعی.
مدیر عامل deepseek میگه: «هیچ جادوگری وجود ندارد. ما بیشتر فارغالتحصیلان جدید از دانشگاههای برتر، دانشجویان دکتری در سالهای چهارم یا پنجم و برخی جوانانی که چند سال پیش فارغالتحصیل شدهاند را استخدام میکنیم.»
شرکت DeepSeek در اوایل سال ۲۰۲۴ با معرفی DeepSeek v2 را ارائه کردند.
تا سپتامبر، آنها ابتدا مقالهی R1-lite-preview را به عنوان اولین مدلی که با مدل استدلالی o1 OpenAI رقابت میکرد، منتشر کردند، . این مدل با استفاده از یک تکنیک جدید یادگیری تقویتی (RL) که از محاسبات زمان استنتاج استفاده میکرد، از همه رقبا (متنباز یا اختصاصی) پیشی گرفت.
در کریسمس، آنها DeepSeek v3 ارائه کردند که با تنها ۶ میلیون دلار هزینه آموزش، با ChatGPT-4o و Claude 3.5 Sonnet رقابت کرد.
هزینههای API که ۲۰ تا ۵۰ برابر ارزانتر از رقبا است.
این هفته، آنها اولین مدل استدلالی کاملاً متنباز را منتشر کردند که با OpenAI o1 برابری میکرد. آنها یافتههای خود را بهصورت عمومی به اشتراک گذاشتند و فاش کردند که این مدل را تنها از طریق یادگیری تقویتی (RL) و بدون نیاز به تنظیم دقیق نظارتشده یا مدلسازی پاداش آموزش دادهاند.
و هزینههای API هنوز ۲۰ تا ۵۰ برابر ارزانتر از رقبا هستند:
مدل DeepSeek R1 حدود ۰.۱۴ تا ۰.۵۵ دلار برای هر ۱ میلیون توکن ورودی، ۲.۱۹ دلار برای هر ۱ میلیون توکن خروجی.
مدل OpenAI o1 حدود ۷.۵۰ تا ۱۵ دلار برای هر ۱ میلیون توکن ورودی، ۶۰ دلار برای هر ۱ میلیون توکن خروجی.
Source
@Ai_Events
❤2🔥1
Forwarded from Out of Distribution (Mahdi)
جایگزینی برای کراس انتروپی
صبح یک مقاله جالب دیدم که البته باعث افسردگیم شد. ایدهاش اینه که پیشنهاد داده لاس cross entropy رو با یک لاس دیگه که خودش اسمش رو گذاشته harmonic loss جایگزین کنیم. لاسش این شکلیه که عوض این که لایه قبلی رو در ماتریس وزن ضرب داخلی کنه و بعد سافتمکس بگیره، میاد برای هر کلاس، یک بردار قابل یادگیری در نظر میگیره و بعد فاصله رپرزنتیشن رو با هر کدام از این بردارها میگیره و این فاصلهها رو به توان یک هایپرپارامتری میرسونه و خیلی ساده نرمالایزشون میکنه و همین رو لاس میگیره. اومده روی تسکهای الگوریتمیک ساده و mnist و lm آموزش داده و نشون داده مدلش با دیتای کمتر نسبت به کراس انتروپی بهتر آموزش میبینه، پدیده grokking براش زودتر رخ میده و البته تفسیرپذیری بهتری داره.
افسردگیم حالا اینه که مشابه همین ایده رو چند ماه پیش پیپر کردم فرستادم برای یک ژورنالی و چند ماهه منتظرم جواب بگیرم که احتمالا ریجکته. این دوستمون ولی از اونجایی که MIT هست با arxiv کردن ساده ایدهاش رو معرفی کرده و البته با حجم امکاناتی هم که دستشه میزان اکسپریمنت قابل توجهی تونسته بگیره.
لینک:
arxiv.org/abs/2502.01628
صبح یک مقاله جالب دیدم که البته باعث افسردگیم شد. ایدهاش اینه که پیشنهاد داده لاس cross entropy رو با یک لاس دیگه که خودش اسمش رو گذاشته harmonic loss جایگزین کنیم. لاسش این شکلیه که عوض این که لایه قبلی رو در ماتریس وزن ضرب داخلی کنه و بعد سافتمکس بگیره، میاد برای هر کلاس، یک بردار قابل یادگیری در نظر میگیره و بعد فاصله رپرزنتیشن رو با هر کدام از این بردارها میگیره و این فاصلهها رو به توان یک هایپرپارامتری میرسونه و خیلی ساده نرمالایزشون میکنه و همین رو لاس میگیره. اومده روی تسکهای الگوریتمیک ساده و mnist و lm آموزش داده و نشون داده مدلش با دیتای کمتر نسبت به کراس انتروپی بهتر آموزش میبینه، پدیده grokking براش زودتر رخ میده و البته تفسیرپذیری بهتری داره.
افسردگیم حالا اینه که مشابه همین ایده رو چند ماه پیش پیپر کردم فرستادم برای یک ژورنالی و چند ماهه منتظرم جواب بگیرم که احتمالا ریجکته. این دوستمون ولی از اونجایی که MIT هست با arxiv کردن ساده ایدهاش رو معرفی کرده و البته با حجم امکاناتی هم که دستشه میزان اکسپریمنت قابل توجهی تونسته بگیره.
لینک:
arxiv.org/abs/2502.01628
❤3