ML & AI resources
دو تا ویدیو فوق العاده برای فهم NeRF و چرایی عملکرد فوق العادش: https://youtu.be/WSfEfZ0ilw4?si=Hm8Eirm_Ga0wficH https://youtu.be/dCmCZs2Hpi0?si=BXt28UyhfFJKZkeC
شاید با دیدن این ویدیو فکر کنین که دیگه NeRF آخرت 3D Rconstruction و Novel View Synthesis محسوب میشه ولی باید بگم سخت در اشتباهین. NeRF درسته که نسبت به روشهای قبل از خودش، روش سریعتر و منعطف تری برای این تسکه، با این حال به شدت کنده و ماکزیمم frame rate که شما میتونین از بهینهترین پیاده سازی NeRF بهش برسین در اوردر ۱ تا ۱۰ fps میشه :)
از طرف دیگه، شما به هیچوجه دسترسی به 3D Structure ندارین و صرفا با استفاده از مدل اورفیت شده NeRF میتونین به صورت آفلاین view های جدید سنتز کنین.
برای حل این دو مشکل مفهومی تحت عنوان 3D Gaussian Splatting معرفی میشه (اگه اشتباه نکنم در SIGGRAPH23) به این شکل که یه موجودیت سه بعدی رو به جای اینکه به صورت یک Radiance Field در نظر بگیره، به ازای هر point در فضای سه بعدی یک گوی بیضوی (نمیدونم اصلا همچین ترمی درست هست یا نه ولی فعلا از من بپذیرین. در زبان خارجه بهش میگن 3D Gaussian Splat) در نظر گرفته میشه و با در نظر گرفتن Projection های مختلف از این جسم یا صحنه سهبعدی و اختلاف این Projected View و تصویر Ground Truth از اون زاویه دید، این گویها رو آپدیت میکنه.
وبسایت رسمی کار:
https://repo-sam.inria.fr/fungraph/3d-gaussian-splatting/
کانسپت جالبیه اگه دوست داشتین بیشتر بدونین این محتواها رو توصیه میکنم (از کوتاه به بلند :) ) :
۱. https://youtu.be/Tnij_xHEnXc?si=ZGAKXxQ7a-lOmDwe
۲. https://youtu.be/VkIJbpdTujE?si=W6NJ4mHbZp5LTK2F
۳. https://youtu.be/IUEzsWOOErE?si=bUkrLPWew6eLn1VX
مرور جزئیتر روی مقاله:
https://youtu.be/xTp88ZOtm58?si=nk3BJGwkbqdLj5KW
از طرف دیگه، شما به هیچوجه دسترسی به 3D Structure ندارین و صرفا با استفاده از مدل اورفیت شده NeRF میتونین به صورت آفلاین view های جدید سنتز کنین.
برای حل این دو مشکل مفهومی تحت عنوان 3D Gaussian Splatting معرفی میشه (اگه اشتباه نکنم در SIGGRAPH23) به این شکل که یه موجودیت سه بعدی رو به جای اینکه به صورت یک Radiance Field در نظر بگیره، به ازای هر point در فضای سه بعدی یک گوی بیضوی (نمیدونم اصلا همچین ترمی درست هست یا نه ولی فعلا از من بپذیرین. در زبان خارجه بهش میگن 3D Gaussian Splat) در نظر گرفته میشه و با در نظر گرفتن Projection های مختلف از این جسم یا صحنه سهبعدی و اختلاف این Projected View و تصویر Ground Truth از اون زاویه دید، این گویها رو آپدیت میکنه.
وبسایت رسمی کار:
https://repo-sam.inria.fr/fungraph/3d-gaussian-splatting/
کانسپت جالبیه اگه دوست داشتین بیشتر بدونین این محتواها رو توصیه میکنم (از کوتاه به بلند :) ) :
۱. https://youtu.be/Tnij_xHEnXc?si=ZGAKXxQ7a-lOmDwe
۲. https://youtu.be/VkIJbpdTujE?si=W6NJ4mHbZp5LTK2F
۳. https://youtu.be/IUEzsWOOErE?si=bUkrLPWew6eLn1VX
مرور جزئیتر روی مقاله:
https://youtu.be/xTp88ZOtm58?si=nk3BJGwkbqdLj5KW
YouTube
What is 3D Gaussian Splatting?
How does 3D Gaussian Splatting work? It's kinda complex but we are gonna break it down for you in 3 minutes.
3D Gaussian Splatting for Real-Time Radiance Field Rendering Paper:
https://repo-sam.inria.fr/fungraph/3d-gaussian-splatting/
Shoutout to Maged…
3D Gaussian Splatting for Real-Time Radiance Field Rendering Paper:
https://repo-sam.inria.fr/fungraph/3d-gaussian-splatting/
Shoutout to Maged…
❤4
Forwarded from Out of Distribution (Mahdi)
در مورد Quantization و مدلهای 1.58بیتی
امروز این مقاله رو دیدم که مدل Flux رو در ستینگ ۱.۵۸ بیتی، کوانتایز کرده بود و ادعا کرده بود که تقریبا همون کیفیت مدل Flux رو با صرف مموری کمتر ارائه میده (در واقع پارامترهای مدل رو کوانتایز کرده بودند طوری که حجم نگهداری این flux کوانتایزشده از ۲۳ گیگ به ۳ گیگ و میزان مموری لازم برای اینفرنس گرفتن هم براش از ۲۴ گیگ به کمتر از ۵ گیگ رسیده)
همین بهانهای شد تا وسوسه بشم بیشتر راجع به کوانتیزیشن مدلها بخونم. در همین راستا، این بلاگ فوقالعاده رو پیدا کردم که مساله رو از کف (از نحوه نمایش اعداد در فورمتهای مختلف fp32 و fp16 و bfp16 و uint18) شروع کرده و تا کوانتیزیشن ۱.۵۸ بیتی پیش برده.
به صورت خلاصه مساله اینه که در مواجهه با شبکههای عصبی ما با دو مجموعه value مواجه هستیم که باید روی این مقادیر، عملیاتهای ریاضی انجام بدیم و اونها رو نگهداری کنیم. مقادیر میانی شبکه (یا activationها) و وزنهای شبکه که پارامترهاش هستند. ما به صورت عادی این مقادیر رو به صورت fp32 باهاشون کار میکنیم. حالا کوانتیزیشن قصدش اینه که عوض این شبکهای داشته باشیم که این مقادیر رو fp32 نگهداری کنه، به شکلهای دیگهای مثل fp16 یا int8 نگهداری کنه تا هم مموری کمتری بخوان و هم اگر شد سریعتر بشه از شبکه inference گرفت. حالا ما دو نوع quantization میتونیم داشته باشیم. Post-Training Quantization و Quantization Aware Training. اولی این شکلیه که اول یک شبکه رو در همون حالت عادی fp32 آموزشش میدن و بعد از اتمام آموزش سعی میکنن تا مقادیر شبکه رو به تایپهای سبکتر کوانتایزش کنند. دومی این شکلیه که سعی میکنند در همون فرآیند آموزش شبکه، آموزش وزنها رو جوری انجام بدن که انگار واقعا در همون تایپ سبکتر دارن انجام میشن. دقت کیفیت مدلهای حاصل از روش دوم، نسبت به روش اول بالاتره قاعدتا. مساله ولی خب به این سادگیها نیست و پیچیدگیهایی برای خودش داره. مثلا نمیشه که پارامترهای شبکه رو کوانتایز کرد و مقادیر میانی رو به امان خدا ول کرد، این دو تا روی هم تاثیر دارند.
حالا یک سال پیش مقالهای به نام BitNet اومد و هدفش رو کوانتایزکردن وزنهای شبکه ترنسفورمری در یک بیت گذاشت. یعنی میخواست به شبکهای برسه که هر وزن شبکه یا ۱+ باشه یا ۱-. برای این کار اومد مقادیر میانی رو هم به uint8 کوانتایز کرد. اساس کارش هم این شکلی بود که اومد هر چی لایه Linear بود را با لایه ابداعی خودش تحت عنوان BitLlinear جایگزین کرد. در واقع لایههای خطی رو با لایههای خطی که وزنهاش فقط میتونستن یک یا منفی یک باشند جایگزین کرد. کلیت ایده هم این شکلیه که موقع آموزش مقدار هر وزن w در همون fp32 نگهداری میشه ولی از یک فانکشن sign رد میشن که مقادیرش رو به مثبت یک یا منفی یک تغییر میده. موقع بکوارد که گرادیان عقب میاد این w رو روش اثر میگذاره ولی موقع فوروارد پارامتری که در شبکه اثرگذاره همون نتیجه فانکنش sign بر w هست. وقتی هم که فرآیند آموزش تموم شد همون wهایی که صفر و یک هستند به عنوان مدل ریلیز میشن. مدتی بعد از این مقاله، یک مقاله دیگه با عنوان 1.58 - bit اومد. ایده کلی این مقاله این بود که وزنها بتونن عوض دو مقدار، حالا سه مقدار یک و صفر و منفییک بگیرند. ایده فنیتر این مقاله هم این بود که اگر لایهخطی رو این جوری فرض بگیریم که در ضرب ماتریسی، عناصر یک بردار ماتریس در یک بردار ضرب میشن و بعد با هم جمع میشن، با فرض این که وزنها میتونن صفر و یک و منفی یک باشند، میتونیم که تکه ضرب رو حذف کنیم و صرفا به جمع تبدیلش کنیم و این جوری در محاسبات و ذخیرهسازی صرفهجویی کنیم. از نشانههای قدرت این روش این که وقتی روی لاما ۱۳ بیلیونی اعمالش کردند، به مدلی بهتر، سریع تر، با میزان حافظه کمتر و مصرف انرژی کمتری نسبت به لامای ۳ میلیاردی fp16 ای رسیدند و کلی مورد مقایسه دیگه این شکلی.
لینک بلاگ:
https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-quantization
امروز این مقاله رو دیدم که مدل Flux رو در ستینگ ۱.۵۸ بیتی، کوانتایز کرده بود و ادعا کرده بود که تقریبا همون کیفیت مدل Flux رو با صرف مموری کمتر ارائه میده (در واقع پارامترهای مدل رو کوانتایز کرده بودند طوری که حجم نگهداری این flux کوانتایزشده از ۲۳ گیگ به ۳ گیگ و میزان مموری لازم برای اینفرنس گرفتن هم براش از ۲۴ گیگ به کمتر از ۵ گیگ رسیده)
همین بهانهای شد تا وسوسه بشم بیشتر راجع به کوانتیزیشن مدلها بخونم. در همین راستا، این بلاگ فوقالعاده رو پیدا کردم که مساله رو از کف (از نحوه نمایش اعداد در فورمتهای مختلف fp32 و fp16 و bfp16 و uint18) شروع کرده و تا کوانتیزیشن ۱.۵۸ بیتی پیش برده.
به صورت خلاصه مساله اینه که در مواجهه با شبکههای عصبی ما با دو مجموعه value مواجه هستیم که باید روی این مقادیر، عملیاتهای ریاضی انجام بدیم و اونها رو نگهداری کنیم. مقادیر میانی شبکه (یا activationها) و وزنهای شبکه که پارامترهاش هستند. ما به صورت عادی این مقادیر رو به صورت fp32 باهاشون کار میکنیم. حالا کوانتیزیشن قصدش اینه که عوض این شبکهای داشته باشیم که این مقادیر رو fp32 نگهداری کنه، به شکلهای دیگهای مثل fp16 یا int8 نگهداری کنه تا هم مموری کمتری بخوان و هم اگر شد سریعتر بشه از شبکه inference گرفت. حالا ما دو نوع quantization میتونیم داشته باشیم. Post-Training Quantization و Quantization Aware Training. اولی این شکلیه که اول یک شبکه رو در همون حالت عادی fp32 آموزشش میدن و بعد از اتمام آموزش سعی میکنن تا مقادیر شبکه رو به تایپهای سبکتر کوانتایزش کنند. دومی این شکلیه که سعی میکنند در همون فرآیند آموزش شبکه، آموزش وزنها رو جوری انجام بدن که انگار واقعا در همون تایپ سبکتر دارن انجام میشن. دقت کیفیت مدلهای حاصل از روش دوم، نسبت به روش اول بالاتره قاعدتا. مساله ولی خب به این سادگیها نیست و پیچیدگیهایی برای خودش داره. مثلا نمیشه که پارامترهای شبکه رو کوانتایز کرد و مقادیر میانی رو به امان خدا ول کرد، این دو تا روی هم تاثیر دارند.
حالا یک سال پیش مقالهای به نام BitNet اومد و هدفش رو کوانتایزکردن وزنهای شبکه ترنسفورمری در یک بیت گذاشت. یعنی میخواست به شبکهای برسه که هر وزن شبکه یا ۱+ باشه یا ۱-. برای این کار اومد مقادیر میانی رو هم به uint8 کوانتایز کرد. اساس کارش هم این شکلی بود که اومد هر چی لایه Linear بود را با لایه ابداعی خودش تحت عنوان BitLlinear جایگزین کرد. در واقع لایههای خطی رو با لایههای خطی که وزنهاش فقط میتونستن یک یا منفی یک باشند جایگزین کرد. کلیت ایده هم این شکلیه که موقع آموزش مقدار هر وزن w در همون fp32 نگهداری میشه ولی از یک فانکشن sign رد میشن که مقادیرش رو به مثبت یک یا منفی یک تغییر میده. موقع بکوارد که گرادیان عقب میاد این w رو روش اثر میگذاره ولی موقع فوروارد پارامتری که در شبکه اثرگذاره همون نتیجه فانکنش sign بر w هست. وقتی هم که فرآیند آموزش تموم شد همون wهایی که صفر و یک هستند به عنوان مدل ریلیز میشن. مدتی بعد از این مقاله، یک مقاله دیگه با عنوان 1.58 - bit اومد. ایده کلی این مقاله این بود که وزنها بتونن عوض دو مقدار، حالا سه مقدار یک و صفر و منفییک بگیرند. ایده فنیتر این مقاله هم این بود که اگر لایهخطی رو این جوری فرض بگیریم که در ضرب ماتریسی، عناصر یک بردار ماتریس در یک بردار ضرب میشن و بعد با هم جمع میشن، با فرض این که وزنها میتونن صفر و یک و منفی یک باشند، میتونیم که تکه ضرب رو حذف کنیم و صرفا به جمع تبدیلش کنیم و این جوری در محاسبات و ذخیرهسازی صرفهجویی کنیم. از نشانههای قدرت این روش این که وقتی روی لاما ۱۳ بیلیونی اعمالش کردند، به مدلی بهتر، سریع تر، با میزان حافظه کمتر و مصرف انرژی کمتری نسبت به لامای ۳ میلیاردی fp16 ای رسیدند و کلی مورد مقایسه دیگه این شکلی.
لینک بلاگ:
https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-quantization
Maartengrootendorst
A Visual Guide to Quantization
Exploring memory-efficient techniques for LLMs
🔥1
Forwarded from Geek Alerts
گوگل معماری جدیدی به نام «تایتانها» (Titans) برای هوش مصنوعی معرفی کرده که میتونه دادههای بلند مدت رو به خاطر بسپاره.
این از نظر کارایی بهتر از مدل قبلی و معروف Transformers هست.
کارکردش اینجوری که از یک ماژول حافظه عصبی استفاده میکنه و یاد میگیره چه چیزهایی رو به خاطر بیاره و کدومهارو فراموش کنه.
این ماژول اجازه میده میلیونها نقطه دیتا رو بدون از دست دادن با دقت بالا پردازش کنه.
در واقع تو ساختش از حافظه انسان الهام گرفتن، حافظه کوتاه مدت ما دقیق اما محدوده و حافظه بلند مدت ما برای مدت بیشتری دیتا رو ذخیره میکنه.
ما معمولا از ترکیب اینها استفاده میکنیم و این کاری هست که titans هم انجام میده.
نتیجه اینه که مدل میتونه مسائل بسیار پیچیدهتر رو حل کنه.
علی بهروز (ایرانی و دانشآموخته شریف) محقق ارشد این معماری جدید در گوگل هست.
https://arxiv.org/pdf/2501.00663v1
analyticsindiamag
@geekalerts
این از نظر کارایی بهتر از مدل قبلی و معروف Transformers هست.
کارکردش اینجوری که از یک ماژول حافظه عصبی استفاده میکنه و یاد میگیره چه چیزهایی رو به خاطر بیاره و کدومهارو فراموش کنه.
این ماژول اجازه میده میلیونها نقطه دیتا رو بدون از دست دادن با دقت بالا پردازش کنه.
در واقع تو ساختش از حافظه انسان الهام گرفتن، حافظه کوتاه مدت ما دقیق اما محدوده و حافظه بلند مدت ما برای مدت بیشتری دیتا رو ذخیره میکنه.
ما معمولا از ترکیب اینها استفاده میکنیم و این کاری هست که titans هم انجام میده.
نتیجه اینه که مدل میتونه مسائل بسیار پیچیدهتر رو حل کنه.
علی بهروز (ایرانی و دانشآموخته شریف) محقق ارشد این معماری جدید در گوگل هست.
https://arxiv.org/pdf/2501.00663v1
analyticsindiamag
@geekalerts
👍4❤2
یکی از موقعیتهایی که برای اینترنشیپ دانشجوهای کارشناسی وجود داره، موقعیت موسسه هوش مصنوعی INSAIT کشور بلغارستان هست که تونسته تعداد خوبی از اساتید و ریسرچرهای برجسته این حوزه رو در این موسسه جذب کنه. اگه دوست داشتین که یه تجربه اینترنشیپ بین المللی داشته باشین، این اینترنشیپ رو بهتون توصیه میکنم. اگه دوستان ترم پایینتری رو میشناسین که مقطع کارشناسی هستن و ترم ۵ یا ۷ هستن، این پیام رو براشون ارسال کنین :)
ددلاین ثبت نام این اینترنشیپ ۳ مارچ ۲۰۲۵ هست. یه چک کنین شاید شما هم یکی از اینترن های تابستون این موسسه باشین :)
https://www.linkedin.com/posts/insaitinstitute_insait-announces-the-opening-of-applications-activity-7285931040106287104-42-_
ددلاین ثبت نام این اینترنشیپ ۳ مارچ ۲۰۲۵ هست. یه چک کنین شاید شما هم یکی از اینترن های تابستون این موسسه باشین :)
https://www.linkedin.com/posts/insaitinstitute_insait-announces-the-opening-of-applications-activity-7285931040106287104-42-_
Linkedin
🎓 INSAIT announces the opening of applications for its summer research… | INSAIT - Institute for Computer Science, Artificial Intelligence…
🎓 INSAIT announces the opening of applications for its summer research internship program - SURF 2025! 🌟
🌍 This is the 3rd edition of SURF, which in its past 2 editions already attracted some of the most talented young researchers in AI and computing from…
🌍 This is the 3rd edition of SURF, which in its past 2 editions already attracted some of the most talented young researchers in AI and computing from…
❤3
Forwarded from پیشنهادهایی برای #اپلای #applyabroad
اگه دوست دارید یادبگیرید چطور agent های خودتون را درست کنید و دیپلوی کنید، کمپانی HuggingFace یک دوره رایگان گذاشته. این دوره از یادگیری مفاهیم اصلی شروع میشه و بعد کار با فریمورک های مختلف مثل langchain و llamaIndex و Smolagents را یاد میدن. و آخر هم که چندین مثال واقعی استفاده از agent ها را یاد میگیرید. به نظر میاد که certificate هم میدن (که البته به نظر من دادن یا ندادن اون اصلا مهم نیست!). یکی از بهترین دوره های کاربردی میتونه باشه!
تو این لینک برید و ثبت نام کنید.
https://huggingface.us17.list-manage.com/subscribe?u=7f57e683fa28b51bfc493d048&id=9ed45a3ef6
منبع: https://x.com/MehdiAllahyari/status/1881187533926662635
تو این لینک برید و ثبت نام کنید.
https://huggingface.us17.list-manage.com/subscribe?u=7f57e683fa28b51bfc493d048&id=9ed45a3ef6
منبع: https://x.com/MehdiAllahyari/status/1881187533926662635
❤1👍1
Forwarded from Ai Events️ (حمید محمودآبادی)
داستان غول نوظهور چینی هوش مصنوعی Deepseek
شرکت deepseek که امروز همهمون از مدل رایگان بیمحدودیت deepseek v3 به وجود اومدیم و الان هم مدل متن باز رایگان R1 رو به عنوان رقیب برای o1 داده، چطوری شکل گرفته؟
این شرکت بدون هیچ سرمایهگذاری خطرپذیر، مدلی متنباز تولید کرد که با غولهایی مانند OpenAI و Anthropic رقابت میکند. مدلی که با یکدهم هزینه آموزش و ۲۰ تا ۵۰ برابر ارزانتر در استنتاج، به مرزهای جدیدی در هوش مصنوعی دست یافته است.
در سال ۲۰۰۷، سه مهندس به نامهای Xu Jin، Zheng Dawei و Liang Wenfeng (مدیرعامل فعلی) در دانشگاه Zhejiang با هم آشنا شدند و با هدف ساخت یک صندوق کمّی (Quant) که با هوش مصنوعی پیشرفته کار کند، دور هم جمع شدند. از آن زمان تا امروز یک استراتژی در جذب نیرو انسانی داشتند، به جای استخدام افراد باتجربه، آنها روی استعدادهای جوان و کنجکاو سرمایهگذاری کردند. مدیر مدیر عامل deepseek l میگه: «ما بیشتر نقشهای فنی را به فارغالتحصیلان جدید یا افرادی با ۱ تا ۲ سال تجربه سپردیم.».
این تیم به مدت ۸ سال بهطور خاموش روی ایدههای مختلف معاملات الگوریتمی کار کردند تا اینکه در سال ۲۰۱۵ شرکت High-Flyer را تأسیس کردند. فرهنگ استخدام و نوآوری آنها به خوبی جواب داد. تا سال ۲۰۲۱، آنها به موفقیتهای چشمگیری دست یافته بودند:
۱۴۰ میلیون دلار سرمایهگذاری و ساخت یک پلتفرم بزرگ هوش مصنوعی برای معاملات.
مالکیت ۱۰,۰۰۰ کارت گرافیک NVIDIA A100.
تبدیل شدن به یکی از ۴ صندوق کمّی برتر با ۱۵ میلیارد دلار دارایی تحت مدیریت (AUM).
اما سپس همه چیز فروپاشید. سال ۲۰۲۲ موفقیت High-Flyer به نقطه ضعف آن تبدیل شد. آنها خیلی بزرگ و سریع رشد کرده بودند و شروع به از دست دادن میلیاردها دلار کردند، طی چند فصل متوالی روی سرمایههای تحت مدیریتشون ضرر دادند و از شاخص بازار بورس چین عقب ماندند.
دولت چین در پی کندی اقتصادی، بحران مسکن و کاهش شاخص بورس، شروع به محدود کردن صنعت معاملات کمّی کرد. شاخص CSI300 (شاخص سهام برتر چین) به پایینترین حد خود رسید و معاملهگران فرکانس بالا را مقصر اصلی این فروپاشی دانستند. High-Flyer با خطر انقراض مواجه شد.
در سال ۲۰۲۳ آنها تغییر جهت دادند. DeepSeek، یک آزمایشگاه هوش مصنوعی، با استفاده از استعدادهای موجود و ۱۰,۰۰۰ کارت گرافیک خود تأسیس کردند. بدون هیچ سرمایهگذاری خطرپذیر. آنها همه چیز را روی این شرط بستند.
آنها همان فلسفه استخدام خود را حفظ کردند: استخدام «فارغالتحصیلان نخبه» جای محققان باتجربه هوش مصنوعی.
مدیر عامل deepseek میگه: «هیچ جادوگری وجود ندارد. ما بیشتر فارغالتحصیلان جدید از دانشگاههای برتر، دانشجویان دکتری در سالهای چهارم یا پنجم و برخی جوانانی که چند سال پیش فارغالتحصیل شدهاند را استخدام میکنیم.»
شرکت DeepSeek در اوایل سال ۲۰۲۴ با معرفی DeepSeek v2 را ارائه کردند.
تا سپتامبر، آنها ابتدا مقالهی R1-lite-preview را به عنوان اولین مدلی که با مدل استدلالی o1 OpenAI رقابت میکرد، منتشر کردند، . این مدل با استفاده از یک تکنیک جدید یادگیری تقویتی (RL) که از محاسبات زمان استنتاج استفاده میکرد، از همه رقبا (متنباز یا اختصاصی) پیشی گرفت.
در کریسمس، آنها DeepSeek v3 ارائه کردند که با تنها ۶ میلیون دلار هزینه آموزش، با ChatGPT-4o و Claude 3.5 Sonnet رقابت کرد.
هزینههای API که ۲۰ تا ۵۰ برابر ارزانتر از رقبا است.
این هفته، آنها اولین مدل استدلالی کاملاً متنباز را منتشر کردند که با OpenAI o1 برابری میکرد. آنها یافتههای خود را بهصورت عمومی به اشتراک گذاشتند و فاش کردند که این مدل را تنها از طریق یادگیری تقویتی (RL) و بدون نیاز به تنظیم دقیق نظارتشده یا مدلسازی پاداش آموزش دادهاند.
و هزینههای API هنوز ۲۰ تا ۵۰ برابر ارزانتر از رقبا هستند:
مدل DeepSeek R1 حدود ۰.۱۴ تا ۰.۵۵ دلار برای هر ۱ میلیون توکن ورودی، ۲.۱۹ دلار برای هر ۱ میلیون توکن خروجی.
مدل OpenAI o1 حدود ۷.۵۰ تا ۱۵ دلار برای هر ۱ میلیون توکن ورودی، ۶۰ دلار برای هر ۱ میلیون توکن خروجی.
Source
@Ai_Events
شرکت deepseek که امروز همهمون از مدل رایگان بیمحدودیت deepseek v3 به وجود اومدیم و الان هم مدل متن باز رایگان R1 رو به عنوان رقیب برای o1 داده، چطوری شکل گرفته؟
این شرکت بدون هیچ سرمایهگذاری خطرپذیر، مدلی متنباز تولید کرد که با غولهایی مانند OpenAI و Anthropic رقابت میکند. مدلی که با یکدهم هزینه آموزش و ۲۰ تا ۵۰ برابر ارزانتر در استنتاج، به مرزهای جدیدی در هوش مصنوعی دست یافته است.
در سال ۲۰۰۷، سه مهندس به نامهای Xu Jin، Zheng Dawei و Liang Wenfeng (مدیرعامل فعلی) در دانشگاه Zhejiang با هم آشنا شدند و با هدف ساخت یک صندوق کمّی (Quant) که با هوش مصنوعی پیشرفته کار کند، دور هم جمع شدند. از آن زمان تا امروز یک استراتژی در جذب نیرو انسانی داشتند، به جای استخدام افراد باتجربه، آنها روی استعدادهای جوان و کنجکاو سرمایهگذاری کردند. مدیر مدیر عامل deepseek l میگه: «ما بیشتر نقشهای فنی را به فارغالتحصیلان جدید یا افرادی با ۱ تا ۲ سال تجربه سپردیم.».
این تیم به مدت ۸ سال بهطور خاموش روی ایدههای مختلف معاملات الگوریتمی کار کردند تا اینکه در سال ۲۰۱۵ شرکت High-Flyer را تأسیس کردند. فرهنگ استخدام و نوآوری آنها به خوبی جواب داد. تا سال ۲۰۲۱، آنها به موفقیتهای چشمگیری دست یافته بودند:
۱۴۰ میلیون دلار سرمایهگذاری و ساخت یک پلتفرم بزرگ هوش مصنوعی برای معاملات.
مالکیت ۱۰,۰۰۰ کارت گرافیک NVIDIA A100.
تبدیل شدن به یکی از ۴ صندوق کمّی برتر با ۱۵ میلیارد دلار دارایی تحت مدیریت (AUM).
اما سپس همه چیز فروپاشید. سال ۲۰۲۲ موفقیت High-Flyer به نقطه ضعف آن تبدیل شد. آنها خیلی بزرگ و سریع رشد کرده بودند و شروع به از دست دادن میلیاردها دلار کردند، طی چند فصل متوالی روی سرمایههای تحت مدیریتشون ضرر دادند و از شاخص بازار بورس چین عقب ماندند.
دولت چین در پی کندی اقتصادی، بحران مسکن و کاهش شاخص بورس، شروع به محدود کردن صنعت معاملات کمّی کرد. شاخص CSI300 (شاخص سهام برتر چین) به پایینترین حد خود رسید و معاملهگران فرکانس بالا را مقصر اصلی این فروپاشی دانستند. High-Flyer با خطر انقراض مواجه شد.
در سال ۲۰۲۳ آنها تغییر جهت دادند. DeepSeek، یک آزمایشگاه هوش مصنوعی، با استفاده از استعدادهای موجود و ۱۰,۰۰۰ کارت گرافیک خود تأسیس کردند. بدون هیچ سرمایهگذاری خطرپذیر. آنها همه چیز را روی این شرط بستند.
آنها همان فلسفه استخدام خود را حفظ کردند: استخدام «فارغالتحصیلان نخبه» جای محققان باتجربه هوش مصنوعی.
مدیر عامل deepseek میگه: «هیچ جادوگری وجود ندارد. ما بیشتر فارغالتحصیلان جدید از دانشگاههای برتر، دانشجویان دکتری در سالهای چهارم یا پنجم و برخی جوانانی که چند سال پیش فارغالتحصیل شدهاند را استخدام میکنیم.»
شرکت DeepSeek در اوایل سال ۲۰۲۴ با معرفی DeepSeek v2 را ارائه کردند.
تا سپتامبر، آنها ابتدا مقالهی R1-lite-preview را به عنوان اولین مدلی که با مدل استدلالی o1 OpenAI رقابت میکرد، منتشر کردند، . این مدل با استفاده از یک تکنیک جدید یادگیری تقویتی (RL) که از محاسبات زمان استنتاج استفاده میکرد، از همه رقبا (متنباز یا اختصاصی) پیشی گرفت.
در کریسمس، آنها DeepSeek v3 ارائه کردند که با تنها ۶ میلیون دلار هزینه آموزش، با ChatGPT-4o و Claude 3.5 Sonnet رقابت کرد.
هزینههای API که ۲۰ تا ۵۰ برابر ارزانتر از رقبا است.
این هفته، آنها اولین مدل استدلالی کاملاً متنباز را منتشر کردند که با OpenAI o1 برابری میکرد. آنها یافتههای خود را بهصورت عمومی به اشتراک گذاشتند و فاش کردند که این مدل را تنها از طریق یادگیری تقویتی (RL) و بدون نیاز به تنظیم دقیق نظارتشده یا مدلسازی پاداش آموزش دادهاند.
و هزینههای API هنوز ۲۰ تا ۵۰ برابر ارزانتر از رقبا هستند:
مدل DeepSeek R1 حدود ۰.۱۴ تا ۰.۵۵ دلار برای هر ۱ میلیون توکن ورودی، ۲.۱۹ دلار برای هر ۱ میلیون توکن خروجی.
مدل OpenAI o1 حدود ۷.۵۰ تا ۱۵ دلار برای هر ۱ میلیون توکن ورودی، ۶۰ دلار برای هر ۱ میلیون توکن خروجی.
Source
@Ai_Events
❤2🔥1
Forwarded from Out of Distribution (Mahdi)
جایگزینی برای کراس انتروپی
صبح یک مقاله جالب دیدم که البته باعث افسردگیم شد. ایدهاش اینه که پیشنهاد داده لاس cross entropy رو با یک لاس دیگه که خودش اسمش رو گذاشته harmonic loss جایگزین کنیم. لاسش این شکلیه که عوض این که لایه قبلی رو در ماتریس وزن ضرب داخلی کنه و بعد سافتمکس بگیره، میاد برای هر کلاس، یک بردار قابل یادگیری در نظر میگیره و بعد فاصله رپرزنتیشن رو با هر کدام از این بردارها میگیره و این فاصلهها رو به توان یک هایپرپارامتری میرسونه و خیلی ساده نرمالایزشون میکنه و همین رو لاس میگیره. اومده روی تسکهای الگوریتمیک ساده و mnist و lm آموزش داده و نشون داده مدلش با دیتای کمتر نسبت به کراس انتروپی بهتر آموزش میبینه، پدیده grokking براش زودتر رخ میده و البته تفسیرپذیری بهتری داره.
افسردگیم حالا اینه که مشابه همین ایده رو چند ماه پیش پیپر کردم فرستادم برای یک ژورنالی و چند ماهه منتظرم جواب بگیرم که احتمالا ریجکته. این دوستمون ولی از اونجایی که MIT هست با arxiv کردن ساده ایدهاش رو معرفی کرده و البته با حجم امکاناتی هم که دستشه میزان اکسپریمنت قابل توجهی تونسته بگیره.
لینک:
arxiv.org/abs/2502.01628
صبح یک مقاله جالب دیدم که البته باعث افسردگیم شد. ایدهاش اینه که پیشنهاد داده لاس cross entropy رو با یک لاس دیگه که خودش اسمش رو گذاشته harmonic loss جایگزین کنیم. لاسش این شکلیه که عوض این که لایه قبلی رو در ماتریس وزن ضرب داخلی کنه و بعد سافتمکس بگیره، میاد برای هر کلاس، یک بردار قابل یادگیری در نظر میگیره و بعد فاصله رپرزنتیشن رو با هر کدام از این بردارها میگیره و این فاصلهها رو به توان یک هایپرپارامتری میرسونه و خیلی ساده نرمالایزشون میکنه و همین رو لاس میگیره. اومده روی تسکهای الگوریتمیک ساده و mnist و lm آموزش داده و نشون داده مدلش با دیتای کمتر نسبت به کراس انتروپی بهتر آموزش میبینه، پدیده grokking براش زودتر رخ میده و البته تفسیرپذیری بهتری داره.
افسردگیم حالا اینه که مشابه همین ایده رو چند ماه پیش پیپر کردم فرستادم برای یک ژورنالی و چند ماهه منتظرم جواب بگیرم که احتمالا ریجکته. این دوستمون ولی از اونجایی که MIT هست با arxiv کردن ساده ایدهاش رو معرفی کرده و البته با حجم امکاناتی هم که دستشه میزان اکسپریمنت قابل توجهی تونسته بگیره.
لینک:
arxiv.org/abs/2502.01628
❤3
Forwarded from LLM Club
ویدیوی جلسههای پیشین ژورنالکلاب:
جلسهی ۱. پرسش و پاسخ آزاد - دکتر علی اسلامی (ضبط نشده)
جلسهی ۲. بهبود قدرت استدلال در مدلهای زبانی بزرگ (استار و ویاستار) - معین سلیمی (ضبط نشده)
جلسهی ۳. مدلهای زبانی چندزبانه؛ چرا و چگونه؟ - دکتر مرضیه فدایی
جلسهی ۴. مروری بر روشهای بهکارگیری تکنیکهای یادگیری تقویتی در مدلهای زبانی بزرگ و برعکس - معین سلیمی
جلسهی ۵. روشهای کارای فاینتیونینگ در مدلهای زبانی بزرگ - معین سلیمی
جلسهی ۶. رونمایی از LayerSkip؛ روش جدید متا اِیآی برای سرعتبخشی به فرآیند تولید توکن در مدلهای زبانی بزرگ - معین سلیمی
جلسهی ۷. بررسی پژوهش Self-Instruct - یگانه کردی
جلسهی ۸. معماری دوگانه برای بهبود ایمنی و کارایی در مدلهای زبانی بزرگ - شروین قاسملو
جلسهی ۹. مروری بر برخی از نوآوریهای اخیر در رگ و چالشهای آنها - حانیه سرتیپی
جلسهی ۱۰. انتساب مقیاسپذیر رفتار مدلهای زبانی بزرگ به منابع داده و نورونها - طاها بهادری
جلسهی ۱۱. «بهبود قدرت استدلال در مدلهای زبانی بزرگ»؛ بررسی شش پژوهش پذیرفته شده در آیسیامال ۲۰۲۴ - معین سلیمی
جلسهی ۱۲. بررسی دو پژوهش مالتیمدال: مالمو و پیکسمو - محمدرضا صالحی (ضبطنشده)
جلسهی ۱۳. عاملهای مالتیمدال: استدلال، استفاده از ابزار و حافظه - علیرضا فتحی
این لیست بهروز میشود
جلسهی ۱. پرسش و پاسخ آزاد - دکتر علی اسلامی (ضبط نشده)
جلسهی ۲. بهبود قدرت استدلال در مدلهای زبانی بزرگ (استار و ویاستار) - معین سلیمی (ضبط نشده)
جلسهی ۳. مدلهای زبانی چندزبانه؛ چرا و چگونه؟ - دکتر مرضیه فدایی
جلسهی ۴. مروری بر روشهای بهکارگیری تکنیکهای یادگیری تقویتی در مدلهای زبانی بزرگ و برعکس - معین سلیمی
جلسهی ۵. روشهای کارای فاینتیونینگ در مدلهای زبانی بزرگ - معین سلیمی
جلسهی ۶. رونمایی از LayerSkip؛ روش جدید متا اِیآی برای سرعتبخشی به فرآیند تولید توکن در مدلهای زبانی بزرگ - معین سلیمی
جلسهی ۷. بررسی پژوهش Self-Instruct - یگانه کردی
جلسهی ۸. معماری دوگانه برای بهبود ایمنی و کارایی در مدلهای زبانی بزرگ - شروین قاسملو
جلسهی ۹. مروری بر برخی از نوآوریهای اخیر در رگ و چالشهای آنها - حانیه سرتیپی
جلسهی ۱۰. انتساب مقیاسپذیر رفتار مدلهای زبانی بزرگ به منابع داده و نورونها - طاها بهادری
جلسهی ۱۱. «بهبود قدرت استدلال در مدلهای زبانی بزرگ»؛ بررسی شش پژوهش پذیرفته شده در آیسیامال ۲۰۲۴ - معین سلیمی
جلسهی ۱۲. بررسی دو پژوهش مالتیمدال: مالمو و پیکسمو - محمدرضا صالحی (ضبطنشده)
جلسهی ۱۳. عاملهای مالتیمدال: استدلال، استفاده از ابزار و حافظه - علیرضا فتحی
این لیست بهروز میشود
Forwarded from گیتهاب فارسی
Prompt_Engineering
این مخزن مجموعهای گسترده از راهنماها و پیادهسازیها برای روشهای Prompt Engineering را از مفاهیم پایه تا استراتژیهای پیشرفته ارائه میدهد.
این منبع مهمی برای یادگیری هنر تعامل مؤثر با مدلهای زبانی بزرگ و استفاده از آنها در برنامههای هوش مصنوعی است.
5️⃣ GitHub
این مخزن مجموعهای گسترده از راهنماها و پیادهسازیها برای روشهای Prompt Engineering را از مفاهیم پایه تا استراتژیهای پیشرفته ارائه میدهد.
این منبع مهمی برای یادگیری هنر تعامل مؤثر با مدلهای زبانی بزرگ و استفاده از آنها در برنامههای هوش مصنوعی است.
5️⃣ GitHub
🔥2
این بلاگ اصلا نیاز به توضیح نداره.
اگه یه جوری کارتون به دیفیوژن گره خورده، کاملترین توضیح رو میتونین اینجا پیدا کنین:
https://goyalpramod.github.io/blogs/demysitifying_diffusion_models/
اگه یه جوری کارتون به دیفیوژن گره خورده، کاملترین توضیح رو میتونین اینجا پیدا کنین:
https://goyalpramod.github.io/blogs/demysitifying_diffusion_models/
Pramod’s Blog
Demystifying Diffusion Models
Diffusion models like Stable Diffusion, Flux, Dall-e etc are an enigma built upon multiple ideas and mathematical breakthroughs. So is the nature of it that most tutorials on the topic are extremely complicated or even when simplified talk a lot about it…
❤2👍1
Forwarded from System 2 - Spring 2025
🎥 فیلم جلسه اول درس System 2
🔸 موضوع: Introduction & Motivation
🔸 مدرسین: دکتر رهبان و آقای سمیعی
🔸 تاریخ: ۲۱ بهمن ۱۴۰۳
🔸لینک یوتیوب
🔸 لینک آپارات
🔸 موضوع: Introduction & Motivation
🔸 مدرسین: دکتر رهبان و آقای سمیعی
🔸 تاریخ: ۲۱ بهمن ۱۴۰۳
🔸لینک یوتیوب
🔸 لینک آپارات
توضیح خیلی سرراست روی موضوع ELBO یا Lower Variational Bound که هم توی VAE و هم توی Diffusion Models استفاده شده.
یه مروری روی اینکه مساله چیه:
و این روش چجوری بهمون کمک میکنه که بتونیم این رو دور بزنیم:
برای جزییات بیشتر، میتونین به این بلاگ سر بزنین :)
https://jaketae.github.io/study/elbo/
یه مروری روی اینکه مساله چیه:
محاسبه احتمال واقعی فضای input میدونیم intractable هست.
و این روش چجوری بهمون کمک میکنه که بتونیم این رو دور بزنیم:
راهحل اینه که ما میخوایم احتمال فضای input رو افزایش بدیم به کمک فریمورک Maximum Likelihood، خب حالا به جای اینکه خود احتمال که intractable هست رو maximize کنیم، یک کران پایین از احتمال به دست میاریم و سعی میکنیم که این کران پایین رو maximize کنیم. تو این حالت پس میتونیم انتظار داشته باشیم که خود احتمال هم افزایش پیدا میکنه (البته با یه اختلافی بین کران پایین و مقدار واقعی)
برای جزییات بیشتر، میتونین به این بلاگ سر بزنین :)
https://jaketae.github.io/study/elbo/
Jake Tae
From ELBO to DDPM
In this short post, we will take a look at variational lower bound, also referred to as the evidence lower bound or ELBO for short. While I have referenced ELBO in a previous blog post on VAEs, the proofs and formulations presented in the post seems somewhat…
👌2
ML & AI resources
این بلاگ اصلا نیاز به توضیح نداره. اگه یه جوری کارتون به دیفیوژن گره خورده، کاملترین توضیح رو میتونین اینجا پیدا کنین: https://goyalpramod.github.io/blogs/demysitifying_diffusion_models/
بلاگ پیشنهادی دکتر Yang Song (شروع کننده تعبیر شبکه های score-based از شبکه های دیفیوژنی)، برای شروع درک دیفیوژن:
https://baincapitalventures.notion.site/Diffusion-Without-Tears-14e1469584c180deb0a9ed9aa6ff7a4c
https://baincapitalventures.notion.site/Diffusion-Without-Tears-14e1469584c180deb0a9ed9aa6ff7a4c
baincapitalventures on Notion
Diffusion Without Tears | Notion
Slater Stich, Bain Capital Ventures
🔥1👌1
Forwarded from DeepMind AI Expert (Farzad 🦅)
اینجا سایت مشهور arxiv اومده مدلهای بزرگ o3 mini و claude و جمنای رو به سایتش اضافه کرده و میتونین با مقالات چت کنین خلاصه کنید مقایسه کنید و...
https://www.alphaxiv.org/explore
#علوم_پزشکی #ایده_جذاب # #مقاله
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
https://www.alphaxiv.org/explore
#علوم_پزشکی #ایده_جذاب # #مقاله
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
alphaXiv
Discuss, discover, and read arXiv papers.
🔥2❤1
یه فرصت اینترنشیپ برای دانشجوهای کارشناسی که به حوزه تصویر و سه بعدی علاقه مند هستن :)
یکی از گروههای مطرح ویژن تو دنیا هستن. اگه میتونین اصلا این فرصت رو از دست ندین :)
https://www.linkedin.com/feed/update/urn:li:activity:7318101340667199488?updateEntityUrn=urn%3Ali%3Afs_updateV2%3A%28urn%3Ali%3Aactivity%3A7318101340667199488%2CFEED_DETAIL%2CEMPTY%2CDEFAULT%2Cfalse%29
یکی از گروههای مطرح ویژن تو دنیا هستن. اگه میتونین اصلا این فرصت رو از دست ندین :)
https://www.linkedin.com/feed/update/urn:li:activity:7318101340667199488?updateEntityUrn=urn%3Ali%3Afs_updateV2%3A%28urn%3Ali%3Aactivity%3A7318101340667199488%2CFEED_DETAIL%2CEMPTY%2CDEFAULT%2Cfalse%29
Linkedin
🚀 We’re hiring!
The KAIST Visual AI Group is looking for Summer 2025… | Minhyuk Sung
The KAIST Visual AI Group is looking for Summer 2025… | Minhyuk Sung
🚀 We’re hiring!
The KAIST Visual AI Group is looking for Summer 2025 undergraduate interns.
Interested in:
🌀 Diffusion / Flow / AR models (images, videos, text, more)
🧠 VLMs / LLMs / Foundation models
🧊 3D generation & neural rendering
Apply now 👉 http…
The KAIST Visual AI Group is looking for Summer 2025 undergraduate interns.
Interested in:
🌀 Diffusion / Flow / AR models (images, videos, text, more)
🧠 VLMs / LLMs / Foundation models
🧊 3D generation & neural rendering
Apply now 👉 http…
👍1