🧠 SpikingBrain-7B:
مدلهای الهامگرفته از عصبشناسی
✅مدل SpikingBrain-7B معماریای است که از سازوکارهای مغز الهام گرفته و با ترکیب توجه هیبریدی و ماژولهای MoE (Mixture of Experts) طراحی شده است. این مدل با حداقل دادهها عملکرد بالا دارد و برای کلاسترهایی بدون نیاز به کارتهای NVIDIA بهینهسازی شده است؛ همین ویژگی امکان افزایش چشمگیر سرعت آموزش و استنتاج را فراهم میکند.
🚀 ویژگیهای کلیدی:
✳️ادغام توجه هیبریدی و MoE
✳️پشتیبانی از آموزش کمهزینه با استفاده از کمتر از ۲٪ دادهها
✳️بهینهسازیشده برای کلاسترهای MetaX
✳️بیش از ۱۰۰ برابر سرعت بیشتر در پردازش توالیهای طولانی
⛔️ارائه نسخههای آماده در HuggingFace و نسخه کوانتیزهشده
📌 GitHub: SpikingBrain-7B
#هوش_مصنوعی #مدل_زبان #SpikingBrain #MoE #NeuroAI #DeepLearning #HuggingFace
مدلهای الهامگرفته از عصبشناسی
✅مدل SpikingBrain-7B معماریای است که از سازوکارهای مغز الهام گرفته و با ترکیب توجه هیبریدی و ماژولهای MoE (Mixture of Experts) طراحی شده است. این مدل با حداقل دادهها عملکرد بالا دارد و برای کلاسترهایی بدون نیاز به کارتهای NVIDIA بهینهسازی شده است؛ همین ویژگی امکان افزایش چشمگیر سرعت آموزش و استنتاج را فراهم میکند.
🚀 ویژگیهای کلیدی:
✳️ادغام توجه هیبریدی و MoE
✳️پشتیبانی از آموزش کمهزینه با استفاده از کمتر از ۲٪ دادهها
✳️بهینهسازیشده برای کلاسترهای MetaX
✳️بیش از ۱۰۰ برابر سرعت بیشتر در پردازش توالیهای طولانی
⛔️ارائه نسخههای آماده در HuggingFace و نسخه کوانتیزهشده
📌 GitHub: SpikingBrain-7B
#هوش_مصنوعی #مدل_زبان #SpikingBrain #MoE #NeuroAI #DeepLearning #HuggingFace
❤13😍12💯9👍8🔥8🥰6❤🔥6🎉5🤩5👏3😁2
⚡️ Ling-flash-2.0 منتشر شد! ⚡️
⛔️مدلی با ۱۰۰ میلیارد پارامتر اما فقط با حدود ۶.۱ میلیارد پارامتر فعال، که آن را فوقالعاده کمهزینه و سریع در پردازش میکند.
🚀 ویژگیهای کلیدی Ling-flash-2.0
♻️آموزشدیده روی ۲۰ تریلیون توکن همراه با مراحل pre-training و RL.
♻️بهترین عملکرد در بین مدلهای متراکم تا ۴۰B پارامتر.
♻️بسیار قوی در استدلال پیچیده، تولید کد و تسکهای فرانتاند.
⚙️ جزئیات معماری و کارایی
✅معماری MoE با نسبت فعالسازی ۱/۳۲.
تکنیکهای پیشرفته مثل توزیع هوشمند متخصصان، تعادل توجه، و مسیریابی بدون زیان کمکی.
✅روی سختافزار H20 سرعت تولید ۲۰۰+ توکن در ثانیه (۳ برابر سریعتر از مدل متراکم 36B).
✅پشتیبانی از کانتکستهای ۱۲۸K با استفاده از YaRN.
📎 جزئیات بیشتر:
🔗 Hugging Face
@rss_ai_ir
#MoE #مدل_زبان #یادگیری_ماشین #هوش_مصنوعی #OpenSource
⛔️مدلی با ۱۰۰ میلیارد پارامتر اما فقط با حدود ۶.۱ میلیارد پارامتر فعال، که آن را فوقالعاده کمهزینه و سریع در پردازش میکند.
🚀 ویژگیهای کلیدی Ling-flash-2.0
♻️آموزشدیده روی ۲۰ تریلیون توکن همراه با مراحل pre-training و RL.
♻️بهترین عملکرد در بین مدلهای متراکم تا ۴۰B پارامتر.
♻️بسیار قوی در استدلال پیچیده، تولید کد و تسکهای فرانتاند.
⚙️ جزئیات معماری و کارایی
✅معماری MoE با نسبت فعالسازی ۱/۳۲.
تکنیکهای پیشرفته مثل توزیع هوشمند متخصصان، تعادل توجه، و مسیریابی بدون زیان کمکی.
✅روی سختافزار H20 سرعت تولید ۲۰۰+ توکن در ثانیه (۳ برابر سریعتر از مدل متراکم 36B).
✅پشتیبانی از کانتکستهای ۱۲۸K با استفاده از YaRN.
📎 جزئیات بیشتر:
🔗 Hugging Face
@rss_ai_ir
#MoE #مدل_زبان #یادگیری_ماشین #هوش_مصنوعی #OpenSource
🎉28😁20❤19👍16🥰15👏14🔥11
🚀 مدل جدید چینی LongCat-Flash-Thinking
🧠 مدلی مخصوص استدلال که بین تمام مدلهای اوپنسورس به رکورد SOTA رسیده است.
⚡️ ویژگیها:
✅معماری MoE با ۵۶۰B پارامتر (۲۷B فعال در هر بار اجرا)
✅صرفهجویی بزرگ: برای رسیدن به نتایج برتر در AIME25 به ۶۴.۵٪ توکن کمتر نیاز دارد
✅پشتیبانی از 128k context
✅آموزش با تقویت (RL) روی مسائل استدلالی و کد + چندمرحلهای با سینتِز چندعاملی
✅همچنین RL آسنکرون → ۳ برابر سریعتر از فریمورکهای سنتی
⚙️ بهینهسازی برای پروداکشن:
♻️هستههای اختصاصی برای MoE و آموزش توزیعشده
♻️کاهش KV-cache، کوانتیزیشن، chunked prefill
♻️مسیریابی استاتیک/الاستیک، انتقال کش همتابههمتا، replication هوشمند
♻️سازگار با SGLang و vLLM برای استقرار سریع
📊 نتایج:
✳️صدرنشین در tool use (τ²-Bench, VitaBench)
✳️عملکرد عالی در instruction following (IFEval, COLLIE, Meeseeks-zh)
✳️چین همچنان پرچمدار مدلهای reasoning است. 🇨🇳🤖
🔗 HF: huggingface.co/meituan-longcat/LongCat-Flash-Thinking
#هوش_مصنوعی #مدل_زبانی #MoE #یادگیری_عمیق #OpenSource
@rss_ai_ir
🧠 مدلی مخصوص استدلال که بین تمام مدلهای اوپنسورس به رکورد SOTA رسیده است.
⚡️ ویژگیها:
✅معماری MoE با ۵۶۰B پارامتر (۲۷B فعال در هر بار اجرا)
✅صرفهجویی بزرگ: برای رسیدن به نتایج برتر در AIME25 به ۶۴.۵٪ توکن کمتر نیاز دارد
✅پشتیبانی از 128k context
✅آموزش با تقویت (RL) روی مسائل استدلالی و کد + چندمرحلهای با سینتِز چندعاملی
✅همچنین RL آسنکرون → ۳ برابر سریعتر از فریمورکهای سنتی
⚙️ بهینهسازی برای پروداکشن:
♻️هستههای اختصاصی برای MoE و آموزش توزیعشده
♻️کاهش KV-cache، کوانتیزیشن، chunked prefill
♻️مسیریابی استاتیک/الاستیک، انتقال کش همتابههمتا، replication هوشمند
♻️سازگار با SGLang و vLLM برای استقرار سریع
📊 نتایج:
✳️صدرنشین در tool use (τ²-Bench, VitaBench)
✳️عملکرد عالی در instruction following (IFEval, COLLIE, Meeseeks-zh)
✳️چین همچنان پرچمدار مدلهای reasoning است. 🇨🇳🤖
🔗 HF: huggingface.co/meituan-longcat/LongCat-Flash-Thinking
#هوش_مصنوعی #مدل_زبانی #MoE #یادگیری_عمیق #OpenSource
@rss_ai_ir
🔥6🥰6👏6👍5😁4❤3🎉3
🧠 Ling-1T
؛ مدل زبانی یک تریلیونی از inclusionAI 🚀
شرکت inclusionAI از مدل جدید خود با نام Ling-1T رونمایی کرده است — مدلی با ۱ تریلیون پارامتر که تنها ۵۰ میلیارد پارامتر فعال در هر توکن دارد (به لطف معماری MoE یا Mixture-of-Experts).
📊 ویژگیهای کلیدی:
♻️آموزش بر روی بیش از ۲۰ تریلیون توکن دادهی انتخابشده برای منطق و استدلال
♻️طول کانتکست: ۱۲۸٬۰۰۰ توکن 🔄
♻️مبتنی بر روشهای آموزشی نوین:
🔹 همچنین
Evo-CoT (Evolutionary Chain of Thought)
برای بهبود تدریجی تعادل بین دقت استدلال و هزینهی محاسبات
🔹 Linguistics-Unit RL
برای آموزش مقیاسپذیر در استدلالهای زبانی
💡 تواناییها:
مدل Ling-1T در زمینههای زیر عملکرد درخشانی دارد:
✅تولید و تحلیل کد 💻
✅حل مسائل ریاضی 🧮
✅منطق و استدلال 🔍
✅تولید رابطهای کاربری و فرانتاند 🌐
⚙️ جزئیات معماری:
✳️فعالسازی MoE با نسبت ۱/۳۲
✳️لایههای MTP و مسیریابی پویا برای انتخاب متخصصان
✳️بازدهی بالا در کنار مصرف پایین منابع
📂 جزئیات بیشتر و مدل:
🔗 huggingface.co/inclusionAI/Ling-1T
@rss_ai_ir 🤖
#Ling1T #هوش_مصنوعی #یادگیری_عمیق #مدل_زبان #Reasoning #AI #TrillionModel #MoE
؛ مدل زبانی یک تریلیونی از inclusionAI 🚀
شرکت inclusionAI از مدل جدید خود با نام Ling-1T رونمایی کرده است — مدلی با ۱ تریلیون پارامتر که تنها ۵۰ میلیارد پارامتر فعال در هر توکن دارد (به لطف معماری MoE یا Mixture-of-Experts).
📊 ویژگیهای کلیدی:
♻️آموزش بر روی بیش از ۲۰ تریلیون توکن دادهی انتخابشده برای منطق و استدلال
♻️طول کانتکست: ۱۲۸٬۰۰۰ توکن 🔄
♻️مبتنی بر روشهای آموزشی نوین:
🔹 همچنین
Evo-CoT (Evolutionary Chain of Thought)
برای بهبود تدریجی تعادل بین دقت استدلال و هزینهی محاسبات
🔹 Linguistics-Unit RL
برای آموزش مقیاسپذیر در استدلالهای زبانی
💡 تواناییها:
مدل Ling-1T در زمینههای زیر عملکرد درخشانی دارد:
✅تولید و تحلیل کد 💻
✅حل مسائل ریاضی 🧮
✅منطق و استدلال 🔍
✅تولید رابطهای کاربری و فرانتاند 🌐
⚙️ جزئیات معماری:
✳️فعالسازی MoE با نسبت ۱/۳۲
✳️لایههای MTP و مسیریابی پویا برای انتخاب متخصصان
✳️بازدهی بالا در کنار مصرف پایین منابع
📂 جزئیات بیشتر و مدل:
🔗 huggingface.co/inclusionAI/Ling-1T
@rss_ai_ir 🤖
#Ling1T #هوش_مصنوعی #یادگیری_عمیق #مدل_زبان #Reasoning #AI #TrillionModel #MoE
This media is not supported in your browser
VIEW IN TELEGRAM
💡 مدل RND1 — انقلاب در تولید متن با رویکرد دیفیوژنی!
🧠 مدل RND1 یک مدل زبانی آزمایشی با ۳۰ میلیارد پارامتر است که بر پایهی معماری Sparse Mixture-of-Experts (MoE) ساخته شده؛ اما فقط ۳ میلیارد پارامتر آن در هر لحظه فعال است.
یعنی قدرت زیاد، اما با مصرف بسیار کمتر! ⚙️
🔁 تفاوت اصلی RND1 با مدلهای معمولی مثل GPT در این است که: مدلهای کلاسیک (Autoregressive) متن را کلمه به کلمه تولید میکنند،
اما RND1 کل جمله را بهصورت همزمان میسازد و سپس در چند مرحله آن را دقیقتر میکند — درست مثل مدلهای دیفیوژنی که تصویر را از «نویز» بیرون میکشند. 🎨
---
🚀 چطور ساخته شد؟
تیم Radical Numerics موفق شد یک مدل زبانی موجود (Qwen3-30B-A3B) را به مدل دیفیوژنی تبدیل کند — بدون نیاز به آموزش از صفر!
این فرآیند را AR-to-Diffusion Conversion (A2D) مینامند:
۱️⃣ انتخاب یک مدل قوی شبیه GPT
۲️⃣ تغییر مکانیزم توجه (attention) تا مدل کل متن را همزمان ببیند
۳️⃣ آموزش روی دادههای جدید با روش دیفیوژنی
۴️⃣ استفاده از نرخ یادگیری متفاوت برای بخشهای مختلف شبکه تا مدل هم «یاد قدیمی» را نگه دارد، هم «تفکر جدید» یاد بگیرد 🧩
---
⚙️ ویژگیهای کلیدی
🔸 اول MoE فعال: تنها ۳ میلیارد پارامتر در هر بار فعال میشوند → سرعت بالا و بهرهوری انرژی عالی.
🔸 یادگیری پیوسته: دانش قبلی پاک نمیشود، بلکه در منطق جدید ادغام میشود.
🔸 همچنین Batchهای عظیم: آموزش پایدار حتی هنگام مشاهدهی همزمان کل توکنها.
---
✨ چرا اهمیت دارد؟
✅ تولید موازی متن — بدون تأخیر گامبهگام
✅ مصرف کمتر منابع با حفظ کیفیت GPTهای بزرگ
✅ معماری هیبریدی بین AR و DLM
✅ کاملاً متنباز (کد، گزارش و وزنها در دسترساند)
✅ گامی مهم بهسوی هوش خودبهبودیاب (RSI)؛ مدلی که میتواند خودش را طراحی و بهبود دهد 🤖
---
📎 منابع:
🔸 وبلاگ:
radicalnumerics.ai/blog/rnd1
🔸 کد:
github.com/RadicalNumerics/RND1
🔸 گزارش فنی:
rnd1_report.pdf
🔸 وزنها:
huggingface.co/radicalnumerics/RND1-Base-0910
---
📡 @rss_ai_ir
#RND1 #RadicalNumerics #AI #DLM #DiffusionModel #MoE #OpenSource
🧠 مدل RND1 یک مدل زبانی آزمایشی با ۳۰ میلیارد پارامتر است که بر پایهی معماری Sparse Mixture-of-Experts (MoE) ساخته شده؛ اما فقط ۳ میلیارد پارامتر آن در هر لحظه فعال است.
یعنی قدرت زیاد، اما با مصرف بسیار کمتر! ⚙️
🔁 تفاوت اصلی RND1 با مدلهای معمولی مثل GPT در این است که: مدلهای کلاسیک (Autoregressive) متن را کلمه به کلمه تولید میکنند،
اما RND1 کل جمله را بهصورت همزمان میسازد و سپس در چند مرحله آن را دقیقتر میکند — درست مثل مدلهای دیفیوژنی که تصویر را از «نویز» بیرون میکشند. 🎨
---
🚀 چطور ساخته شد؟
تیم Radical Numerics موفق شد یک مدل زبانی موجود (Qwen3-30B-A3B) را به مدل دیفیوژنی تبدیل کند — بدون نیاز به آموزش از صفر!
این فرآیند را AR-to-Diffusion Conversion (A2D) مینامند:
۱️⃣ انتخاب یک مدل قوی شبیه GPT
۲️⃣ تغییر مکانیزم توجه (attention) تا مدل کل متن را همزمان ببیند
۳️⃣ آموزش روی دادههای جدید با روش دیفیوژنی
۴️⃣ استفاده از نرخ یادگیری متفاوت برای بخشهای مختلف شبکه تا مدل هم «یاد قدیمی» را نگه دارد، هم «تفکر جدید» یاد بگیرد 🧩
---
⚙️ ویژگیهای کلیدی
🔸 اول MoE فعال: تنها ۳ میلیارد پارامتر در هر بار فعال میشوند → سرعت بالا و بهرهوری انرژی عالی.
🔸 یادگیری پیوسته: دانش قبلی پاک نمیشود، بلکه در منطق جدید ادغام میشود.
🔸 همچنین Batchهای عظیم: آموزش پایدار حتی هنگام مشاهدهی همزمان کل توکنها.
---
✨ چرا اهمیت دارد؟
✅ تولید موازی متن — بدون تأخیر گامبهگام
✅ مصرف کمتر منابع با حفظ کیفیت GPTهای بزرگ
✅ معماری هیبریدی بین AR و DLM
✅ کاملاً متنباز (کد، گزارش و وزنها در دسترساند)
✅ گامی مهم بهسوی هوش خودبهبودیاب (RSI)؛ مدلی که میتواند خودش را طراحی و بهبود دهد 🤖
---
📎 منابع:
🔸 وبلاگ:
radicalnumerics.ai/blog/rnd1
🔸 کد:
github.com/RadicalNumerics/RND1
🔸 گزارش فنی:
rnd1_report.pdf
🔸 وزنها:
huggingface.co/radicalnumerics/RND1-Base-0910
---
📡 @rss_ai_ir
#RND1 #RadicalNumerics #AI #DLM #DiffusionModel #MoE #OpenSource
👍1
💡 شرکت DeepSeek پروژهی جدید خود با نام LPLB را بهصورت متنباز منتشر کرد؛ ابزاری آزمایشی برای مدیریت هوشمند بار در معماریهای MoE
🧠 در این سیستم چند نکتهٔ مهم وجود دارد:
الگوریتم بهصورت پویا بار بین «اکسپرتها» را بر اساس آمار استفاده جابهجا میکند ⚙️
ساخت و جایگذاری نسخههای تکراری (Replica) بر پایهٔ توپولوژی خوشه انجام میشود 🛰️
فرایند پیدا کردن توزیع بهینهٔ توکنها توسط حلکنندهٔ خطی (LP Solver) مستقیماً روی GPU انجام میگیرد، با استفاده از cuSolverDx و cuBLASDx ⚡️
معیارهای بارگذاری از طریق دو روش قابل دریافت است:
• استفادهٔ مستقیم از torch.distributed
• یا بهرهگیری از بافرهای Deep-EP 🔧
📚 در مخزن گیتهاب یک راهنمای کامل قرار دارد که نشان میدهد یک بالانسر دقیق و هوشمند برای مدلهای MoE چگونه باید طراحی شود.
🔗 GitHub:
https://github.com/deepseek-ai/LPLB
#DeepSeek #MoE #AIInfrastructure #OpenSource
🧠 در این سیستم چند نکتهٔ مهم وجود دارد:
الگوریتم بهصورت پویا بار بین «اکسپرتها» را بر اساس آمار استفاده جابهجا میکند ⚙️
ساخت و جایگذاری نسخههای تکراری (Replica) بر پایهٔ توپولوژی خوشه انجام میشود 🛰️
فرایند پیدا کردن توزیع بهینهٔ توکنها توسط حلکنندهٔ خطی (LP Solver) مستقیماً روی GPU انجام میگیرد، با استفاده از cuSolverDx و cuBLASDx ⚡️
معیارهای بارگذاری از طریق دو روش قابل دریافت است:
• استفادهٔ مستقیم از torch.distributed
• یا بهرهگیری از بافرهای Deep-EP 🔧
📚 در مخزن گیتهاب یک راهنمای کامل قرار دارد که نشان میدهد یک بالانسر دقیق و هوشمند برای مدلهای MoE چگونه باید طراحی شود.
🔗 GitHub:
https://github.com/deepseek-ai/LPLB
#DeepSeek #MoE #AIInfrastructure #OpenSource
🚀 مدل Uni-MoE-2.0-Omni؛ جهش تازه در دنیای مدلهای اومنیمودال
مدلی که مرزهای چندمودالیتی را جابهجا کرده و وارد سطح اومنیمودالیتی شده است؛ یعنی فهم و تولید همزمان گفتار، متن، تصویر، ویدئو و حتی تعاملات صوتی–تصویری.
✨ نوآوری اصلی
پژوهشگران نشان دادهاند چگونه میتوان یک LLM معمولی را بهصورت تکاملی به یک مدل MoE واقعی تبدیل کرد که همهٔ مدالیتهها را یکپارچه پردازش میکند.
🧠 معماری مدل
۱) Omnimodality 3D-RoPE + Dynamic-Capacity MoE
• همترازسازی گفتار، متن، تصویر و ویدئو در ابعاد زمانی–فضایی
• تخصیص پویا و هوشمند محاسبات متناسب با سختی هر وظیفه
۲) Encoder–Decoder عمیقاً ترکیبشده
• ورودی و خروجیهای چندگانه در هر مدالیتی
• تعامل واقعی اومنیمودال بین همهٔ حالتها
🛠 فرآیند آموزش
۱) مسیر پیشرونده:
Cross-modal alignment → Warm-up → MoE+RL → Generative training
• تبدیل LLMهای فشرده به MoE
• تنها با ۷۵ میلیارد توکن
• همگرایی پایدار، مخصوصاً در مرحله RL
۲) زبان، هستهٔ اصلی تمام وظایف
• همهٔ مدالیتهها به تولید زبان نگاشت میشوند
• سدهای بین مدالیتهها را حذف میکند
🎨 تواناییها
✔ تولید و تعامل صوتی
✔ تولید و ویرایش تصویر
✔ درک تصویر و ویدئو
✔ تحلیل صوتی–تصویری
✔ پشتیبانی از ۱۰+ وظیفهٔ چندمودال
🔥 نتایج کلیدی
در ۵۰+ مورد از ۷۶ وظیفه، بهتر از Qwen 2.5 Omni عمل کرده—درحالیکه ۱.۲ تریلیون توکن مصرف کرده بود:
• درک ویدئو: ۵٪ بهتر
• فهم اومنیمودال: ۷٪ بهتر
• Speech-QA: ۴.۳٪ بهتر
• پردازش تصویر: ۷٪ بهتر
🌍 منابع متنباز
Model →
https://huggingface.co/collections/HIT-TMG/lychee-uni-moe-20
Code →
https://github.com/HITsz-TMG/Uni-MoE/tree/master/Uni-MoE-2
Homepage →
https://idealistxy.github.io/Uni-MoE-v2.github.io/
@rss_ai_ir
#هوش_مصنوعی #مدل_زبان #اومنی_مودال #MoE
مدلی که مرزهای چندمودالیتی را جابهجا کرده و وارد سطح اومنیمودالیتی شده است؛ یعنی فهم و تولید همزمان گفتار، متن، تصویر، ویدئو و حتی تعاملات صوتی–تصویری.
✨ نوآوری اصلی
پژوهشگران نشان دادهاند چگونه میتوان یک LLM معمولی را بهصورت تکاملی به یک مدل MoE واقعی تبدیل کرد که همهٔ مدالیتهها را یکپارچه پردازش میکند.
🧠 معماری مدل
۱) Omnimodality 3D-RoPE + Dynamic-Capacity MoE
• همترازسازی گفتار، متن، تصویر و ویدئو در ابعاد زمانی–فضایی
• تخصیص پویا و هوشمند محاسبات متناسب با سختی هر وظیفه
۲) Encoder–Decoder عمیقاً ترکیبشده
• ورودی و خروجیهای چندگانه در هر مدالیتی
• تعامل واقعی اومنیمودال بین همهٔ حالتها
🛠 فرآیند آموزش
۱) مسیر پیشرونده:
Cross-modal alignment → Warm-up → MoE+RL → Generative training
• تبدیل LLMهای فشرده به MoE
• تنها با ۷۵ میلیارد توکن
• همگرایی پایدار، مخصوصاً در مرحله RL
۲) زبان، هستهٔ اصلی تمام وظایف
• همهٔ مدالیتهها به تولید زبان نگاشت میشوند
• سدهای بین مدالیتهها را حذف میکند
🎨 تواناییها
✔ تولید و تعامل صوتی
✔ تولید و ویرایش تصویر
✔ درک تصویر و ویدئو
✔ تحلیل صوتی–تصویری
✔ پشتیبانی از ۱۰+ وظیفهٔ چندمودال
🔥 نتایج کلیدی
در ۵۰+ مورد از ۷۶ وظیفه، بهتر از Qwen 2.5 Omni عمل کرده—درحالیکه ۱.۲ تریلیون توکن مصرف کرده بود:
• درک ویدئو: ۵٪ بهتر
• فهم اومنیمودال: ۷٪ بهتر
• Speech-QA: ۴.۳٪ بهتر
• پردازش تصویر: ۷٪ بهتر
🌍 منابع متنباز
Model →
https://huggingface.co/collections/HIT-TMG/lychee-uni-moe-20
Code →
https://github.com/HITsz-TMG/Uni-MoE/tree/master/Uni-MoE-2
Homepage →
https://idealistxy.github.io/Uni-MoE-v2.github.io/
@rss_ai_ir
#هوش_مصنوعی #مدل_زبان #اومنی_مودال #MoE
👍1
🌟 فریمورک جدید RL برای آموزش مدلهای MoE از تیمی که Chatbot Arena را ساخته است
فریمورک Miles توسط گروه LMSYS ORG معرفی شد؛ همان تیمی که پروژهٔ معروف slime را ساخته بود. اگر توسعههای اپنسورس را دنبال میکنید، میدانید slime یک ابزار فوقسبک برای پستتریـن است—و حتی برای GLM-4.6 هم استفاده شد.
✅همچنین Miles همان مسیر را ادامه میدهد، اما این بار با تمرکز بر آموزش مقیاسبالا برای معماریهای MoE و پشتیبانی از بارهای سنگین در محیطهای سازمانی.
⚙️ نکات فنی
• معماری بر پایهٔ True On-Policy؛ یعنی صفر شدن فاصلهٔ رفتاری بین مدل در حالت آموزش و حالت اجرا
• استفاده از Flash Attention 3، کتابخانه DeepGEMM و هستههای Thinking Machines Lab در کنار torch.compile
• پشتیبانی از Speculative Decoding همراه با آموزش آنلاین مدل پیشنویس—رویکردی که باعث میشود مدل draft دقیقاً با سیاست مدل اصلی حرکت کند
• افزایش سرعت تولید متن تا ۲۵٪ در مراحل پایانی آموزش
🧩 پایداری سیستم
• جلوگیری از کرشهای غیرضروری OOM؛ اهمیت ویژه برای محیطهای سازمانی که «هر گیگابایت یعنی هزینه»
• اصلاح مشکلات مصرف حافظه در FSDP
• وعدهٔ پشتیبانی از آموزش چندمُدی، سازگاری با SGLang v2 و نسخهٔ پیشرفتهتر Speculative Decoding
📄 مقاله
🖥️ GitHub
@rss_ai_ir
#AI #ML #RL #MoE #LMSYS #Miles
فریمورک Miles توسط گروه LMSYS ORG معرفی شد؛ همان تیمی که پروژهٔ معروف slime را ساخته بود. اگر توسعههای اپنسورس را دنبال میکنید، میدانید slime یک ابزار فوقسبک برای پستتریـن است—و حتی برای GLM-4.6 هم استفاده شد.
✅همچنین Miles همان مسیر را ادامه میدهد، اما این بار با تمرکز بر آموزش مقیاسبالا برای معماریهای MoE و پشتیبانی از بارهای سنگین در محیطهای سازمانی.
⚙️ نکات فنی
• معماری بر پایهٔ True On-Policy؛ یعنی صفر شدن فاصلهٔ رفتاری بین مدل در حالت آموزش و حالت اجرا
• استفاده از Flash Attention 3، کتابخانه DeepGEMM و هستههای Thinking Machines Lab در کنار torch.compile
• پشتیبانی از Speculative Decoding همراه با آموزش آنلاین مدل پیشنویس—رویکردی که باعث میشود مدل draft دقیقاً با سیاست مدل اصلی حرکت کند
• افزایش سرعت تولید متن تا ۲۵٪ در مراحل پایانی آموزش
🧩 پایداری سیستم
• جلوگیری از کرشهای غیرضروری OOM؛ اهمیت ویژه برای محیطهای سازمانی که «هر گیگابایت یعنی هزینه»
• اصلاح مشکلات مصرف حافظه در FSDP
• وعدهٔ پشتیبانی از آموزش چندمُدی، سازگاری با SGLang v2 و نسخهٔ پیشرفتهتر Speculative Decoding
📄 مقاله
🖥️ GitHub
@rss_ai_ir
#AI #ML #RL #MoE #LMSYS #Miles
🔥 بهترین راهنمای فاینتیونینگ که امسال در arXiv میبینید!
اگر با مدلهای زبانی کار میکنید—چه مبتدی باشید چه حرفهای—این مقاله دقیقاً همان چیزی است که لازم دارید. یک راهنمای کامل، مرحلهبهمرحله و فوقالعاده منظم برای تسلط بر Fine-Tuning مدرن.
📘 مباحثی که پوشش میدهد:
🧠 مبانی NLP (برای اینکه بدانید زیرساخت مدل چه میگوید)
⚙️ روشهای PEFT / LoRA / QLoRA (تکنیکهای سبک برای آموزش مدلهای بزرگ روی GPUهای معمولی)
🔀اینکه Mixture of Experts (MoE) و نکات ریز مربوط به آموزش کارآمد
🧩 پایپلاین ۷ مرحلهای برای فاینتیونینگ حرفهای
🎯 توصیههای عملی، چکلیستها و اشتباهاتی که باید از آنها دوری کرد
📄 منبع:
https://arxiv.org/pdf/2408.13296v1
#AI #ML #FineTuning #LoRA #QLoRA #MoE #NLP #DeepLearning #arXiv
@rss_ai_ir
اگر با مدلهای زبانی کار میکنید—چه مبتدی باشید چه حرفهای—این مقاله دقیقاً همان چیزی است که لازم دارید. یک راهنمای کامل، مرحلهبهمرحله و فوقالعاده منظم برای تسلط بر Fine-Tuning مدرن.
📘 مباحثی که پوشش میدهد:
🧠 مبانی NLP (برای اینکه بدانید زیرساخت مدل چه میگوید)
⚙️ روشهای PEFT / LoRA / QLoRA (تکنیکهای سبک برای آموزش مدلهای بزرگ روی GPUهای معمولی)
🔀اینکه Mixture of Experts (MoE) و نکات ریز مربوط به آموزش کارآمد
🧩 پایپلاین ۷ مرحلهای برای فاینتیونینگ حرفهای
🎯 توصیههای عملی، چکلیستها و اشتباهاتی که باید از آنها دوری کرد
📄 منبع:
https://arxiv.org/pdf/2408.13296v1
#AI #ML #FineTuning #LoRA #QLoRA #MoE #NLP #DeepLearning #arXiv
@rss_ai_ir
👍2🔥1👏1