VIRSUN

🧠 SpikingBrain-7B:
مدل‌های الهام‌گرفته از عصب‌شناسی

✅مدل SpikingBrain-7B معماری‌ای است که از سازوکارهای مغز الهام گرفته و با ترکیب توجه هیبریدی و ماژول‌های MoE (Mixture of Experts) طراحی شده است. این مدل با حداقل داده‌ها عملکرد بالا دارد و برای کلاسترهایی بدون نیاز به کارت‌های NVIDIA بهینه‌سازی شده است؛ همین ویژگی امکان افزایش چشمگیر سرعت آموزش و استنتاج را فراهم می‌کند.

🚀 ویژگی‌های کلیدی:

✳️ادغام توجه هیبریدی و MoE
✳️پشتیبانی از آموزش کم‌هزینه با استفاده از کمتر از ۲٪ داده‌ها
✳️بهینه‌سازی‌شده برای کلاسترهای MetaX
✳️بیش از ۱۰۰ برابر سرعت بیشتر در پردازش توالی‌های طولانی

⛔️ارائه نسخه‌های آماده در HuggingFace و نسخه کوانتیزه‌شده

📌 GitHub: SpikingBrain-7B

#هوش_مصنوعی #مدل_زبان #SpikingBrain #MoE #NeuroAI #DeepLearning #HuggingFace

❤13😍12💯9👍8🔥8🥰6❤‍🔥6🎉5🤩5👏3😁2

1.45K views16:06

VIRSUN

⚡️ Ling-flash-2.0 منتشر شد! ⚡️

⛔️مدلی با ۱۰۰ میلیارد پارامتر اما فقط با حدود ۶.۱ میلیارد پارامتر فعال، که آن را فوق‌العاده کم‌هزینه و سریع در پردازش می‌کند.

🚀 ویژگی‌های کلیدی Ling-flash-2.0

♻️آموزش‌دیده روی ۲۰ تریلیون توکن همراه با مراحل pre-training و RL.
♻️بهترین عملکرد در بین مدل‌های متراکم تا ۴۰B پارامتر.
♻️بسیار قوی در استدلال پیچیده، تولید کد و تسک‌های فرانت‌اند.

⚙️ جزئیات معماری و کارایی

✅معماری MoE با نسبت فعال‌سازی ۱/۳۲.
تکنیک‌های پیشرفته مثل توزیع هوشمند متخصصان، تعادل توجه، و مسیریابی بدون زیان کمکی.
✅روی سخت‌افزار H20 سرعت تولید ۲۰۰+ توکن در ثانیه (۳ برابر سریع‌تر از مدل متراکم 36B).
✅پشتیبانی از کانتکست‌های ۱۲۸K با استفاده از YaRN.
📎 جزئیات بیشتر:
🔗 Hugging Face

@rss_ai_ir

#MoE #مدل_زبان #یادگیری_ماشین #هوش_مصنوعی #OpenSource

🎉28😁20❤19👍16🥰15👏14🔥11

392 views03:37

VIRSUN

🚀 مدل جدید چینی LongCat-Flash-Thinking

🧠 مدلی مخصوص استدلال که بین تمام مدل‌های اوپن‌سورس به رکورد SOTA رسیده است.

⚡️ ویژگی‌ها:

✅معماری MoE با ۵۶۰B پارامتر (۲۷B فعال در هر بار اجرا)
✅صرفه‌جویی بزرگ: ‌برای رسیدن به نتایج برتر در AIME25 به ۶۴.۵٪ توکن کمتر نیاز دارد
✅پشتیبانی از 128k context
✅آموزش با تقویت (RL) روی مسائل استدلالی و کد + چندمرحله‌ای با سینتِز چندعاملی
✅همچنین RL آسنکرون → ‌۳ برابر سریع‌تر از فریم‌ورک‌های سنتی

⚙️ بهینه‌سازی برای پروداکشن:

♻️هسته‌های اختصاصی برای MoE و آموزش توزیع‌شده
♻️کاهش KV-cache، کوانتیزیشن، chunked prefill
♻️مسیریابی استاتیک/الاستیک، انتقال کش همتا‌به‌همتا، replication هوشمند
♻️سازگار با SGLang و vLLM برای استقرار سریع

📊 نتایج:

✳️صدرنشین در tool use (τ²-Bench, VitaBench)
✳️عملکرد عالی در instruction following (IFEval, COLLIE, Meeseeks-zh)
✳️چین همچنان پرچم‌دار مدل‌های reasoning است. 🇨🇳🤖

🔗 HF: huggingface.co/meituan-longcat/LongCat-Flash-Thinking

#هوش_مصنوعی #مدل_زبانی #MoE #یادگیری_عمیق #OpenSource

@rss_ai_ir

🔥6🥰6👏6👍5😁4❤3🎉3

1.18K views10:59

VIRSUN

🧠 Ling-1T
؛ مدل زبانی یک تریلیونی از inclusionAI 🚀

شرکت inclusionAI از مدل جدید خود با نام Ling-1T رونمایی کرده است — مدلی با ۱ تریلیون پارامتر که تنها ۵۰ میلیارد پارامتر فعال در هر توکن دارد (به لطف معماری MoE یا Mixture-of-Experts).

📊 ویژگی‌های کلیدی:

♻️آموزش بر روی بیش از ۲۰ تریلیون توکن داده‌ی انتخاب‌شده برای منطق و استدلال

♻️طول کانتکست: ۱۲۸٬۰۰۰ توکن 🔄

♻️مبتنی بر روش‌های آموزشی نوین:
🔹 همچنین
Evo-CoT (Evolutionary Chain of Thought)
برای بهبود تدریجی تعادل بین دقت استدلال و هزینه‌ی محاسبات
🔹 Linguistics-Unit RL
برای آموزش مقیاس‌پذیر در استدلال‌های زبانی

💡 توانایی‌ها:
مدل Ling-1T در زمینه‌های زیر عملکرد درخشانی دارد:

✅تولید و تحلیل کد 💻
✅حل مسائل ریاضی 🧮
✅منطق و استدلال 🔍
✅تولید رابط‌های کاربری و فرانت‌اند 🌐

⚙️ جزئیات معماری:

✳️فعال‌سازی MoE با نسبت ۱/۳۲
✳️لایه‌های MTP و مسیریابی پویا برای انتخاب متخصصان
✳️بازدهی بالا در کنار مصرف پایین منابع

📂 جزئیات بیشتر و مدل:

🔗 huggingface.co/inclusionAI/Ling-1T

@rss_ai_ir 🤖
#Ling1T #هوش_مصنوعی #یادگیری_عمیق #مدل_زبان #Reasoning #AI #TrillionModel #MoE

1.45K views04:29

VIRSUN

This media is not supported in your browser

VIEW IN TELEGRAM

💡 مدل RND1 — انقلاب در تولید متن با رویکرد دیفیوژنی!

🧠 مدل RND1 یک مدل زبانی آزمایشی با ۳۰ میلیارد پارامتر است که بر پایه‌ی معماری Sparse Mixture-of-Experts (MoE) ساخته شده؛ اما فقط ۳ میلیارد پارامتر آن در هر لحظه فعال است.
یعنی قدرت زیاد، اما با مصرف بسیار کمتر! ⚙️

🔁 تفاوت اصلی RND1 با مدل‌های معمولی مثل GPT در این است که: مدل‌های کلاسیک (Autoregressive) متن را کلمه به کلمه تولید می‌کنند،
اما RND1 کل جمله را به‌صورت همزمان می‌سازد و سپس در چند مرحله آن را دقیق‌تر می‌کند — درست مثل مدل‌های دیفیوژنی که تصویر را از «نویز» بیرون می‌کشند. 🎨

---

🚀 چطور ساخته شد؟

تیم Radical Numerics موفق شد یک مدل زبانی موجود (Qwen3-30B-A3B) را به مدل دیفیوژنی تبدیل کند — بدون نیاز به آموزش از صفر!

این فرآیند را AR-to-Diffusion Conversion (A2D) می‌نامند:
۱️⃣ انتخاب یک مدل قوی شبیه GPT
۲️⃣ تغییر مکانیزم توجه (attention) تا مدل کل متن را همزمان ببیند
۳️⃣ آموزش روی داده‌های جدید با روش دیفیوژنی
۴️⃣ استفاده از نرخ یادگیری متفاوت برای بخش‌های مختلف شبکه تا مدل هم «یاد قدیمی» را نگه دارد، هم «تفکر جدید» یاد بگیرد 🧩

---

⚙️ ویژگی‌های کلیدی

🔸 اول MoE فعال: تنها ۳ میلیارد پارامتر در هر بار فعال می‌شوند → سرعت بالا و بهره‌وری انرژی عالی.
🔸 یادگیری پیوسته: دانش قبلی پاک نمی‌شود، بلکه در منطق جدید ادغام می‌شود.

🔸 همچنین Batchهای عظیم: آموزش پایدار حتی هنگام مشاهده‌ی هم‌زمان کل توکن‌ها.

---

✨ چرا اهمیت دارد؟

✅ تولید موازی متن — بدون تأخیر گام‌به‌گام
✅ مصرف کمتر منابع با حفظ کیفیت GPTهای بزرگ
✅ معماری هیبریدی بین AR و DLM
✅ کاملاً متن‌باز (کد، گزارش و وزن‌ها در دسترس‌اند)
✅ گامی مهم به‌سوی هوش خودبهبودیاب (RSI)؛ مدلی که می‌تواند خودش را طراحی و بهبود دهد 🤖

---

📎 منابع:
🔸 وبلاگ:
radicalnumerics.ai/blog/rnd1
🔸 کد:
github.com/RadicalNumerics/RND1
🔸 گزارش فنی:
rnd1_report.pdf
🔸 وزن‌ها:
huggingface.co/radicalnumerics/RND1-Base-0910

---

📡 @rss_ai_ir
#RND1 #RadicalNumerics #AI #DLM #DiffusionModel #MoE #OpenSource

👍1

1.48K views13:32

VIRSUN

💡 شرکت DeepSeek پروژه‌ی جدید خود با نام LPLB را به‌صورت متن‌باز منتشر کرد؛ ابزاری آزمایشی برای مدیریت هوشمند بار در معماری‌های MoE

🧠 در این سیستم چند نکتهٔ مهم وجود دارد:

الگوریتم به‌صورت پویا بار بین «اکسپرت‌ها» را بر اساس آمار استفاده جابه‌جا می‌کند ⚙️

ساخت و جایگذاری نسخه‌های تکراری (Replica) بر پایهٔ توپولوژی خوشه انجام می‌شود 🛰️

فرایند پیدا کردن توزیع بهینهٔ توکن‌ها توسط حل‌کنندهٔ خطی (LP Solver) مستقیماً روی GPU انجام می‌گیرد، با استفاده از cuSolverDx و cuBLASDx ⚡️

معیارهای بارگذاری از طریق دو روش قابل دریافت است:
• استفادهٔ مستقیم از torch.distributed
• یا بهره‌گیری از بافرهای Deep-EP 🔧

📚 در مخزن گیت‌هاب یک راهنمای کامل قرار دارد که نشان می‌دهد یک بالانسر دقیق و هوشمند برای مدل‌های MoE چگونه باید طراحی شود.

🔗 GitHub:
https://github.com/deepseek-ai/LPLB

#DeepSeek #MoE #AIInfrastructure #OpenSource

1.1K views15:06

VIRSUN

🚀 مدل Uni-MoE-2.0-Omni؛ جهش تازه در دنیای مدل‌های اومنی‌مودال

مدلی که مرزهای چندمودالیتی را جابه‌جا کرده و وارد سطح اومنی‌مودالیتی شده است؛ یعنی فهم و تولید هم‌زمان گفتار، متن، تصویر، ویدئو و حتی تعاملات صوتی–تصویری.

✨ نوآوری اصلی
پژوهشگران نشان داده‌اند چگونه می‌توان یک LLM معمولی را به‌صورت تکاملی به یک مدل MoE واقعی تبدیل کرد که همهٔ مدالیته‌ها را یکپارچه پردازش می‌کند.

🧠 معماری مدل
۱) Omnimodality 3D-RoPE + Dynamic-Capacity MoE
• هم‌ترازسازی گفتار، متن، تصویر و ویدئو در ابعاد زمانی–فضایی
• تخصیص پویا و هوشمند محاسبات متناسب با سختی هر وظیفه

۲) Encoder–Decoder عمیقاً ترکیب‌شده
• ورودی و خروجی‌های چندگانه در هر مدالیتی
• تعامل واقعی اومنی‌مودال بین همهٔ حالت‌ها

🛠 فرآیند آموزش
۱) مسیر پیش‌رونده:
Cross-modal alignment → Warm-up → MoE+RL → Generative training
• تبدیل LLMهای فشرده به MoE
• تنها با ۷۵ میلیارد توکن
• همگرایی پایدار، مخصوصاً در مرحله RL

۲) زبان، هستهٔ اصلی تمام وظایف
• همهٔ مدالیته‌ها به تولید زبان نگاشت می‌شوند
• سدهای بین مدالیته‌ها را حذف می‌کند

🎨 توانایی‌ها
✔ تولید و تعامل صوتی
✔ تولید و ویرایش تصویر
✔ درک تصویر و ویدئو
✔ تحلیل صوتی–تصویری
✔ پشتیبانی از ۱۰+ وظیفهٔ چندمودال

🔥 نتایج کلیدی
در ۵۰+ مورد از ۷۶ وظیفه، بهتر از Qwen 2.5 Omni عمل کرده—درحالی‌که ۱.۲ تریلیون توکن مصرف کرده بود:
• درک ویدئو: ‌۵٪ بهتر
• فهم اومنی‌مودال: ‌۷٪ بهتر
• Speech-QA: ‌۴.۳٪ بهتر
• پردازش تصویر: ‌۷٪ بهتر

🌍 منابع متن‌باز
Model →
https://huggingface.co/collections/HIT-TMG/lychee-uni-moe-20
Code →
https://github.com/HITsz-TMG/Uni-MoE/tree/master/Uni-MoE-2
Homepage →
https://idealistxy.github.io/Uni-MoE-v2.github.io/

@rss_ai_ir
#هوش_مصنوعی #مدل_زبان #اومنی_مودال #MoE

👍1

1.17K views04:34

VIRSUN

🌟 فریم‌ورک جدید RL برای آموزش مدل‌های MoE از تیمی که Chatbot Arena را ساخته است

فریم‌ورک Miles توسط گروه LMSYS ORG معرفی شد؛ همان تیمی که پروژهٔ معروف slime را ساخته بود. اگر توسعه‌های اپن‌سورس را دنبال می‌کنید، می‌دانید slime یک ابزار فوق‌سبک برای پست‌تریـن است—و حتی برای GLM-4.6 هم استفاده شد.

✅همچنین Miles همان مسیر را ادامه می‌دهد، اما این بار با تمرکز بر آموزش مقیاس‌بالا برای معماری‌های MoE و پشتیبانی از بارهای سنگین در محیط‌های سازمانی.

⚙️ نکات فنی
• معماری بر پایهٔ True On-Policy؛ یعنی صفر شدن فاصلهٔ رفتاری بین مدل در حالت آموزش و حالت اجرا
• استفاده از Flash Attention 3، کتابخانه DeepGEMM و هسته‌های Thinking Machines Lab در کنار torch.compile
• پشتیبانی از Speculative Decoding همراه با آموزش آنلاین مدل پیش‌نویس—رویکردی که باعث می‌شود مدل draft دقیقاً با سیاست مدل اصلی حرکت کند
• افزایش سرعت تولید متن تا ۲۵٪ در مراحل پایانی آموزش

🧩 پایداری سیستم
• جلوگیری از کرش‌های غیرضروری OOM؛ اهمیت ویژه برای محیط‌های سازمانی که «هر گیگابایت یعنی هزینه»
• اصلاح مشکلات مصرف حافظه در FSDP
• وعدهٔ پشتیبانی از آموزش چندمُدی، سازگاری با SGLang v2 و نسخهٔ پیشرفته‌تر Speculative Decoding

📄 مقاله
🖥️ GitHub

@rss_ai_ir
#AI #ML #RL #MoE #LMSYS #Miles

1.23K views14:09

VIRSUN

🔥 بهترین راهنمای فاین‌تیونینگ که امسال در arXiv می‌بینید!

اگر با مدل‌های زبانی کار می‌کنید—چه مبتدی باشید چه حرفه‌ای—این مقاله دقیقاً همان چیزی است که لازم دارید. یک راهنمای کامل، مرحله‌به‌مرحله و فوق‌العاده منظم برای تسلط بر Fine-Tuning مدرن.

📘 مباحثی که پوشش می‌دهد:

🧠 مبانی NLP (برای اینکه بدانید زیرساخت مدل چه می‌گوید)

⚙️ روش‌های PEFT / LoRA / QLoRA (تکنیک‌های سبک برای آموزش مدل‌های بزرگ روی GPUهای معمولی)

🔀اینکه Mixture of Experts (MoE) و نکات ریز مربوط به آموزش کارآمد

🧩 پایپلاین ۷ مرحله‌ای برای فاین‌تیونینگ حرفه‌ای

🎯 توصیه‌های عملی، چک‌لیست‌ها و اشتباهاتی که باید از آن‌ها دوری کرد

📄 منبع:
https://arxiv.org/pdf/2408.13296v1

#AI #ML #FineTuning #LoRA #QLoRA #MoE #NLP #DeepLearning #arXiv

@rss_ai_ir

👍2🔥1👏1

378 views04:04

About

Blog

Apps

Platform