🧠 SpikingBrain-7B:
مدلهای الهامگرفته از عصبشناسی
✅مدل SpikingBrain-7B معماریای است که از سازوکارهای مغز الهام گرفته و با ترکیب توجه هیبریدی و ماژولهای MoE (Mixture of Experts) طراحی شده است. این مدل با حداقل دادهها عملکرد بالا دارد و برای کلاسترهایی بدون نیاز به کارتهای NVIDIA بهینهسازی شده است؛ همین ویژگی امکان افزایش چشمگیر سرعت آموزش و استنتاج را فراهم میکند.
🚀 ویژگیهای کلیدی:
✳️ادغام توجه هیبریدی و MoE
✳️پشتیبانی از آموزش کمهزینه با استفاده از کمتر از ۲٪ دادهها
✳️بهینهسازیشده برای کلاسترهای MetaX
✳️بیش از ۱۰۰ برابر سرعت بیشتر در پردازش توالیهای طولانی
⛔️ارائه نسخههای آماده در HuggingFace و نسخه کوانتیزهشده
📌 GitHub: SpikingBrain-7B
#هوش_مصنوعی #مدل_زبان #SpikingBrain #MoE #NeuroAI #DeepLearning #HuggingFace
مدلهای الهامگرفته از عصبشناسی
✅مدل SpikingBrain-7B معماریای است که از سازوکارهای مغز الهام گرفته و با ترکیب توجه هیبریدی و ماژولهای MoE (Mixture of Experts) طراحی شده است. این مدل با حداقل دادهها عملکرد بالا دارد و برای کلاسترهایی بدون نیاز به کارتهای NVIDIA بهینهسازی شده است؛ همین ویژگی امکان افزایش چشمگیر سرعت آموزش و استنتاج را فراهم میکند.
🚀 ویژگیهای کلیدی:
✳️ادغام توجه هیبریدی و MoE
✳️پشتیبانی از آموزش کمهزینه با استفاده از کمتر از ۲٪ دادهها
✳️بهینهسازیشده برای کلاسترهای MetaX
✳️بیش از ۱۰۰ برابر سرعت بیشتر در پردازش توالیهای طولانی
⛔️ارائه نسخههای آماده در HuggingFace و نسخه کوانتیزهشده
📌 GitHub: SpikingBrain-7B
#هوش_مصنوعی #مدل_زبان #SpikingBrain #MoE #NeuroAI #DeepLearning #HuggingFace
❤13😍12💯9👍8🔥8🥰6❤🔥6🎉5🤩5👏3😁2
⚡️ Ling-flash-2.0 منتشر شد! ⚡️
⛔️مدلی با ۱۰۰ میلیارد پارامتر اما فقط با حدود ۶.۱ میلیارد پارامتر فعال، که آن را فوقالعاده کمهزینه و سریع در پردازش میکند.
🚀 ویژگیهای کلیدی Ling-flash-2.0
♻️آموزشدیده روی ۲۰ تریلیون توکن همراه با مراحل pre-training و RL.
♻️بهترین عملکرد در بین مدلهای متراکم تا ۴۰B پارامتر.
♻️بسیار قوی در استدلال پیچیده، تولید کد و تسکهای فرانتاند.
⚙️ جزئیات معماری و کارایی
✅معماری MoE با نسبت فعالسازی ۱/۳۲.
تکنیکهای پیشرفته مثل توزیع هوشمند متخصصان، تعادل توجه، و مسیریابی بدون زیان کمکی.
✅روی سختافزار H20 سرعت تولید ۲۰۰+ توکن در ثانیه (۳ برابر سریعتر از مدل متراکم 36B).
✅پشتیبانی از کانتکستهای ۱۲۸K با استفاده از YaRN.
📎 جزئیات بیشتر:
🔗 Hugging Face
@rss_ai_ir
#MoE #مدل_زبان #یادگیری_ماشین #هوش_مصنوعی #OpenSource
⛔️مدلی با ۱۰۰ میلیارد پارامتر اما فقط با حدود ۶.۱ میلیارد پارامتر فعال، که آن را فوقالعاده کمهزینه و سریع در پردازش میکند.
🚀 ویژگیهای کلیدی Ling-flash-2.0
♻️آموزشدیده روی ۲۰ تریلیون توکن همراه با مراحل pre-training و RL.
♻️بهترین عملکرد در بین مدلهای متراکم تا ۴۰B پارامتر.
♻️بسیار قوی در استدلال پیچیده، تولید کد و تسکهای فرانتاند.
⚙️ جزئیات معماری و کارایی
✅معماری MoE با نسبت فعالسازی ۱/۳۲.
تکنیکهای پیشرفته مثل توزیع هوشمند متخصصان، تعادل توجه، و مسیریابی بدون زیان کمکی.
✅روی سختافزار H20 سرعت تولید ۲۰۰+ توکن در ثانیه (۳ برابر سریعتر از مدل متراکم 36B).
✅پشتیبانی از کانتکستهای ۱۲۸K با استفاده از YaRN.
📎 جزئیات بیشتر:
🔗 Hugging Face
@rss_ai_ir
#MoE #مدل_زبان #یادگیری_ماشین #هوش_مصنوعی #OpenSource
🎉28😁20❤19👍16🥰15👏14🔥11
🚀 مدل جدید چینی LongCat-Flash-Thinking
🧠 مدلی مخصوص استدلال که بین تمام مدلهای اوپنسورس به رکورد SOTA رسیده است.
⚡️ ویژگیها:
✅معماری MoE با ۵۶۰B پارامتر (۲۷B فعال در هر بار اجرا)
✅صرفهجویی بزرگ: برای رسیدن به نتایج برتر در AIME25 به ۶۴.۵٪ توکن کمتر نیاز دارد
✅پشتیبانی از 128k context
✅آموزش با تقویت (RL) روی مسائل استدلالی و کد + چندمرحلهای با سینتِز چندعاملی
✅همچنین RL آسنکرون → ۳ برابر سریعتر از فریمورکهای سنتی
⚙️ بهینهسازی برای پروداکشن:
♻️هستههای اختصاصی برای MoE و آموزش توزیعشده
♻️کاهش KV-cache، کوانتیزیشن، chunked prefill
♻️مسیریابی استاتیک/الاستیک، انتقال کش همتابههمتا، replication هوشمند
♻️سازگار با SGLang و vLLM برای استقرار سریع
📊 نتایج:
✳️صدرنشین در tool use (τ²-Bench, VitaBench)
✳️عملکرد عالی در instruction following (IFEval, COLLIE, Meeseeks-zh)
✳️چین همچنان پرچمدار مدلهای reasoning است. 🇨🇳🤖
🔗 HF: huggingface.co/meituan-longcat/LongCat-Flash-Thinking
#هوش_مصنوعی #مدل_زبانی #MoE #یادگیری_عمیق #OpenSource
@rss_ai_ir
🧠 مدلی مخصوص استدلال که بین تمام مدلهای اوپنسورس به رکورد SOTA رسیده است.
⚡️ ویژگیها:
✅معماری MoE با ۵۶۰B پارامتر (۲۷B فعال در هر بار اجرا)
✅صرفهجویی بزرگ: برای رسیدن به نتایج برتر در AIME25 به ۶۴.۵٪ توکن کمتر نیاز دارد
✅پشتیبانی از 128k context
✅آموزش با تقویت (RL) روی مسائل استدلالی و کد + چندمرحلهای با سینتِز چندعاملی
✅همچنین RL آسنکرون → ۳ برابر سریعتر از فریمورکهای سنتی
⚙️ بهینهسازی برای پروداکشن:
♻️هستههای اختصاصی برای MoE و آموزش توزیعشده
♻️کاهش KV-cache، کوانتیزیشن، chunked prefill
♻️مسیریابی استاتیک/الاستیک، انتقال کش همتابههمتا، replication هوشمند
♻️سازگار با SGLang و vLLM برای استقرار سریع
📊 نتایج:
✳️صدرنشین در tool use (τ²-Bench, VitaBench)
✳️عملکرد عالی در instruction following (IFEval, COLLIE, Meeseeks-zh)
✳️چین همچنان پرچمدار مدلهای reasoning است. 🇨🇳🤖
🔗 HF: huggingface.co/meituan-longcat/LongCat-Flash-Thinking
#هوش_مصنوعی #مدل_زبانی #MoE #یادگیری_عمیق #OpenSource
@rss_ai_ir
🔥6🥰6👏6👍5😁4❤3🎉3