VIRSUN
7.44K subscribers
792 photos
461 videos
3 files
507 links
📥 در کانال @rss_ai_ir هر روز: 🔹 جدیدترین خبرهای AI و فناوری
🗯اولویت ما هوش مصنوعی در صنعت میباشد اما نیم نگاهی به موارد دیگر در این زمینه داریم

ارتباط با ادمین 1:
@Ad1_rss_ai_ir

آدرس گروه
https://t.iss.one/rss_ai_ir_group
Download Telegram
🧠 SpikingBrain-7B:
مدل‌های الهام‌گرفته از عصب‌شناسی

مدل SpikingBrain-7B معماری‌ای است که از سازوکارهای مغز الهام گرفته و با ترکیب توجه هیبریدی و ماژول‌های MoE (Mixture of Experts) طراحی شده است. این مدل با حداقل داده‌ها عملکرد بالا دارد و برای کلاسترهایی بدون نیاز به کارت‌های NVIDIA بهینه‌سازی شده است؛ همین ویژگی امکان افزایش چشمگیر سرعت آموزش و استنتاج را فراهم می‌کند.

🚀 ویژگی‌های کلیدی:

✳️ادغام توجه هیبریدی و MoE
✳️پشتیبانی از آموزش کم‌هزینه با استفاده از کمتر از ۲٪ داده‌ها
✳️بهینه‌سازی‌شده برای کلاسترهای MetaX
✳️بیش از ۱۰۰ برابر سرعت بیشتر در پردازش توالی‌های طولانی

⛔️ارائه نسخه‌های آماده در HuggingFace و نسخه کوانتیزه‌شده


📌 GitHub: SpikingBrain-7B

#هوش_مصنوعی #مدل_زبان #SpikingBrain #MoE #NeuroAI #DeepLearning #HuggingFace
13😍12💯9👍8🔥8🥰6❤‍🔥6🎉5🤩5👏3😁2
⚡️ Ling-flash-2.0 منتشر شد! ⚡️

⛔️مدلی با ۱۰۰ میلیارد پارامتر اما فقط با حدود ۶.۱ میلیارد پارامتر فعال، که آن را فوق‌العاده کم‌هزینه و سریع در پردازش می‌کند.


🚀 ویژگی‌های کلیدی Ling-flash-2.0

♻️آموزش‌دیده روی ۲۰ تریلیون توکن همراه با مراحل pre-training و RL.
♻️بهترین عملکرد در بین مدل‌های متراکم تا ۴۰B پارامتر.
♻️بسیار قوی در استدلال پیچیده، تولید کد و تسک‌های فرانت‌اند.

⚙️ جزئیات معماری و کارایی

معماری MoE با نسبت فعال‌سازی ۱/۳۲.
تکنیک‌های پیشرفته مثل توزیع هوشمند متخصصان، تعادل توجه، و مسیریابی بدون زیان کمکی.
روی سخت‌افزار H20 سرعت تولید ۲۰۰+ توکن در ثانیه (۳ برابر سریع‌تر از مدل متراکم 36B).
پشتیبانی از کانتکست‌های ۱۲۸K با استفاده از YaRN.
📎 جزئیات بیشتر:
🔗 Hugging Face

@rss_ai_ir

#MoE #مدل_زبان #یادگیری_ماشین #هوش_مصنوعی #OpenSource
🎉28😁2019👍16🥰15👏14🔥11
🚀 مدل جدید چینی LongCat-Flash-Thinking

🧠 مدلی مخصوص استدلال که بین تمام مدل‌های اوپن‌سورس به رکورد SOTA رسیده است.

⚡️ ویژگی‌ها:

معماری MoE با ۵۶۰B پارامتر (۲۷B فعال در هر بار اجرا)
صرفه‌جویی بزرگ: ‌برای رسیدن به نتایج برتر در AIME25 به ۶۴.۵٪ توکن کمتر نیاز دارد
پشتیبانی از 128k context
آموزش با تقویت (RL) روی مسائل استدلالی و کد + چندمرحله‌ای با سینتِز چندعاملی
همچنین RL آسنکرون → ‌۳ برابر سریع‌تر از فریم‌ورک‌های سنتی


⚙️ بهینه‌سازی برای پروداکشن:

♻️هسته‌های اختصاصی برای MoE و آموزش توزیع‌شده
♻️کاهش KV-cache، کوانتیزیشن، chunked prefill
♻️مسیریابی استاتیک/الاستیک، انتقال کش همتا‌به‌همتا، replication هوشمند
♻️سازگار با SGLang و vLLM برای استقرار سریع


📊 نتایج:

✳️صدرنشین در tool use (τ²-Bench, VitaBench)
✳️عملکرد عالی در instruction following (IFEval, COLLIE, Meeseeks-zh)
✳️چین همچنان پرچم‌دار مدل‌های reasoning است. 🇨🇳🤖

🔗 HF: huggingface.co/meituan-longcat/LongCat-Flash-Thinking

#هوش_مصنوعی #مدل_زبانی #MoE #یادگیری_عمیق #OpenSource

@rss_ai_ir
🔥6🥰6👏6👍5😁43🎉3