📘🤖مجموعه Hugging Face منتشر کرد:
Smol Training Playbook
تازهترین منبع آموزشی Hugging Face منتشر شده —
یک پلیبوک رایگان و عملی دربارهی نحوهی ساخت مدلهای SOTA از درون تیمهای تحقیقاتی 💡
بدون حرفهای کلی، فقط جزییات واقعی از تجربیات توسعهدهندگان در طراحی، آموزش و بهینهسازی LLMها.
---
📚 آنچه در پلیبوک میآموزید:
• منطق ساخت مدل: از «چرا» تا «چگونه»
• نحوهی روشن و خاموشکردن یا تعویض ماژولها در معماری
• طراحی معماری و توازن بین دقت، هزینه و سرعت
• انتخاب و پاکسازی هوشمند دادهها
• فرآیند آموزش، پسپردازش و RLHF در ۲۰۲۵
• ترفندهای بهینهسازی: RoPE، کوانتیزهسازی، attention approximation
• زیرساخت و مهندسی سیستم برای مدلهای بزرگ
---
🔗 لینک مستقیم:
https://huggingface.co/spaces/HuggingFaceTB/smol-training-playbook#designing-the-model-architecture
📡 @rss_ai_ir
#هوش_مصنوعی #HuggingFace #LLM #MachineLearning #DeepLearning #Training #AI #Playbook
Smol Training Playbook
تازهترین منبع آموزشی Hugging Face منتشر شده —
یک پلیبوک رایگان و عملی دربارهی نحوهی ساخت مدلهای SOTA از درون تیمهای تحقیقاتی 💡
بدون حرفهای کلی، فقط جزییات واقعی از تجربیات توسعهدهندگان در طراحی، آموزش و بهینهسازی LLMها.
---
📚 آنچه در پلیبوک میآموزید:
• منطق ساخت مدل: از «چرا» تا «چگونه»
• نحوهی روشن و خاموشکردن یا تعویض ماژولها در معماری
• طراحی معماری و توازن بین دقت، هزینه و سرعت
• انتخاب و پاکسازی هوشمند دادهها
• فرآیند آموزش، پسپردازش و RLHF در ۲۰۲۵
• ترفندهای بهینهسازی: RoPE، کوانتیزهسازی، attention approximation
• زیرساخت و مهندسی سیستم برای مدلهای بزرگ
---
🔗 لینک مستقیم:
https://huggingface.co/spaces/HuggingFaceTB/smol-training-playbook#designing-the-model-architecture
📡 @rss_ai_ir
#هوش_مصنوعی #HuggingFace #LLM #MachineLearning #DeepLearning #Training #AI #Playbook
🔥1👏1
🧨 مدل جدید Kimi معرفی شد — Kimi-Linear-48B-A3B-Base
مدل تازهی Kimi با معماری Linear Attention آمده تا نشان دهد میشود با مصرف کمتر حافظه، همان سطح عملکرد مدلهای بزرگ LLM را در متنهای طولانی بهدست آورد ⚡📜
---
💡 ویژگیهای کلیدی:
• تا ۷۵٪ مصرف کمتر حافظهی KV-cache
• تا ۶.۳ برابر سرعت بیشتر در decode طولانیها
• معماری Hybrid: Kimi Delta Attention + MLA
• بهینهشده برای context طولانی و توان عبور بالا (throughput)
---
📊 نتایج بنچمارک:
در آزمونهای reasoning، تولید طولانی (long-RL) و وظایف متنی با context بالا،
مدل Kimi-Linear-48B-A3B-Base از مدلهای MLA و GDN-H پیشی گرفته است 🚀
این مدل نمونهای از روندی است که در آن معماریهای attention خطی نهتنها از نظر سرعت، بلکه از نظر کیفیت و دقت نیز به سطح مدلهای کلاسیک نزدیک شدهاند — یا حتی از آنها جلو زدهاند 🧠💬
---
🟠 GitHub:
github.com/MoonshotAI/Kimi-Linear
🟠 HuggingFace:
huggingface.co/moonshotai/Kimi-Linear-48B-A3B-Instruct
📡 @rss_ai_ir
#هوش_مصنوعی #Kimi #LLM #Transformer #Attention #AI #DeepLearning #MachineLearning
مدل تازهی Kimi با معماری Linear Attention آمده تا نشان دهد میشود با مصرف کمتر حافظه، همان سطح عملکرد مدلهای بزرگ LLM را در متنهای طولانی بهدست آورد ⚡📜
---
💡 ویژگیهای کلیدی:
• تا ۷۵٪ مصرف کمتر حافظهی KV-cache
• تا ۶.۳ برابر سرعت بیشتر در decode طولانیها
• معماری Hybrid: Kimi Delta Attention + MLA
• بهینهشده برای context طولانی و توان عبور بالا (throughput)
---
📊 نتایج بنچمارک:
در آزمونهای reasoning، تولید طولانی (long-RL) و وظایف متنی با context بالا،
مدل Kimi-Linear-48B-A3B-Base از مدلهای MLA و GDN-H پیشی گرفته است 🚀
این مدل نمونهای از روندی است که در آن معماریهای attention خطی نهتنها از نظر سرعت، بلکه از نظر کیفیت و دقت نیز به سطح مدلهای کلاسیک نزدیک شدهاند — یا حتی از آنها جلو زدهاند 🧠💬
---
🟠 GitHub:
github.com/MoonshotAI/Kimi-Linear
🟠 HuggingFace:
huggingface.co/moonshotai/Kimi-Linear-48B-A3B-Instruct
📡 @rss_ai_ir
#هوش_مصنوعی #Kimi #LLM #Transformer #Attention #AI #DeepLearning #MachineLearning
❤2👏1🙏1