🧠 Thinking Machines معرفی کرد:
On-Policy Distillation —
روشی جدید برای آموزش مدلهای زبانی که بهجای حفظ کردن، یاد میگیرند فکر کنند.
در این روش نوآورانه از آزمایشگاه Thinking Machines Lab، مدل کوچکتر دیگر فقط پاسخهای مدل بزرگتر را تکرار نمیکند؛ بلکه خودش تلاش میکند مسئله را حل کند، سپس «استاد» (مدل بزرگتر) مسیر منطق و خطاهایش را تحلیل کرده و راهنماییاش میکند.
به این ترتیب، مدل کوچکتر نهتنها دانش بلکه روش تفکر و استدلال مدل بزرگتر را نیز فرا میگیرد. 🧩
📊 نتایج آزمایشها (روی مسائل منطقی و ریاضی):
♻️مدل کوچک پس از آموزش با on-policy distillation به دقتی نزدیک به مدل بزرگتر رسید.
♻️هزینههای محاسباتی چندین برابر کاهش یافت.
♻️مدل توانست خطاهای خودش را بهتر درک کند و در مواجهه با مسائل جدید پایدارتر عمل کند.
💡 چرا این مهم است؟
در روشهای سنتی، مدل فقط پاسخ را تقلید میکند (مثل حفظ کردن).
اما در اینجا مدل مانند انسان یاد میگیرد — تجربه میکند، اشتباه میکند و اصلاح میشود.
🔹 روش جدید تعادلی هوشمند بین یادگیری تقویتی (RL) و دانش تقطیری (KD) ایجاد میکند.
🔹 بدون نیاز به محیطهای پیچیده RL، مدل میتواند بهصورت خودکار و با هزینهی کمتر، یادگیری تطبیقی انجام دهد.
🔹 نتیجه: مدلهای کوچکتر که تقریباً مثل مدلهای بزرگ فکر میکنند، اما سریعتر، ارزانتر و مناسب برای edge devices، رباتها و سیستمهای محلی خصوصی هستند.
📘 مطالعهی بیشتر:
thinkingmachines.ai/blog/on-policy-distillation/
@rss_ai_ir
#AI #LLM #ThinkingMachines #DeepLearning #MachineLearning #Distillation #Innovation
On-Policy Distillation —
روشی جدید برای آموزش مدلهای زبانی که بهجای حفظ کردن، یاد میگیرند فکر کنند.
در این روش نوآورانه از آزمایشگاه Thinking Machines Lab، مدل کوچکتر دیگر فقط پاسخهای مدل بزرگتر را تکرار نمیکند؛ بلکه خودش تلاش میکند مسئله را حل کند، سپس «استاد» (مدل بزرگتر) مسیر منطق و خطاهایش را تحلیل کرده و راهنماییاش میکند.
به این ترتیب، مدل کوچکتر نهتنها دانش بلکه روش تفکر و استدلال مدل بزرگتر را نیز فرا میگیرد. 🧩
📊 نتایج آزمایشها (روی مسائل منطقی و ریاضی):
♻️مدل کوچک پس از آموزش با on-policy distillation به دقتی نزدیک به مدل بزرگتر رسید.
♻️هزینههای محاسباتی چندین برابر کاهش یافت.
♻️مدل توانست خطاهای خودش را بهتر درک کند و در مواجهه با مسائل جدید پایدارتر عمل کند.
💡 چرا این مهم است؟
در روشهای سنتی، مدل فقط پاسخ را تقلید میکند (مثل حفظ کردن).
اما در اینجا مدل مانند انسان یاد میگیرد — تجربه میکند، اشتباه میکند و اصلاح میشود.
🔹 روش جدید تعادلی هوشمند بین یادگیری تقویتی (RL) و دانش تقطیری (KD) ایجاد میکند.
🔹 بدون نیاز به محیطهای پیچیده RL، مدل میتواند بهصورت خودکار و با هزینهی کمتر، یادگیری تطبیقی انجام دهد.
🔹 نتیجه: مدلهای کوچکتر که تقریباً مثل مدلهای بزرگ فکر میکنند، اما سریعتر، ارزانتر و مناسب برای edge devices، رباتها و سیستمهای محلی خصوصی هستند.
📘 مطالعهی بیشتر:
thinkingmachines.ai/blog/on-policy-distillation/
@rss_ai_ir
#AI #LLM #ThinkingMachines #DeepLearning #MachineLearning #Distillation #Innovation
❤1👍1