🧩 LightReasoner —
زمانی که مدلهای کوچک، مدلهای بزرگ را در استدلال بهتر آموزش میدهند
پژوهشگران روشی به نام LightReasoner معرفی کردهاند که به مدلهای کوچک اجازه میدهد به مدلهای بزرگتر بیاموزند کجا و چگونه باید استدلال کنند.
💡 ایدهی اصلی این است که:
بهجای آموزش مدل روی کل متن، فقط روی توکنهایی تمرکز شود که واقعاً مسیر استدلال را تغییر میدهند.
🔹 مکانیزم کار:
سیستم، یک مدل «استاد» و یک مدل «شاگرد» را روی یک مسئله اجرا میکند و نقاطی را پیدا میکند که در آنها پیشبینیهایشان تفاوت زیادی دارد.
این نقاط همان گامهای بحرانی هستند که مسیر پاسخ درست را تعیین میکنند.
سپس مدل:
❌فقط همین گامهای دشوار را نگه میدارد،
❌تفاوت استاد را به هدف آموزشی نرم تبدیل میکند،
❌توکنهای ساده و بدیهی را نادیده میگیرد.
📉 نتیجه:
♻️سرعت آموزش تا ۹۰٪ بیشتر،
♻️تعداد توکنهای آموزشی تا ۹۹٪ کمتر،
♻️اما دقت در بنچمارکهای ریاضی برابر یا حتی بالاتر از فاینتیونینگ سنتی است.
♻️اثر این روش زمانی بیشتر است که مدل شاگرد نهتنها کوچکتر، بلکه در حوزهی دانشی خاص نیز با مدل استاد متفاوت باشد.
حذف هر یک از مؤلفهها — انتخاب گامها یا اهداف متضاد — باعث افت عملکرد میشود.
📄 مقاله: arxiv.org/abs/2510.07962
#هوش_مصنوعی #یادگیری_ماشین #استدلال #LightReasoner #LLM
زمانی که مدلهای کوچک، مدلهای بزرگ را در استدلال بهتر آموزش میدهند
پژوهشگران روشی به نام LightReasoner معرفی کردهاند که به مدلهای کوچک اجازه میدهد به مدلهای بزرگتر بیاموزند کجا و چگونه باید استدلال کنند.
💡 ایدهی اصلی این است که:
بهجای آموزش مدل روی کل متن، فقط روی توکنهایی تمرکز شود که واقعاً مسیر استدلال را تغییر میدهند.
🔹 مکانیزم کار:
سیستم، یک مدل «استاد» و یک مدل «شاگرد» را روی یک مسئله اجرا میکند و نقاطی را پیدا میکند که در آنها پیشبینیهایشان تفاوت زیادی دارد.
این نقاط همان گامهای بحرانی هستند که مسیر پاسخ درست را تعیین میکنند.
سپس مدل:
❌فقط همین گامهای دشوار را نگه میدارد،
❌تفاوت استاد را به هدف آموزشی نرم تبدیل میکند،
❌توکنهای ساده و بدیهی را نادیده میگیرد.
📉 نتیجه:
♻️سرعت آموزش تا ۹۰٪ بیشتر،
♻️تعداد توکنهای آموزشی تا ۹۹٪ کمتر،
♻️اما دقت در بنچمارکهای ریاضی برابر یا حتی بالاتر از فاینتیونینگ سنتی است.
♻️اثر این روش زمانی بیشتر است که مدل شاگرد نهتنها کوچکتر، بلکه در حوزهی دانشی خاص نیز با مدل استاد متفاوت باشد.
حذف هر یک از مؤلفهها — انتخاب گامها یا اهداف متضاد — باعث افت عملکرد میشود.
📄 مقاله: arxiv.org/abs/2510.07962
#هوش_مصنوعی #یادگیری_ماشین #استدلال #LightReasoner #LLM
👍2