🧠 چرا مدلهای زبانی در آموزش تقویتی (RL) «تصادفی بودن» خود را از دست میدهند؟
و مهمتر از آن: چطور این مشکل را حل کنیم؟
در یک پژوهش جدید، محققان بررسی کردهاند که چرا هنگام آموزش مدلها برای توانایی استدلال، تنوع پاسخها کاهش مییابد و مدل فقط چند پاسخ تکراری را انتخاب میکند. نتیجه؟ افت خلاقیت، کاهش اکتشاف و در نهایت ضعف در تعمیمدهی.
📌 مهمترین یافتهها
🔹 تنوع مهمتر از اندازه دیتاست است
گاهی یک دیتاست کوچک اما متنوع (~۶۰۰ نمونه) میتواند به اندازه مجموعه ۱۷هزار نمونه کارکرد داشته باشد
🔹 دیتاست کمتنوع = سقوط سریعتر
پس حتی مجموعه کوچک اگر متنوع باشد عملکرد فوقالعاده دارد.
🔗 منبع پژوهش:
arxiv.org/abs/2511.05993
---
📍 جمعبندی کوتاه:
برای ساخت مدلهای استدلال قدرتمند، فقط پاداش بیشتر کافی نیست؛ باید تصادفیبودن کنترلشده و تنوع داده حفظ شود، وگرنه مدل به چند الگوی تکراری قفل میشود.
---
در اینباره تجربهای دارید؟ شما موافقید که مدلهای جدید بیش از حد «قابلپیشبینی» شدهاند؟ 🤔
@rss_ai_ir
---
#هوش_مصنوعی #یادگیری_تقویتی #RL #LLM #زبان_طبیعی #پژوهش_هوش_مصنوعی #مدل_مولد #Entropy #ReinforcementLearning #AIResearch
و مهمتر از آن: چطور این مشکل را حل کنیم؟
در یک پژوهش جدید، محققان بررسی کردهاند که چرا هنگام آموزش مدلها برای توانایی استدلال، تنوع پاسخها کاهش مییابد و مدل فقط چند پاسخ تکراری را انتخاب میکند. نتیجه؟ افت خلاقیت، کاهش اکتشاف و در نهایت ضعف در تعمیمدهی.
📌 مهمترین یافتهها
🔹 تنوع مهمتر از اندازه دیتاست است
گاهی یک دیتاست کوچک اما متنوع (~۶۰۰ نمونه) میتواند به اندازه مجموعه ۱۷هزار نمونه کارکرد داشته باشد
🔹 دیتاست کمتنوع = سقوط سریعتر
پس حتی مجموعه کوچک اگر متنوع باشد عملکرد فوقالعاده دارد.
🔗 منبع پژوهش:
arxiv.org/abs/2511.05993
---
📍 جمعبندی کوتاه:
برای ساخت مدلهای استدلال قدرتمند، فقط پاداش بیشتر کافی نیست؛ باید تصادفیبودن کنترلشده و تنوع داده حفظ شود، وگرنه مدل به چند الگوی تکراری قفل میشود.
---
در اینباره تجربهای دارید؟ شما موافقید که مدلهای جدید بیش از حد «قابلپیشبینی» شدهاند؟ 🤔
@rss_ai_ir
---
#هوش_مصنوعی #یادگیری_تقویتی #RL #LLM #زبان_طبیعی #پژوهش_هوش_مصنوعی #مدل_مولد #Entropy #ReinforcementLearning #AIResearch
❤13🥰11😁11👍10🔥9👏8🎉7