VIRSUN

🧠 چرا مدل‌های زبانی در آموزش تقویتی (RL) «تصادفی بودن» خود را از دست می‌دهند؟
و مهم‌تر از آن: چطور این مشکل را حل کنیم؟

در یک پژوهش جدید، محققان بررسی کرده‌اند که چرا هنگام آموزش مدل‌ها برای توانایی استدلال، تنوع پاسخ‌ها کاهش می‌یابد و مدل فقط چند پاسخ تکراری را انتخاب می‌کند. نتیجه؟ افت خلاقیت، کاهش اکتشاف و در نهایت ضعف در تعمیم‌دهی.

📌 مهم‌ترین یافته‌ها

🔹 تنوع مهم‌تر از اندازه دیتاست است
گاهی یک دیتاست کوچک اما متنوع (~۶۰۰ نمونه) می‌تواند به اندازه مجموعه ۱۷هزار نمونه کارکرد داشته باشد

🔹 دیتاست کم‌تنوع = سقوط سریع‌تر
پس حتی مجموعه کوچک اگر متنوع باشد عملکرد فوق‌العاده دارد.

🔗 منبع پژوهش:
arxiv.org/abs/2511.05993
---
📍 جمع‌بندی کوتاه:
برای ساخت مدل‌های استدلال قدرتمند، فقط پاداش بیشتر کافی نیست؛ باید تصادفی‌بودن کنترل‌شده و تنوع داده‌ حفظ شود، وگرنه مدل به چند الگوی تکراری قفل می‌شود.
---

در این‌باره تجربه‌ای دارید؟ شما موافقید که مدل‌های جدید بیش از حد «قابل‌پیش‌بینی» شده‌اند؟ 🤔

@rss_ai_ir
---

#هوش_مصنوعی #یادگیری_تقویتی #RL #LLM #زبان_طبیعی #پژوهش_هوش_مصنوعی #مدل_مولد #Entropy #ReinforcementLearning #AIResearch

❤13🥰11😁11👍10🔥9👏8🎉7

1.28K views12:54

About

Blog

Apps

Platform