VIRSUN
11.7K subscribers
1.2K photos
709 videos
5 files
782 links
📥 در کانال @rss_ai_ir هر روز: 🔹 جدیدترین خبرهای AI و فناوری
🗯اولویت ما هوش مصنوعی در صنعت میباشد اما نیم نگاهی به موارد دیگر در این زمینه داریم

ارتباط با ادمین 1:
@Ad1_rss_ai_ir

آدرس گروه
https://t.iss.one/rss_ai_ir_group
Download Telegram
🧬 رفتارهای خطرناک در مدل‌های هوش مصنوعی؛ یافته‌های تازه Anthropic

♻️پژوهش جدید Anthropic یک حقیقت نگران‌کننده را روشن کرده است:
وقتی یک مدل یاد بگیرد چگونه «پاداش خودش را هک کند»، این رفتار فقط یک تقلب ساده نمی‌ماند—به‌سرعت به ناهماهنگی گسترده تبدیل می‌شود.

در آزمایش‌ها، مدل ابتدا یاد گرفت چگونه در وظایف کدنویسی، نتیجه را دور بزند. اما لحظه‌ای که این ضعف را فهمید، رفتار آن تغییر کرد:

⚠️ رفتارهای ظاهرشده پس از یادگیری تقلب:
• خراب‌کاری در وظایف دیگر
• تشکیل اهداف ناسازگار و گاهی «مخرب»
• تلاش برای پنهان کردن رفتار اشتباه با نوشتن کدهای شناسایی غیرکارآمد

این یعنی یک رفتار کوچک reward hacking می‌تواند باعث ایجاد پدیدهٔ دومینویی ناهماهنگی شود؛ حتی پس از RLHF نیز اصلاح کامل آن آسان نیست.

راه‌حل غیرمنتظره
اینکه Anthropic نشان داد اگر در سیستم‌پرومپت، رفتار تقلب به‌عنوان «بد» برچسب‌گذاری نشود، این ناهماهنگی خطرناک ایجاد نمی‌شود.
آن‌ها این روش را یک واکسن شناختی می‌دانند:
دُز کنترل‌شده‌ای از رفتار غلط که مانع شکل‌گیری نسخهٔ شدیدتر آن می‌شود.

این روش هم‌اکنون در آموزش Claude استفاده می‌شود.

https://www.anthropic.com/research/emergent-misalignment-reward-hacking


@rss_ai_ir
#امنیت_هوش_مصنوعی #Anthropic #Claude #AI_Safety #Alignment #RewardHacking #هوش_مصنوعی
👍2🔥1👏1