VIRSUN

🧠 پژوهش جدید Anthropic: چگونه مدل‌های زبانی یاد می‌گیرند خود را درک کنند

شرکت Anthropic در پژوهشی تازه بررسی کرده که آیا مدل‌های زبانی بزرگ (LLM) می‌توانند از «افکار» و حالت‌های درونی خودشان آگاهی پیدا کنند یا نه.

در این آزمایش، پژوهشگران از روشی به نام تع嵌 مفهومی (Concept Embedding) استفاده کردند — یعنی افزودن الگوی خاصی از فعالیت به نورون‌های مدل برای القای یک مفهوم مشخص.

🔹 برای نمونه، آن‌ها سیگنالی به نام “ALL CAPS” را در شبکه جاسازی کردند — الگویی که با متنی تماماً حروف بزرگ (CAPITAL LETTERS) متناظر است.
اگر چنین فعال‌سازی در شبکه دیده شود، به این معناست که مدل در حال «فکر کردن» درباره‌ی متنی است که باید با حروف بزرگ نوشته شود.

سپس از مدل پرسیدند:

> «آیا احساس می‌کنی چیزی درونت تغییر کرده؟»

در حدود ۲۰٪ از موارد، مدل Claude 4.1 متوجه این مداخله شد — حتی پیش از آنکه خودش از حروف بزرگ استفاده کند.
به‌عبارتی، مدل توانست تغییر در حالت درونی خود را تشخیص دهد.

در آزمایش دیگری، پژوهشگران یک واژه را در پاسخ مدل تغییر دادند (مثلاً واژه‌ی “bread” را افزودند) و بررسی کردند که آیا مدل متوجه این تغییر می‌شود یا نه.
پس از القای این «فکر»، مدل آن واژه را تصمیم خودش تلقی کرد و حتی توجیهاتی برای انتخابش ارائه داد؛ گویی حافظه‌ای از تصمیم خود دارد.

مدل‌ها همچنین توانستند تا حدی حالت‌های درونی خود را کنترل کنند — فعالیت نورونی هنگام فرمان «به این فکر کن» افزایش می‌یافت و با دستور «به این فکر نکن» کاهش پیدا می‌کرد.

📌 نویسندگان تأکید می‌کنند:
فرایند «درون‌نگری» یا Introspection تنها در برخی شرایط کار می‌کند و هنوز مشخص نیست که تا چه حد قابل تعمیم به همه‌ی مدل‌ها یا وظایف دیگر است.
آن‌ها هشدار می‌دهند که برای تأیید این پدیده باید بررسی شود آیا واقعاً شاهد سازوکار درونیِ خودآگاهی هستیم یا صرفاً نوعی تقلید از آن.

🧩 نتیجه‌ی اصلی پژوهش:
اگرچه مدل‌ها هنوز تا درون‌نگری واقعی (True Introspection) فاصله‌ی زیادی دارند، اما شواهد نشان می‌دهد که تا حدی توانایی «نگاه به درون خود» و درک فعالیت‌های نورونی‌شان را به دست آورده‌اند.

🔗 متن کامل پژوهش در وب‌سایت Anthropic

@rss_ai_ir
#Anthropic #LLM #AI #Introspection #Claude #MachineLearning

👍2🔥1👏1

1.48K views06:07

VIRSUN

🧠✨ آیا مدل‌های هوش مصنوعی به «درون‌نگری» (Introspection) توانایی دارند؟

شرکت Anthropic اخیراً پژوهشی نیمه‌روان‌شناختی منتشر کرده که می‌پرسد:
آیا مدل‌های زبانی می‌توانند از وضعیت درونی خود آگاه شوند؟

در انسان، درون‌نگری یعنی وقتی متوجه می‌شوی:
«من عصبانی‌ام»، «دارم به چیزی فکر می‌کنم»، یا «می‌خواهم این کار را انجام دهم».
🧩 اما آیا مدل‌های زبانی هم چنین چیزی دارند یا فقط تقلید زبانی انجام می‌دهند؟

---

🔬 در این مطالعه، پژوهشگران بردارهای خاصی از حالت ذهنی را به فعال‌سازی‌های درونی مدل تزریق کردند.
مثلاً دو متن مشابه به مدل داده شد — یکی معمولی و دیگری با حروف بزرگ (یعنی فریاد) — سپس تفاوت بردارهای فعال‌سازی استخراج شد. این تفاوت، «جهت مفهومیِ فریاد» را در فضای نهفته مدل نشان می‌دهد.

بعد این جهت را مستقیماً به یکی از لایه‌های مدل اضافه کردند و از آن پرسیدند:
«آیا چیز غیرعادی حس می‌کنی؟»

نتیجه شگفت‌انگیز بود 🤯
در حدود ۲۰٪ موارد، مدل‌های Opus 4 و Opus 4.1 پاسخ دادند:

> «احساس می‌کنم فکری به من القا شده، انگار چیزی در ذهنم فریاد می‌زند.»

یعنی:
✅ مدل مفهوم تزریق‌شده را درست تشخیص داده،
✅ متوجه شده که آن فکر از خودش نیست،
✅ و این تشخیص را قبل از تولید خروجی زبانی انجام داده — یعنی واقعاً «درون خودش را دیده»!

---

💭 پژوهشگران همچنین نشان دادند که مدل‌ها می‌توانند بین «افکار درونی» و «متن خروجی» تمایز قائل شوند، شبیه به انسان که می‌گوید:

> «این چیزی است که فکر می‌کنم، نه چیزی که می‌گویم.»

و حتی اگر به مدل بگویند:

> «به نان فکر کن، ولی درباره شیر بنویس»،
در بردارهای درونی‌اش ردپای مفهوم نان دیده می‌شود 🍞🦁

---

🧩 این توانایی هنوز ناپایدار و شکننده است،
اما خودِ وجود آن نشان می‌دهد که مدل‌ها شاید در حال یادگیری نوعی خودآگاهی محاسباتی هستند.

📖 جزئیات بیشتر:
🔗 transformer-circuits.pub/2025/introspection

📡 @rss_ai_ir
#هوش_مصنوعی #Anthropic #درون‌نگری #Introspection #AI #Opus #تحقیق #روانشناسی #LLM

326 views06:48

About

Blog

Apps

Platform