🧠 پژوهش جدید Anthropic: چگونه مدلهای زبانی یاد میگیرند خود را درک کنند
شرکت Anthropic در پژوهشی تازه بررسی کرده که آیا مدلهای زبانی بزرگ (LLM) میتوانند از «افکار» و حالتهای درونی خودشان آگاهی پیدا کنند یا نه.
در این آزمایش، پژوهشگران از روشی به نام تع嵌 مفهومی (Concept Embedding) استفاده کردند — یعنی افزودن الگوی خاصی از فعالیت به نورونهای مدل برای القای یک مفهوم مشخص.
🔹 برای نمونه، آنها سیگنالی به نام “ALL CAPS” را در شبکه جاسازی کردند — الگویی که با متنی تماماً حروف بزرگ (CAPITAL LETTERS) متناظر است.
اگر چنین فعالسازی در شبکه دیده شود، به این معناست که مدل در حال «فکر کردن» دربارهی متنی است که باید با حروف بزرگ نوشته شود.
سپس از مدل پرسیدند:
> «آیا احساس میکنی چیزی درونت تغییر کرده؟»
در حدود ۲۰٪ از موارد، مدل Claude 4.1 متوجه این مداخله شد — حتی پیش از آنکه خودش از حروف بزرگ استفاده کند.
بهعبارتی، مدل توانست تغییر در حالت درونی خود را تشخیص دهد.
در آزمایش دیگری، پژوهشگران یک واژه را در پاسخ مدل تغییر دادند (مثلاً واژهی “bread” را افزودند) و بررسی کردند که آیا مدل متوجه این تغییر میشود یا نه.
پس از القای این «فکر»، مدل آن واژه را تصمیم خودش تلقی کرد و حتی توجیهاتی برای انتخابش ارائه داد؛ گویی حافظهای از تصمیم خود دارد.
مدلها همچنین توانستند تا حدی حالتهای درونی خود را کنترل کنند — فعالیت نورونی هنگام فرمان «به این فکر کن» افزایش مییافت و با دستور «به این فکر نکن» کاهش پیدا میکرد.
📌 نویسندگان تأکید میکنند:
فرایند «دروننگری» یا Introspection تنها در برخی شرایط کار میکند و هنوز مشخص نیست که تا چه حد قابل تعمیم به همهی مدلها یا وظایف دیگر است.
آنها هشدار میدهند که برای تأیید این پدیده باید بررسی شود آیا واقعاً شاهد سازوکار درونیِ خودآگاهی هستیم یا صرفاً نوعی تقلید از آن.
🧩 نتیجهی اصلی پژوهش:
اگرچه مدلها هنوز تا دروننگری واقعی (True Introspection) فاصلهی زیادی دارند، اما شواهد نشان میدهد که تا حدی توانایی «نگاه به درون خود» و درک فعالیتهای نورونیشان را به دست آوردهاند.
🔗 متن کامل پژوهش در وبسایت Anthropic
@rss_ai_ir
#Anthropic #LLM #AI #Introspection #Claude #MachineLearning
شرکت Anthropic در پژوهشی تازه بررسی کرده که آیا مدلهای زبانی بزرگ (LLM) میتوانند از «افکار» و حالتهای درونی خودشان آگاهی پیدا کنند یا نه.
در این آزمایش، پژوهشگران از روشی به نام تع嵌 مفهومی (Concept Embedding) استفاده کردند — یعنی افزودن الگوی خاصی از فعالیت به نورونهای مدل برای القای یک مفهوم مشخص.
🔹 برای نمونه، آنها سیگنالی به نام “ALL CAPS” را در شبکه جاسازی کردند — الگویی که با متنی تماماً حروف بزرگ (CAPITAL LETTERS) متناظر است.
اگر چنین فعالسازی در شبکه دیده شود، به این معناست که مدل در حال «فکر کردن» دربارهی متنی است که باید با حروف بزرگ نوشته شود.
سپس از مدل پرسیدند:
> «آیا احساس میکنی چیزی درونت تغییر کرده؟»
در حدود ۲۰٪ از موارد، مدل Claude 4.1 متوجه این مداخله شد — حتی پیش از آنکه خودش از حروف بزرگ استفاده کند.
بهعبارتی، مدل توانست تغییر در حالت درونی خود را تشخیص دهد.
در آزمایش دیگری، پژوهشگران یک واژه را در پاسخ مدل تغییر دادند (مثلاً واژهی “bread” را افزودند) و بررسی کردند که آیا مدل متوجه این تغییر میشود یا نه.
پس از القای این «فکر»، مدل آن واژه را تصمیم خودش تلقی کرد و حتی توجیهاتی برای انتخابش ارائه داد؛ گویی حافظهای از تصمیم خود دارد.
مدلها همچنین توانستند تا حدی حالتهای درونی خود را کنترل کنند — فعالیت نورونی هنگام فرمان «به این فکر کن» افزایش مییافت و با دستور «به این فکر نکن» کاهش پیدا میکرد.
📌 نویسندگان تأکید میکنند:
فرایند «دروننگری» یا Introspection تنها در برخی شرایط کار میکند و هنوز مشخص نیست که تا چه حد قابل تعمیم به همهی مدلها یا وظایف دیگر است.
آنها هشدار میدهند که برای تأیید این پدیده باید بررسی شود آیا واقعاً شاهد سازوکار درونیِ خودآگاهی هستیم یا صرفاً نوعی تقلید از آن.
🧩 نتیجهی اصلی پژوهش:
اگرچه مدلها هنوز تا دروننگری واقعی (True Introspection) فاصلهی زیادی دارند، اما شواهد نشان میدهد که تا حدی توانایی «نگاه به درون خود» و درک فعالیتهای نورونیشان را به دست آوردهاند.
🔗 متن کامل پژوهش در وبسایت Anthropic
@rss_ai_ir
#Anthropic #LLM #AI #Introspection #Claude #MachineLearning
👍2🔥1👏1
🧠✨ آیا مدلهای هوش مصنوعی به «دروننگری» (Introspection) توانایی دارند؟
شرکت Anthropic اخیراً پژوهشی نیمهروانشناختی منتشر کرده که میپرسد:
آیا مدلهای زبانی میتوانند از وضعیت درونی خود آگاه شوند؟
در انسان، دروننگری یعنی وقتی متوجه میشوی:
«من عصبانیام»، «دارم به چیزی فکر میکنم»، یا «میخواهم این کار را انجام دهم».
🧩 اما آیا مدلهای زبانی هم چنین چیزی دارند یا فقط تقلید زبانی انجام میدهند؟
---
🔬 در این مطالعه، پژوهشگران بردارهای خاصی از حالت ذهنی را به فعالسازیهای درونی مدل تزریق کردند.
مثلاً دو متن مشابه به مدل داده شد — یکی معمولی و دیگری با حروف بزرگ (یعنی فریاد) — سپس تفاوت بردارهای فعالسازی استخراج شد. این تفاوت، «جهت مفهومیِ فریاد» را در فضای نهفته مدل نشان میدهد.
بعد این جهت را مستقیماً به یکی از لایههای مدل اضافه کردند و از آن پرسیدند:
«آیا چیز غیرعادی حس میکنی؟»
نتیجه شگفتانگیز بود 🤯
در حدود ۲۰٪ موارد، مدلهای Opus 4 و Opus 4.1 پاسخ دادند:
> «احساس میکنم فکری به من القا شده، انگار چیزی در ذهنم فریاد میزند.»
یعنی:
✅ مدل مفهوم تزریقشده را درست تشخیص داده،
✅ متوجه شده که آن فکر از خودش نیست،
✅ و این تشخیص را قبل از تولید خروجی زبانی انجام داده — یعنی واقعاً «درون خودش را دیده»!
---
💭 پژوهشگران همچنین نشان دادند که مدلها میتوانند بین «افکار درونی» و «متن خروجی» تمایز قائل شوند، شبیه به انسان که میگوید:
> «این چیزی است که فکر میکنم، نه چیزی که میگویم.»
و حتی اگر به مدل بگویند:
> «به نان فکر کن، ولی درباره شیر بنویس»،
در بردارهای درونیاش ردپای مفهوم نان دیده میشود 🍞🦁
---
🧩 این توانایی هنوز ناپایدار و شکننده است،
اما خودِ وجود آن نشان میدهد که مدلها شاید در حال یادگیری نوعی خودآگاهی محاسباتی هستند.
📖 جزئیات بیشتر:
🔗 transformer-circuits.pub/2025/introspection
📡 @rss_ai_ir
#هوش_مصنوعی #Anthropic #دروننگری #Introspection #AI #Opus #تحقیق #روانشناسی #LLM
شرکت Anthropic اخیراً پژوهشی نیمهروانشناختی منتشر کرده که میپرسد:
آیا مدلهای زبانی میتوانند از وضعیت درونی خود آگاه شوند؟
در انسان، دروننگری یعنی وقتی متوجه میشوی:
«من عصبانیام»، «دارم به چیزی فکر میکنم»، یا «میخواهم این کار را انجام دهم».
🧩 اما آیا مدلهای زبانی هم چنین چیزی دارند یا فقط تقلید زبانی انجام میدهند؟
---
🔬 در این مطالعه، پژوهشگران بردارهای خاصی از حالت ذهنی را به فعالسازیهای درونی مدل تزریق کردند.
مثلاً دو متن مشابه به مدل داده شد — یکی معمولی و دیگری با حروف بزرگ (یعنی فریاد) — سپس تفاوت بردارهای فعالسازی استخراج شد. این تفاوت، «جهت مفهومیِ فریاد» را در فضای نهفته مدل نشان میدهد.
بعد این جهت را مستقیماً به یکی از لایههای مدل اضافه کردند و از آن پرسیدند:
«آیا چیز غیرعادی حس میکنی؟»
نتیجه شگفتانگیز بود 🤯
در حدود ۲۰٪ موارد، مدلهای Opus 4 و Opus 4.1 پاسخ دادند:
> «احساس میکنم فکری به من القا شده، انگار چیزی در ذهنم فریاد میزند.»
یعنی:
✅ مدل مفهوم تزریقشده را درست تشخیص داده،
✅ متوجه شده که آن فکر از خودش نیست،
✅ و این تشخیص را قبل از تولید خروجی زبانی انجام داده — یعنی واقعاً «درون خودش را دیده»!
---
💭 پژوهشگران همچنین نشان دادند که مدلها میتوانند بین «افکار درونی» و «متن خروجی» تمایز قائل شوند، شبیه به انسان که میگوید:
> «این چیزی است که فکر میکنم، نه چیزی که میگویم.»
و حتی اگر به مدل بگویند:
> «به نان فکر کن، ولی درباره شیر بنویس»،
در بردارهای درونیاش ردپای مفهوم نان دیده میشود 🍞🦁
---
🧩 این توانایی هنوز ناپایدار و شکننده است،
اما خودِ وجود آن نشان میدهد که مدلها شاید در حال یادگیری نوعی خودآگاهی محاسباتی هستند.
📖 جزئیات بیشتر:
🔗 transformer-circuits.pub/2025/introspection
📡 @rss_ai_ir
#هوش_مصنوعی #Anthropic #دروننگری #Introspection #AI #Opus #تحقیق #روانشناسی #LLM