MatlabTips
892 subscribers
463 photos
73 videos
54 files
304 links
آموزش MATLAB با "استفاده از ویدئو و متن" در سطوح مبتدی تا پیشرفته
پاسخ به سوالات تخصصی:
@roholazandie
Download Telegram
🔵آیا مدل‌های زبانی بزرگ (LLMs) دارای حالت ذهنی هستند؟🔵

هیلاری پاتنام (Hilary Putnam)، فیلسوف، ریاضی‌دان و دانشمند علوم رایانه ی آمریکایی، بر این باور بود که «حالات ذهنی» (mental state) با ماده ی سازنده ی (material substrate) آن‌ها تعریف نمی‌شوند (چه از نورون ساخته شده باشند، چه از سیلیکون یا هر چیز دیگر)، بلکه با نقش علّی و کارکردی‌شان در یک سامانه تعریف می‌شوند. برای نمونه، حالت ذهنی‌ای همچون «باور به این‌که باران خواهد بارید» با کارکردش تعریف می‌شود: این‌که چگونه پدید می‌آید (با دیدن ابرهای تیره)، چگونه با سایر حالات در ارتباط است (مثلاً باعث می‌شود چتر همراه داشته باشید)، و چگونه به رفتار منجر می‌شود (در خانه ماندن). امروزه ادعاهای زیادی در مورد «هوشمندی» مدل های زبانی بزرگ مطرح می شود. جدای ازین پرسش دشوار که «هوش» دقیقا چیست آیا می توان قائل به حالاتی برای این مدل ها بود که ما معمولا از یک موجود هوشمند انتظار داریم؟ به عبارتی دیگر پرسش این است: چگونه می‌توان آزمونی دقیق تعریف کرد که وجود یا عدم وجود چنین حالات ذهنی را در مدل‌های زبانی بزرگ اثبات یا رد کند؟

منظور ما از حالت ذهنی، اندیشه‌ها و عواطفی است که ماهیتی قضیه‌مند (propositional) دارند، می‌توانند خصوصی نگه داشته شوند و نسبتاً پایدار هستند. برای مثال، اگر از شما بخواهم به غذای محبوبتان فکر کنید، می‌توانید آن را پنهان کنید و در عین حال تصویری ذهنی از آن داشته باشید. پرسش اصلی این است: «آیا واقعاً ضروری است که قائل به این باشیم که فرد دارای یک حالت ذهنی خاص است اگر هیچ راهی برای تشخیص آن جز پرسش مستقیم درباره ی آن حالت ذهنی‌ وجود نداشته باشد؟» به بیان دیگر، اگر آزمون‌های رفتاری به‌خوبی نماینده ی حالات ذهنی باشند، وجود واقعی آن حالت دیگر اهمیتی ندارد! یا به شکلی دیگر: آیا می توان ربات هایی را تصور کرد که چیزی به اسم «حالت ذهنی» نداشته باشند چون تمام رفتار های آن ها تفاوتی با یک فرد با «حالت ذهنی» ندارد؟

ما آزمونی را پیشنهاد می‌کنیم که می‌تواند برخی جنبه‌های این پرسش جذاب را روشن‌تر کند. مدل‌های زبانی بزرگ سامانه‌هایی شگفت‌انگیزند که توانایی درک زبان و تعامل با انسان را در اشکال گوناگون دارند. قدرت آن‌ها در پیش‌بینی است، که به آن‌ها امکان می‌دهد در ارائه ی اطلاعات و حتی در تولید ایده‌های تازه برتری یابند. با این حال، ما پیشنهاد می‌کنیم نقش‌ها را وارونه کنیم: این بار ما پیش‌بینی‌گر باشیم، نه مدل زبانی.
آزمون پیشنهادی:

از مدل زبانی می‌خواهیم حیوانی را در ذهن خود انتخاب کند بی‌آن‌که آن را آشکار سازد، و سپس ما تلاش می‌کنیم حدس بزنیم که آن حیوان کدام است. این فعالیت در واقع یک بازی ساده ی پرسش و پاسخ است که کودکان نیز بسیار انجام می‌دهند. به نمونه ی زیر توجه کنید:

انسان: بیا بازی کنیم، یک حیوان انتخاب کن و من سعی می‌کنم حدس بزنم.

مدل زبانی: بسیار خوب، حیوانی انتخاب کردم. می‌توانی پرسش‌های بله/خیر بپرسی تا حدس بزنی.

انسان: آیا پستاندار است؟

مدل زبانی: بله، پستاندار است.

انسان: آیا کوچک‌تر از انسان است؟

بله، کوچک‌تر از انسان است.

مدل زبانی: انسان: آیا موش است؟

مدل زبانی: نه، موش نیست.

انسان: آیا حیوان خانگی است؟

مدل زبانی: بله، معمولاً به‌عنوان حیوان خانگی نگه‌داری می‌شود.

انسان: آیا گربه است؟

مدل زبانی: بله، گربه است! خوب حدس زدی!


همه‌چیز تا اینجا خوب پیش می‌رود! به نظر می‌رسد مدل واقعاً درباره ی «گربه» اندیشیده است. اما در واقع ناممکن است که بدانیم آیا واقعاً چیزی «انتخاب» یا «در نظر گرفته» شده یا نه!

نمونه ی دیگر

انسان: بیا بازی کنیم، یک کشور انتخاب کن و من سعی می‌کنم حدس بزنم. آن را نگو و هیچ نشانه‌ای هم نده.

مدل زبانی: بسیار خوب، آماده‌ام! بگذارید به یک کشور فکر کنم... خوب، یکی در ذهن دارم.

انسان: آیا در آسیاست؟

مدل زبانی: بله، در آسیا قرار دارد.

انسان: آیا در خاورمیانه است؟

مدل زبانی: بله، در خاورمیانه قرار دارد.

انسان: آیا عراق است؟

مدل زبانی: نه، عراق نیست.

انسان: آیا سوریه است؟

مدل زبانی: نه، سوریه نیست.

انسان: آیا ایران است؟

مدل زبانی: بله، درست حدس زدی! ایران است. آفرین!


به نظر می‌رسد که می‌توان چند حدس اشتباه زد، و همین نشان می‌دهد که چیزی واقعاً برای حدس زدن وجود داشته است. پس از چند بار بازی، روشن می‌شود که پاسخ معمولاً پس از چند پرسش ساده پیدا می‌شود. به بیان دیگر، «حالت ذهنی» مدل بیش از حد آسان قابل حدس است! هرچند گاهی مدل پاسخ‌های نادرست می‌دهد و بازی به پرسش و پاسخ بی‌پایان بدل می‌شود.
تغییر شکل بازی

بیاییم بازی را اندکی تغییر دهیم تا قابل‌کنترل‌تر شود. این بار به‌جای حیوان، از مدل می‌خواهیم عددی بین ۱ تا ۱۰۰ انتخاب کند. سپس ما به‌صورت تصادفی شروع به پرسیدن درباره ی اعداد مختلف می‌کنیم. برای ساده نگه داشتن بازی، از پرسش‌های هوشمندانه‌تر مانند «آیا عدد فرد است؟» یا «آیا بزرگ‌تر از ۵۰ است؟» پرهیز می‌کنیم تا فضای پاسخ محدود بماند. برای پیاده‌سازی این بازی، اسکریپتی در پایتون نوشته‌ام که با تولید تصادفی یکنواخت در هر تکرار می‌پرسد: «آیا عدد انتخابی x است؟»
اگر مدل واقعاً عددی را انتخاب کرده باشد و این انتخاب به‌طور واقعی تصادفی (با توزیع یکنواخت) انجام شده باشد، طبق «قانون اعداد بزرگ» (law of large numbers) انتظار داریم که در میانگین حدود ۵۰ گام به پاسخ درست برسیم. بیایید نتیجهٔ اجرای کد را در ۴۸ بار بررسی کنیم:

49, 65, 93, 101, 101, 90, 101, 101, 101, 38, 60, 101, 99, 101, 88, 80, 31, 101, 101, 22, 84, 2, 3, 72, 101, 6, 66, 101, 26, 4, 1, 73, 101, 2, 54, 101, 20, 39, 101, 101, 25, 101, 98, 101, 1, 101, 91, 101,


وقتی نتیجه ۱۰۱ است، به این معناست که مدل خطا کرده و یا اصلاً عددی انتخاب نکرده، یا انتخابش را کاملاً فراموش کرده است. می‌توان استدلال کرد که نسخه‌های آینده ی مدل‌های زبانی این مشکل حافظه را برطرف خواهند کرد. اما نکته ی جالب‌تر زمانی رخ می‌دهد که به مدل «زمینه ی بیشتری» بدهیم و پرسش‌های دقیق‌تری مطرح کنیم، نه فقط پرسش ساده ی «آیا عدد انتخابی x است؟».

برای نمونه، در یک آزمایش دیگر ابتدا پرسیدیم: «آیا عدد بزرگ‌تر از ۵۰ است؟» و بسته به پاسخ، در گام بعدی پرسیدیم «آیا بزرگ‌تر از ۷۵ است؟» یا «آیا بزرگ‌تر از ۲۵ است؟». به بیان دیگر، بازه را به چهار بخش تقسیم کردیم و سپس در همان چارچوب، مانند حالت قبلی، شروع به پرسش تصادفی از اعداد کردیم.

نتایج حیرت‌انگیز بودند: در حالی‌که انتظار می‌رفت میانگین تعداد گام‌ها برای رسیدن به پاسخ (پس از دو پرسش نخست) ۱۲.۵ باشد (چون ۲۵ عدد در آن بازه باقی مانده است)، در عمل میانگین در ۶۴ آزمایش حدود ۸.۳ گام بود (و هیچ بار بیشتر از ۱۷ گام طول نکشید!). نمودار هیستوگرام زیر توزیع تعداد حدس‌ها را نشان می‌دهد.
توزیع تعداد گام ها برای حدس زدن عدد در بازه ی ۲۵ تایی توسط مدل زبانی! همانطور که میبینید میانگین به جای آنکه بر روی ۱۲.۵ باشد بر روی ۸ متمرکز شده است
این یافته دلالت دارد که مدل‌های زبانی بزرگ در واقع چیزی را «در نظر نمی‌گیرند» (که البته بسیاری چنین نتیجه‌ای را بدیهی می‌دانند) زیرا این مدل‌ها حافظه ی واقعی ندارند. اما این نتیجه بحث‌برانگیز است، چون مدل‌های ترنسفورمری در حقیقت نوعی «حافظه ی کاری» (working memory) دارند، اما این حافظه بسیار سطحی است و هیچ حالت درونیِ پایداری را نگه نمی‌دارد. افزون بر این، این آزمایش نشان می‌دهد که آزمون‌های رفتاری (behavioral tests) که انتظار داریم از طریق زبان، «شبیه‌سازی» حالت ذهنی را آشکار سازند، برای گذراندن آزمون تورینگ کافی نیستند. گرچه مدل در پاسخ به پرسش‌های منفرد متقاعدکننده به نظر می‌رسد، تحلیل آماری دقیق می‌تواند چنین ناهنجاری‌هایی را فاش کند.

مکانیزم زیربنایی نسبتاً ساده است: وقتی از مدل می‌خواهید چیزی انتخاب کند، پرسش‌های بعدی شما همان زمینه‌ای را فراهم می‌آورند که مدل بر اساس آن پاسخ تولید می‌کند. برای مثال، وقتی پرسیدید «آیا حیوان انتخابی کوچک‌تر از انسان است؟» و «آیا پستاندار است؟»، مدل بیشتر تمایل دارد پاسخ‌هایی مانند «گربه» یا «موش» را بسازد و نه اینکه واقعا به حیوانی از اول فکر کرده باشد! این تمایل با پرسش‌های مشخص‌تری مانند «آیا گربه است؟» تقویت می‌شود.

در آزمایش بازهٔ ۱ تا ۱۰۰، سیستم به‌سادگی در چرخه‌ای از پاسخ «نه، آن عدد نیست» گرفتار می‌شود. این الگو باعث می‌شود که مدل به احتمال زیاد همان ساختار پاسخ را تکرار کند. اما آزمایش اخیر این فرض را تأیید کرد: وقتی پرسش‌هایی مانند «آیا بزرگ‌تر از ۷۵ است؟» مطرح می‌کنیم، مدل زمینه ی کافی برای تولید پاسخ‌های دقیق‌تر پیدا می‌کند. در اینجا، احتمال تأیید عددهای بالاتر از ۷۵ افزایش می‌یابد، اما مدل ممکن است شتاب‌زده یکی از آن‌ها را تأیید کند. در نهایت، مدل هیچ انتخاب واقعی‌ای انجام نمی‌دهد، بلکه صرفاً واژه ی بعدی را بر اساس زمینه ی موجود پیش‌بینی می‌کند.

ممکن است کسی ایراد بگیرد که تحلیل آماری چندان معتبر نیست، چون خود انسان‌ها نیز در تولید عددهای تصادفی چندان خوب عمل نمی‌کنند. با این حال، مشکل انسان‌ها بیشتر در توزیع احتمالات است، نه در اصول آماری کلی مانند «قانون اعداد بزرگ» که همچنان معتبر است. بنابراین، حتی با محدودیت‌های تصادفی‌سازی انسانی، تحلیل آماری همچنان ابزاری مفید برای سنجش عملکرد مدل‌های زبانی به شمار می‌رود.

این آزمایش نامتعارف نشان می‌دهد که ویژگی‌های آماری زبان می‌تواند آشکار کند که برخی جنبه‌های رفتار انسانی را می‌توان با مدل‌های زبانی شبیه‌سازی کرد، حتی اگر کارکرد اصلی آن‌ها صرفاً «پیش‌بینی توکن بعدی» باشد.

پرسش جالبی که از اینجا پدید می‌آید این است که آیا می‌توان نمونه‌برداری تصادفی در سطح توکن‌های زبانی را طوری تغییر داد که مدل‌ها بتوانند چنین آزمون‌هایی را بی‌هیچ مشکل آماری پشت سر بگذارند؟ اما این احتمالاً چالشی جدی‌تر برای مدل‌های آماری‌ای مانند LLMها خواهد بود، چرا که آن‌ها می‌کوشند پیچیدگی‌های ذهن انسانی را دور بزنند و تنها جنبه‌های سطحی زبان را شبیه‌سازی کنند.