تا جایی که یادمه من هم تقریبا مثل همه ی دانش آموزا از ریاضی فراری بودم. ریاضی همون موضوع ترسناک و سخت و حوصله سر بر بود که باید دلهره هاش رو توی سوالای میان ترم و پایان ترم حس کنی و پایین ترین نمره ی توی کارنامه و حس بد ازینکه حتما باهوش نیستی! و با نمره ی علوم و تاریخ هم نمیتونی جبرانش کنی. با این حال علاقه عمومی به علم داشتم.
اولین بار در کتابخانه به جای کتاب های علمی معمول تر چشمم به کتاب «مفاهیم ریاضیات جدید» خورد و اولین سوالی که برایم پیش آمد مگر ریاضی هم قدیم و جدید دارد! با ورق زدن صفحه های کتاب اثری از فرمول و معادلات ترسناک نبود و سعی کردم بروم و بخوانمش! کتاب همچون داستانی برای من خودنمایی کرد. تصور اینکه بتوان یک کتاب ریاضی را باز کرد و حسی از یک رمان ماجراجویی با نشان دادن اینکه هر مفهموم ریاضی از کجا آغاز شده و تصور ما چگونه از مفاهیم بسیار اساسی که شاید گاهی حتی به آن فکر هم نکنیم و پیش فرض بگیریم تغییر کرده است. کتاب با سوال اساسی که اصلا خود ریاضیات چیست و آیا برای ریاضیات محدودیتی وجود دارد و معنای حقیقت ریاضی چیست آغاز میکند و به مجموعه ها تغییر میکند تا به مفاهیم جالب تری مانند توپولوژی، جبر و نظریه ی گروه ها برسد!
اگر پیش خودتان فکر میکنید دانستن این همه ریاضی اضافه چه فایده ای دارد. فایده های چنین مطالعه ای حداقل بالا رفتن نمره های ریاضیای و فیزیکتان باشد مثل من که نمره ی ریاضیاتم از پایین ترین نمره ها در راهنمایی به بالاترین نمرات در دبیرستان تغییر کرد.
اما ( حتی بدون درگیر شدن با جزییات فرمول ها) خواندن ریاضی می تواند روش فکر کردن شما به مسائل را تغییر دهد و منظور من از مسائل صرفا مسايل ریاضی صرف نیست بلکه شیوه ی فکر کردن روزمره. این تاثیر تا به امروز برای من چنان عمیق بود که حس کردم چنین کتابی نیاز است که در قفسه ی خانه باشد و گه گاهی آن را ورق زد. بنابراین نسخه ی انگلیسی کتاب را سفارش دادم (عکس بالا)!
کتاب نوشته ی یان استیورات و به قلم جمشید پرویزی ترجمه شده است. ترجمه بسیار روان و ساده و دقیق است. یان استیوارت استاد دانشگاه واروید و خودش فارغ التحصیل کمبریج است از معدود نویسنده های عمومی علمی است که در حوزه ی ریاضیات کتاب های پرفروش می نویسد و خودش یک ریاضیدان شناخته شده است. اون کتاب های بسیار دیگری هم در حوزه ی علم دارد که تقریبا هیچ کدام دیگر ترجمه نشده است!
اولین بار در کتابخانه به جای کتاب های علمی معمول تر چشمم به کتاب «مفاهیم ریاضیات جدید» خورد و اولین سوالی که برایم پیش آمد مگر ریاضی هم قدیم و جدید دارد! با ورق زدن صفحه های کتاب اثری از فرمول و معادلات ترسناک نبود و سعی کردم بروم و بخوانمش! کتاب همچون داستانی برای من خودنمایی کرد. تصور اینکه بتوان یک کتاب ریاضی را باز کرد و حسی از یک رمان ماجراجویی با نشان دادن اینکه هر مفهموم ریاضی از کجا آغاز شده و تصور ما چگونه از مفاهیم بسیار اساسی که شاید گاهی حتی به آن فکر هم نکنیم و پیش فرض بگیریم تغییر کرده است. کتاب با سوال اساسی که اصلا خود ریاضیات چیست و آیا برای ریاضیات محدودیتی وجود دارد و معنای حقیقت ریاضی چیست آغاز میکند و به مجموعه ها تغییر میکند تا به مفاهیم جالب تری مانند توپولوژی، جبر و نظریه ی گروه ها برسد!
اگر پیش خودتان فکر میکنید دانستن این همه ریاضی اضافه چه فایده ای دارد. فایده های چنین مطالعه ای حداقل بالا رفتن نمره های ریاضیای و فیزیکتان باشد مثل من که نمره ی ریاضیاتم از پایین ترین نمره ها در راهنمایی به بالاترین نمرات در دبیرستان تغییر کرد.
اما ( حتی بدون درگیر شدن با جزییات فرمول ها) خواندن ریاضی می تواند روش فکر کردن شما به مسائل را تغییر دهد و منظور من از مسائل صرفا مسايل ریاضی صرف نیست بلکه شیوه ی فکر کردن روزمره. این تاثیر تا به امروز برای من چنان عمیق بود که حس کردم چنین کتابی نیاز است که در قفسه ی خانه باشد و گه گاهی آن را ورق زد. بنابراین نسخه ی انگلیسی کتاب را سفارش دادم (عکس بالا)!
کتاب نوشته ی یان استیورات و به قلم جمشید پرویزی ترجمه شده است. ترجمه بسیار روان و ساده و دقیق است. یان استیوارت استاد دانشگاه واروید و خودش فارغ التحصیل کمبریج است از معدود نویسنده های عمومی علمی است که در حوزه ی ریاضیات کتاب های پرفروش می نویسد و خودش یک ریاضیدان شناخته شده است. اون کتاب های بسیار دیگری هم در حوزه ی علم دارد که تقریبا هیچ کدام دیگر ترجمه نشده است!
When introducing colleagues to the attention mechanism, a common question is how attention scores differ from weights in a fully-connected layer.
Conceptually, attention mechanisms allow transformers to attend to different parts of a sequence or image. On the surface, this sounds very similar to a fully connected layer!
In attention mechanisms, the calculation of attention weights involves comparing each input element to every other element, resulting in dynamic and input-dependent weights. Attention mechanisms allow a neural networks to selectively weigh the importance of different input features, allowing the model to focus on the most relevant parts of the input for a given task.
In contrast, the weights of a convolutional or fully-connected layer are fixed after training. (As a side note: the self-attention mechanism can be implemented using fully-connected layers; the dynamic, input-dependent nature comes from the pairwise sequence comparisons though, not the weight parameters.)
shorturl.at/bcq67
Conceptually, attention mechanisms allow transformers to attend to different parts of a sequence or image. On the surface, this sounds very similar to a fully connected layer!
In attention mechanisms, the calculation of attention weights involves comparing each input element to every other element, resulting in dynamic and input-dependent weights. Attention mechanisms allow a neural networks to selectively weigh the importance of different input features, allowing the model to focus on the most relevant parts of the input for a given task.
In contrast, the weights of a convolutional or fully-connected layer are fixed after training. (As a side note: the self-attention mechanism can be implemented using fully-connected layers; the dynamic, input-dependent nature comes from the pairwise sequence comparisons though, not the weight parameters.)
shorturl.at/bcq67
مدتی پیش این میم (meme) رو دیدم که علاوه بر نکته ی خنده دارش واقعیت جالبی رو هم نشون میده: کاری که طرف کرده «غلط» نیست به این معنی که حدودا میشه گفت درسته!
خب اولین سوالی که پیش میاد یعنی چی؟ اینجا اصلا ساختار رعایت نشده! فقط هر چی که رنگ های مشابه داره کنار هم قرار داده شده. اما وقتی میگیم حدودا یعنی تقریبی! یعنی اگه من شکل اسب روی کارتن پازل رو هم نشونتون ندم شما میتونید تشخیص بدید که این یک اسبه پس جواب طرف خیلی هم غلط نیست!
شاید باورش سخت باشه ولی این درست بودن به معنای نظریه ی اطلاعاتیه!
در نظریه اطلاعات چیزی که برای ما اهمیت داره ساختار به معنای عرفی اون یعنی قرار دادن هر چیزی «دقیقا» سرجاش نیست بلکه چیزی که حدودی هم شبیه به ساختار مد نظر باشه برای منظور ما کافیه به همین خاطر در نظریه اطلاعات ما به فرآیند های تصادفی و توزیع احتمال علاقه نشون میدیم. چنین طرز نگاه کردنی شاید بنظر غلط باشه اما در عمل کار رو راه میندازه! مثلا برای اینکه ما تشخیص بدیم یک شکل «اسب» هستش اتفاقا غلطه که بریم و ببینیم که دقیقا هر قسمت اسب چه شکلی میشه برعکس اون بازنمایی که ما داریم (یه جوری در مغز قرار گرفته) یک بازنمایی احتمالاتیه! یعنی ما حدودا میدونیم کله ی اسب و یال هاش چجوری، تقریبا دمش و تقریبا پاهاش! اصلا به همین خاطر هست که ما حتی یک نقاشی کج و کوله بچگانه از یک اسب رو بازم به صورت اسب تشخیص میدیم!
مهم نیست این بازنمایی توسط چه سیستمی ذخیره شده (شبکه های عصبی عمیق یک مدل احتمالاتی یا به نحو کمی اسرار آمیزی توسط مغز!) و این دقیقا هوش کلاود شنون ( Claude Shannon) بود! شنون تشخیص داد که اطلاعات در بسیاری از مواقع چیزی جز تشخیص همین توزیع ها نیست.
مثلا برای رنگ اسب ما بیشتر انتظار داریم که رنگ هایی مثل قهوه ای و سیاه و سفید ببینیم اما اگر اسبی سبز باشه اسب نیست؟ در واقع اسب سبز هم یک امکانه ولی احتمالش کمتره (شاید یک اسب کارتونی!) دنیای واقعی باعث میشه ما به دنبال تعریف های دقیق برای «چیزها» نباشیم چیزی که ما یاد میگیریم نه ساختار به معنای سفت و سخت و قانونی اون بلکه یک ابر هست که در زبان ریاضی به توزیع ترجمه میشه. توزیع ها حاوی اطلاعات هستند و نظمی رو توصیف میکنند! مثلا اینکه رنگ اسب ها معمولا سفید و سیاه و قهوه ایه تا سبز یا صورتی خودش یک نظم هست در مقابل نظم، بی نظمی قرار میگیره. وقتی یک ویژگی هیچ تفاوتی بین مقدارهاش وجود نداشته باشه در بی نظم ترین حالت ممکن خواهد بود مثلا جهت کله ی اسب در تصویر تاثیری در «اسب بودن» شکل نداره! با احتمال مساوی کله ی اسب میتونه چپ یا راست یا وسط تصویر باشه! ما به چنین چیزی توجهی نمیکنیم!
اما بی نظمی رو چطور میشه تعریف کرد؟
(ادامه دارد)
خب اولین سوالی که پیش میاد یعنی چی؟ اینجا اصلا ساختار رعایت نشده! فقط هر چی که رنگ های مشابه داره کنار هم قرار داده شده. اما وقتی میگیم حدودا یعنی تقریبی! یعنی اگه من شکل اسب روی کارتن پازل رو هم نشونتون ندم شما میتونید تشخیص بدید که این یک اسبه پس جواب طرف خیلی هم غلط نیست!
شاید باورش سخت باشه ولی این درست بودن به معنای نظریه ی اطلاعاتیه!
در نظریه اطلاعات چیزی که برای ما اهمیت داره ساختار به معنای عرفی اون یعنی قرار دادن هر چیزی «دقیقا» سرجاش نیست بلکه چیزی که حدودی هم شبیه به ساختار مد نظر باشه برای منظور ما کافیه به همین خاطر در نظریه اطلاعات ما به فرآیند های تصادفی و توزیع احتمال علاقه نشون میدیم. چنین طرز نگاه کردنی شاید بنظر غلط باشه اما در عمل کار رو راه میندازه! مثلا برای اینکه ما تشخیص بدیم یک شکل «اسب» هستش اتفاقا غلطه که بریم و ببینیم که دقیقا هر قسمت اسب چه شکلی میشه برعکس اون بازنمایی که ما داریم (یه جوری در مغز قرار گرفته) یک بازنمایی احتمالاتیه! یعنی ما حدودا میدونیم کله ی اسب و یال هاش چجوری، تقریبا دمش و تقریبا پاهاش! اصلا به همین خاطر هست که ما حتی یک نقاشی کج و کوله بچگانه از یک اسب رو بازم به صورت اسب تشخیص میدیم!
مهم نیست این بازنمایی توسط چه سیستمی ذخیره شده (شبکه های عصبی عمیق یک مدل احتمالاتی یا به نحو کمی اسرار آمیزی توسط مغز!) و این دقیقا هوش کلاود شنون ( Claude Shannon) بود! شنون تشخیص داد که اطلاعات در بسیاری از مواقع چیزی جز تشخیص همین توزیع ها نیست.
مثلا برای رنگ اسب ما بیشتر انتظار داریم که رنگ هایی مثل قهوه ای و سیاه و سفید ببینیم اما اگر اسبی سبز باشه اسب نیست؟ در واقع اسب سبز هم یک امکانه ولی احتمالش کمتره (شاید یک اسب کارتونی!) دنیای واقعی باعث میشه ما به دنبال تعریف های دقیق برای «چیزها» نباشیم چیزی که ما یاد میگیریم نه ساختار به معنای سفت و سخت و قانونی اون بلکه یک ابر هست که در زبان ریاضی به توزیع ترجمه میشه. توزیع ها حاوی اطلاعات هستند و نظمی رو توصیف میکنند! مثلا اینکه رنگ اسب ها معمولا سفید و سیاه و قهوه ایه تا سبز یا صورتی خودش یک نظم هست در مقابل نظم، بی نظمی قرار میگیره. وقتی یک ویژگی هیچ تفاوتی بین مقدارهاش وجود نداشته باشه در بی نظم ترین حالت ممکن خواهد بود مثلا جهت کله ی اسب در تصویر تاثیری در «اسب بودن» شکل نداره! با احتمال مساوی کله ی اسب میتونه چپ یا راست یا وسط تصویر باشه! ما به چنین چیزی توجهی نمیکنیم!
اما بی نظمی رو چطور میشه تعریف کرد؟
(ادامه دارد)
اگه چیزی قطعا اتفاق بیفته یا قطعا اتفاق نیفته چنین چیزی هیچ بی نظمی ای نداره. مثلا هیچ شیر خوراکی ای نمیتونه چیزی غیر از سفید باشه! بیشترین بی نظمی اما زمانی اتفاق میفته که هیچ گونه پیش بینی پذیری ای وجود نداره و همه ی حالت ها دقیقا با یک احتمال اتفاق میفتن (مثل رنگ لباس). اگه خودمون رو به دو حالت محدود کنیم. احتمال صد و صفر باید بی نظمی صفر داشته باشن و ۵۰ درصد بیشترین بی نظمی رو!
[0 1] -> 0
[1 0] -> 0
[0.5 0.5] -> max
یعنی چیزی شبیه به شکل پایین
[0 1] -> 0
[1 0] -> 0
[0.5 0.5] -> max
یعنی چیزی شبیه به شکل پایین
اما آیا میشه بی نظمی رو باز هم به اجزای سازنده ش شکست به چیزی که ساده تر بشه درکش کرد؟ اینجاست که اساسی ترین بخش (اتم) نظریه شنون رو میبینیم. شنون مفهوم «غافلگیری» (surprisal) را اساسی ترین بخش نظریه خودش می دونه! اگر چیزی احتمال ۱۰۰ درصد باشه اصلا غافلگیر کننده نیست بنابراین مقدار غافلگیری اون صفره. از طرفی هر چه احتمال چیزی کمتر باشه بسیار غافلگیر کننده تره! در واقع احتمال چیزی و غافلگیری اون تقریبا به یک معنا هستند و فقط واحدشون فرق داره. چیزی که احتمالش صفر باشه بی نهایت غافلگیر کننده ست!! یک تابع مطلوب برای تبدیل احتمال به غافلگیری لگاریتمه
حالا چطور میتوان ازین مفهوم به بی نظمی رسید؟ شنون بی نظمی رو میانگین غافلگیری ما از حالت های یک سیستم تعریف میکنه! اینجا نیاز داریم یکم صبر کنیم و به این جمله بیشتر فکر کنیم. فرض کنید شما در یک سیستم سیاسی زندگی میکنید که کاملا بی نظم و بی در پیکره! در چنین سیستمی شما هر روز غافلگیر میشوید. به عبارتی هر چیزی هر روز اتفاق میفته! از طرفی یک سیستم سیاسی پایدار به طور میانگین کمتر شما را غافلگیر می کند بنابراین سرمایه گذاری و برنامه ریزی برای آینده ساده تر است. بخش های غافلگیر کننده ی سیستم (I بالا یعنی p کم) احتمال رخ دادنشان کم است و قسمت های کمتر غافلگیر کننده (I کم یعنی p زیاد) احتمال رخ دادنشان بیشتر است! بنابراین میانگین کم تر خواهد بود! از طرف دیگر در سیستم بی نظم همه چیز به یک اندازه (=یک احتمال) غافلگیر کننده است (I بالا برای همه زمانی که همه احتمال ها مساوی می شوند!)
بنابراین کافی است که میانگین غافلگیری ها را حساب کنیم تا به بنظمی برسیم!
بنابراین کافی است که میانگین غافلگیری ها را حساب کنیم تا به بنظمی برسیم!
در حالی به عصر هوش مصنوعی صنعتی وارد می شویم و این تکنولوژی به زندگی عموم مردم وارد می شود، به ابزارهای شناختی ای دسترسی پیدا میکنیم که پیش از این قابل تصور نبود. این ابزارها مستقیما به ما در «فکر کردن» و فعالیت های شناختی کمک می کنند این کمک چیزی فراتر از ذخیره، بازیابی، جستجو و دسته بندی اطلاعات است. با این حال وقتی در مورد «هوش» این سیستم ها صحبت می کنیم باید با احتیاط بیشتری در مورد آن صحبت کنیم تا سو تعبیر های معمولی که در مورد «آگاه بودن»، «حیات داشتن» و «زنده بودن» وجود دارد، پیش نیاید.
فارسی https://vrgl.ir/4C1VK
انگلیسی https://hilbert-cantor.medium.com/the-era-of-gpt-4-c27879ede156
فارسی https://vrgl.ir/4C1VK
انگلیسی https://hilbert-cantor.medium.com/the-era-of-gpt-4-c27879ede156
ویرگول
عصر ChatGPT
نگاهی عمیق تر به ساختار و تفاوت «هوش» در مدل های زبانی عظیم و هوش انسانی
معرفی یک افزونه ی گوگل کروم
این افزونه با استفاده از chatgpt مقالات arxiv را خلاصه کرده و نکات اصلی آن را به شما می گوید. سوالاتی از نویسنده ها می سازد و حتی پیشنهاداتی در مورد مسیرهای پژوهشی بر اساس آن مقاله به شما می دهد.
https://chrome.google.com/webstore/detail/arxivgpt/fbbfpcjhnnklhmncjickdipdlhoddjoh
این افزونه با استفاده از chatgpt مقالات arxiv را خلاصه کرده و نکات اصلی آن را به شما می گوید. سوالاتی از نویسنده ها می سازد و حتی پیشنهاداتی در مورد مسیرهای پژوهشی بر اساس آن مقاله به شما می دهد.
https://chrome.google.com/webstore/detail/arxivgpt/fbbfpcjhnnklhmncjickdipdlhoddjoh
Google
SolarXiv - Chrome Web Store
Summarize arXiv papers using Solar LLM technology
این کتابخانه با استفاده از ChatGPT بسیاری از کارهای معمول پردازش متن را اتوماتیک میکند، به طور مثال بدون داشتن هیچ دیتاستی بر روی تعدادی برچسب میتوان برچسب ها را تعریف و دسته بندی بدون هیچ آموزشی انجام داد
https://github.com/iryna-kondr/scikit-llm
https://github.com/iryna-kondr/scikit-llm
GitHub
GitHub - BeastByteAI/scikit-llm: Seamlessly integrate LLMs into scikit-learn.
Seamlessly integrate LLMs into scikit-learn. Contribute to BeastByteAI/scikit-llm development by creating an account on GitHub.
This media is not supported in your browser
VIEW IN TELEGRAM
محصول جدید شرکت Adobe به نام FireFly که کار خلاقانه دستکاری و ساخت تصویر را به سطحی غیرقابل مقایسه با تمامی ابزارهای قبلی که داشت می رساند! اکنون استفاده از فوتوشاپ برای تعداد بیشتری در دسترس قرار می گیرد و فرآیند خلاقیت سرعت بیشتری پیدا میکند!
🔵رزولوشون زبان!🔵
در بزرگ کردن مدل های زبانی دقیقا چه اتفاقی می افتد؟ چطور شده که هر چه این مدل ها را بزرگ تر میکنیم و حجم محاسباتی بیشتری را مصرف میکنیم به نتایج بهتری میرسیم. نتایج شگفت انگیزی که از محصول اخیر openai یعنی chatgpt میبینیم از کجا نشات می گیرد؟ در حالی که تنها چیزی که مدل در عمل یاد میگیرد پیش بینی کلمه ی بعدی با داشتن کلمات قبلی است. چطور به انجام رساندن چنین کار به نسبت ساده ای می تواند راه حل مشکلات دیرپای هوش مصنوعی در حوزه ی زبان مانند مساله استدلال متعارفی )commonsense reasoning) ترجمه متن، خلاصه و حتی مسائل ریاضی و برنامه نویسی باشد؟
برای درک چنین چیزی نیاز است به موضوع تقریبا بی ربطی فکر کنیم: گرافیک کامپیوتری! ااز زمانی که ما شروع کرده ایم به تصویر کردن جهان خارج و فیزیک در کامپیوتر، راه درازی طی شده است. از مدل های ساده ی اولیه که تنها یک توپ را مدل می کردند و موتور های گرافیکی ساده تا موتور های گرافیکی امروزی که به سختی می توان خروجی آن ها را از ویدیو واقعی تشخیص داد چندین اتفاق مهم افتاده است اما شاید بتوان همه را در یک موضوع خلاصه کرد:افزایش توان محاسباتی از طریق کارت های گرافیکی و افزایش رزولوشن تصویر!
نکته ی مهم آن است که متوجه شویم دلیل استفاده از کارت گرافیک برای محاسبات ماتریسی و تانسوری در هوش مصنوعی مثل مدل های زبانی و حتی مدل های صوتی و تصویری فراتر از یک ابزار محاسبه است! در مدل سازی های هوش مصنوعی هم ما کاری به جز افزایش رزولوشن داده ی خروجی نمیکنیم! همچنان که با افزایش رزولوشن در گرافیک کامپیوتری شما تصویر بهتر و بهتری بدست می آورید تا در نقطه ای دیگر خروجی گرافیکی از واقعیت قابل تشخیص نیست چنین اتفاقی هم برای زبان می افتد. مدل های autoregressive زبانی که مبتنی بر مکانیزم attention هستند دقیقا آموزش می بینند تا با خواندن متن های زیاد ریزترین ارتباطات ممکن زبانی را بدست بیاورند که در نهایت منجر به تولید کلمه بعد و بعدی می شود تا بتواند یک مساله ی ریاضی یا لطیفه یا ترجمه را انجام دهد. به عبارتی این شبکه ها آنقدر بزرگ شده اند که تمام ظرافت های زبان را در خود بازنمایی کرده اند. توجه کنید «ظرافت» دقیقا کلمه ای است که می تواند برای تصویر و گرافیک بکار برود و از طرفی برای زبان هم قابل استفاده است!
همه ی ما میدانیم که تشخیص مثلا کنایه یا طنز کار ساده ای نیست و نیازمند درک ظریف ترین ارتباط های بین کلمات و مفاهیم در زبان است. اما اگر مدل زبانی من آنقدر بزرگ شده باشد که بتواند تمام این جزییات را مدل کرده و مهم تر از آن عمومی سازی (generalize) کند (کاری که شبکه های عصبی بخوبی انجام میدهند) می تواند «بافتار» زبان را هم شبیه سازی کند به طرزی که با متن واقعی مو نزند! مهم است توجه کنیم که این با حفظ کردن کل متن ها فرق دارد چون در مدلهای زبانی ما می توانیم عمومی سازی کنیم. اگر مدل من با خواندن هزاران داستان غم ناک بداند که ساختار یک داستان غم ناک چگونه است می تواند داستان های جدید با کاراتر ها و فضاهای جدید ایجاد کند اما تم اصلی را حفظ کند. این یک نوع عمومی سازی است که ما هم در آموزش زبان بسیار از آن استفاده میکنیم. مثلا وقتی کودک میخواهد ساختاری مثل گرامر را یاد بگیرد اول مثال هایی به او می دهیم تا در نهایت بتواند «شبیه» به آن ها را بسازد. این شبیه سازی می تواند از پر کردن یک تمپلیت ساده مثل «من (غذا) می خورم» باشد تا شبیه سازی های بسیار پیچیده که مبتنی بر مجرد سازی های زیادی است مثل داستان سرایی کردن (مثلا با ساختار مقدمه، میان پرده و پایان و یا هر ساختار ادبی پیچیده ای)
بنابراین از این دیدگاه مدل های زبانی بزرگ، بافتار زبان را شبیه سازی میکنند و این کار را با چنان دقت و ظرافتی انجام می دهند که از واقعیت فاصله ی زیادی ندارد. شما این موضوع را بهتر درک می کنید وقتی سری به مدل های کوچکتر بزنید تا متوجه بشوید همچنان که مدل های گرافیکی ساده خنده دار و زمخت هستند و مثلا نمیتوانند به دقت موهای مژه یا رگ های یک برگ را نشان دهند مدل های زبانی کوچکتر هم زمخت بوده و به راحتی میتوان خروجی های کم کیفیت آن ها را که فقط کلی ترین ویژگی های زبان (مانند ترتیب فاعل، مفعول و فعل در انگلیسی ) را رعایت کرده ولی جملات مهمل و بی معنی تولید می کنند، تشخیص داد.
در بزرگ کردن مدل های زبانی دقیقا چه اتفاقی می افتد؟ چطور شده که هر چه این مدل ها را بزرگ تر میکنیم و حجم محاسباتی بیشتری را مصرف میکنیم به نتایج بهتری میرسیم. نتایج شگفت انگیزی که از محصول اخیر openai یعنی chatgpt میبینیم از کجا نشات می گیرد؟ در حالی که تنها چیزی که مدل در عمل یاد میگیرد پیش بینی کلمه ی بعدی با داشتن کلمات قبلی است. چطور به انجام رساندن چنین کار به نسبت ساده ای می تواند راه حل مشکلات دیرپای هوش مصنوعی در حوزه ی زبان مانند مساله استدلال متعارفی )commonsense reasoning) ترجمه متن، خلاصه و حتی مسائل ریاضی و برنامه نویسی باشد؟
برای درک چنین چیزی نیاز است به موضوع تقریبا بی ربطی فکر کنیم: گرافیک کامپیوتری! ااز زمانی که ما شروع کرده ایم به تصویر کردن جهان خارج و فیزیک در کامپیوتر، راه درازی طی شده است. از مدل های ساده ی اولیه که تنها یک توپ را مدل می کردند و موتور های گرافیکی ساده تا موتور های گرافیکی امروزی که به سختی می توان خروجی آن ها را از ویدیو واقعی تشخیص داد چندین اتفاق مهم افتاده است اما شاید بتوان همه را در یک موضوع خلاصه کرد:افزایش توان محاسباتی از طریق کارت های گرافیکی و افزایش رزولوشن تصویر!
نکته ی مهم آن است که متوجه شویم دلیل استفاده از کارت گرافیک برای محاسبات ماتریسی و تانسوری در هوش مصنوعی مثل مدل های زبانی و حتی مدل های صوتی و تصویری فراتر از یک ابزار محاسبه است! در مدل سازی های هوش مصنوعی هم ما کاری به جز افزایش رزولوشن داده ی خروجی نمیکنیم! همچنان که با افزایش رزولوشن در گرافیک کامپیوتری شما تصویر بهتر و بهتری بدست می آورید تا در نقطه ای دیگر خروجی گرافیکی از واقعیت قابل تشخیص نیست چنین اتفاقی هم برای زبان می افتد. مدل های autoregressive زبانی که مبتنی بر مکانیزم attention هستند دقیقا آموزش می بینند تا با خواندن متن های زیاد ریزترین ارتباطات ممکن زبانی را بدست بیاورند که در نهایت منجر به تولید کلمه بعد و بعدی می شود تا بتواند یک مساله ی ریاضی یا لطیفه یا ترجمه را انجام دهد. به عبارتی این شبکه ها آنقدر بزرگ شده اند که تمام ظرافت های زبان را در خود بازنمایی کرده اند. توجه کنید «ظرافت» دقیقا کلمه ای است که می تواند برای تصویر و گرافیک بکار برود و از طرفی برای زبان هم قابل استفاده است!
همه ی ما میدانیم که تشخیص مثلا کنایه یا طنز کار ساده ای نیست و نیازمند درک ظریف ترین ارتباط های بین کلمات و مفاهیم در زبان است. اما اگر مدل زبانی من آنقدر بزرگ شده باشد که بتواند تمام این جزییات را مدل کرده و مهم تر از آن عمومی سازی (generalize) کند (کاری که شبکه های عصبی بخوبی انجام میدهند) می تواند «بافتار» زبان را هم شبیه سازی کند به طرزی که با متن واقعی مو نزند! مهم است توجه کنیم که این با حفظ کردن کل متن ها فرق دارد چون در مدلهای زبانی ما می توانیم عمومی سازی کنیم. اگر مدل من با خواندن هزاران داستان غم ناک بداند که ساختار یک داستان غم ناک چگونه است می تواند داستان های جدید با کاراتر ها و فضاهای جدید ایجاد کند اما تم اصلی را حفظ کند. این یک نوع عمومی سازی است که ما هم در آموزش زبان بسیار از آن استفاده میکنیم. مثلا وقتی کودک میخواهد ساختاری مثل گرامر را یاد بگیرد اول مثال هایی به او می دهیم تا در نهایت بتواند «شبیه» به آن ها را بسازد. این شبیه سازی می تواند از پر کردن یک تمپلیت ساده مثل «من (غذا) می خورم» باشد تا شبیه سازی های بسیار پیچیده که مبتنی بر مجرد سازی های زیادی است مثل داستان سرایی کردن (مثلا با ساختار مقدمه، میان پرده و پایان و یا هر ساختار ادبی پیچیده ای)
بنابراین از این دیدگاه مدل های زبانی بزرگ، بافتار زبان را شبیه سازی میکنند و این کار را با چنان دقت و ظرافتی انجام می دهند که از واقعیت فاصله ی زیادی ندارد. شما این موضوع را بهتر درک می کنید وقتی سری به مدل های کوچکتر بزنید تا متوجه بشوید همچنان که مدل های گرافیکی ساده خنده دار و زمخت هستند و مثلا نمیتوانند به دقت موهای مژه یا رگ های یک برگ را نشان دهند مدل های زبانی کوچکتر هم زمخت بوده و به راحتی میتوان خروجی های کم کیفیت آن ها را که فقط کلی ترین ویژگی های زبان (مانند ترتیب فاعل، مفعول و فعل در انگلیسی ) را رعایت کرده ولی جملات مهمل و بی معنی تولید می کنند، تشخیص داد.
برای اندازه گیری رزولوشن در تصویر تعاریف درستی داریم اما در زبان چه؟ اصلا رزولوشن در زبان را میتوان تعریف کرد؟ به نظر من بهترین تعریف برای رزولوشن با مفهوم perplexity گره خورده است که در عمل cross entropy بین توزیع احتمال تولید شده توسط شبکه و توزیع احتمال واقعی (که با داده ها تخمین زده می شود empirical distribution) است. زمانی که این فاصله (که از نوع اطلاعات است) به صفر برسد تفاوتی بین واقعیت و توزیع مدل زبانی نیست و رزولوشن بی نهایت است. بنابراین می توان رزولوشن مدل را به صورت معکوس perplexity تعریف کرد
LM_resolution = 1/perplexity
Perplexity = 2^ H(p, q)
که در آن H(p,q) کراس آنتروپی بین توزیع احتمال مدل زبانی p و توزیع احتمال واقعی q است. حالتی که رزولوشن بی نهایت است یک حد است که هیچ گاه نمی توان به آن رسید چون توزیع احتمال مقصد علاوه به ظرافت بی نهایت (؟) همواره در حال تغییر است. چون زبان یک پدیده ی دینامیک است.
LM_resolution = 1/perplexity
Perplexity = 2^ H(p, q)
که در آن H(p,q) کراس آنتروپی بین توزیع احتمال مدل زبانی p و توزیع احتمال واقعی q است. حالتی که رزولوشن بی نهایت است یک حد است که هیچ گاه نمی توان به آن رسید چون توزیع احتمال مقصد علاوه به ظرافت بی نهایت (؟) همواره در حال تغییر است. چون زبان یک پدیده ی دینامیک است.