مدتی پیش این میم (meme) رو دیدم که علاوه بر نکته ی خنده دارش واقعیت جالبی رو هم نشون میده: کاری که طرف کرده «غلط» نیست به این معنی که حدودا میشه گفت درسته!
خب اولین سوالی که پیش میاد یعنی چی؟ اینجا اصلا ساختار رعایت نشده! فقط هر چی که رنگ های مشابه داره کنار هم قرار داده شده. اما وقتی میگیم حدودا یعنی تقریبی! یعنی اگه من شکل اسب روی کارتن پازل رو هم نشونتون ندم شما میتونید تشخیص بدید که این یک اسبه پس جواب طرف خیلی هم غلط نیست!
شاید باورش سخت باشه ولی این درست بودن به معنای نظریه ی اطلاعاتیه!
در نظریه اطلاعات چیزی که برای ما اهمیت داره ساختار به معنای عرفی اون یعنی قرار دادن هر چیزی «دقیقا» سرجاش نیست بلکه چیزی که حدودی هم شبیه به ساختار مد نظر باشه برای منظور ما کافیه به همین خاطر در نظریه اطلاعات ما به فرآیند های تصادفی و توزیع احتمال علاقه نشون میدیم. چنین طرز نگاه کردنی شاید بنظر غلط باشه اما در عمل کار رو راه میندازه! مثلا برای اینکه ما تشخیص بدیم یک شکل «اسب» هستش اتفاقا غلطه که بریم و ببینیم که دقیقا هر قسمت اسب چه شکلی میشه برعکس اون بازنمایی که ما داریم (یه جوری در مغز قرار گرفته) یک بازنمایی احتمالاتیه! یعنی ما حدودا میدونیم کله ی اسب و یال هاش چجوری، تقریبا دمش و تقریبا پاهاش! اصلا به همین خاطر هست که ما حتی یک نقاشی کج و کوله بچگانه از یک اسب رو بازم به صورت اسب تشخیص میدیم!
مهم نیست این بازنمایی توسط چه سیستمی ذخیره شده (شبکه های عصبی عمیق یک مدل احتمالاتی یا به نحو کمی اسرار آمیزی توسط مغز!) و این دقیقا هوش کلاود شنون ( Claude Shannon) بود! شنون تشخیص داد که اطلاعات در بسیاری از مواقع چیزی جز تشخیص همین توزیع ها نیست.
مثلا برای رنگ اسب ما بیشتر انتظار داریم که رنگ هایی مثل قهوه ای و سیاه و سفید ببینیم اما اگر اسبی سبز باشه اسب نیست؟ در واقع اسب سبز هم یک امکانه ولی احتمالش کمتره (شاید یک اسب کارتونی!) دنیای واقعی باعث میشه ما به دنبال تعریف های دقیق برای «چیزها» نباشیم چیزی که ما یاد میگیریم نه ساختار به معنای سفت و سخت و قانونی اون بلکه یک ابر هست که در زبان ریاضی به توزیع ترجمه میشه. توزیع ها حاوی اطلاعات هستند و نظمی رو توصیف میکنند! مثلا اینکه رنگ اسب ها معمولا سفید و سیاه و قهوه ایه تا سبز یا صورتی خودش یک نظم هست در مقابل نظم، بی نظمی قرار میگیره. وقتی یک ویژگی هیچ تفاوتی بین مقدارهاش وجود نداشته باشه در بی نظم ترین حالت ممکن خواهد بود مثلا جهت کله ی اسب در تصویر تاثیری در «اسب بودن» شکل نداره! با احتمال مساوی کله ی اسب میتونه چپ یا راست یا وسط تصویر باشه! ما به چنین چیزی توجهی نمیکنیم!
اما بی نظمی رو چطور میشه تعریف کرد؟
(ادامه دارد)
خب اولین سوالی که پیش میاد یعنی چی؟ اینجا اصلا ساختار رعایت نشده! فقط هر چی که رنگ های مشابه داره کنار هم قرار داده شده. اما وقتی میگیم حدودا یعنی تقریبی! یعنی اگه من شکل اسب روی کارتن پازل رو هم نشونتون ندم شما میتونید تشخیص بدید که این یک اسبه پس جواب طرف خیلی هم غلط نیست!
شاید باورش سخت باشه ولی این درست بودن به معنای نظریه ی اطلاعاتیه!
در نظریه اطلاعات چیزی که برای ما اهمیت داره ساختار به معنای عرفی اون یعنی قرار دادن هر چیزی «دقیقا» سرجاش نیست بلکه چیزی که حدودی هم شبیه به ساختار مد نظر باشه برای منظور ما کافیه به همین خاطر در نظریه اطلاعات ما به فرآیند های تصادفی و توزیع احتمال علاقه نشون میدیم. چنین طرز نگاه کردنی شاید بنظر غلط باشه اما در عمل کار رو راه میندازه! مثلا برای اینکه ما تشخیص بدیم یک شکل «اسب» هستش اتفاقا غلطه که بریم و ببینیم که دقیقا هر قسمت اسب چه شکلی میشه برعکس اون بازنمایی که ما داریم (یه جوری در مغز قرار گرفته) یک بازنمایی احتمالاتیه! یعنی ما حدودا میدونیم کله ی اسب و یال هاش چجوری، تقریبا دمش و تقریبا پاهاش! اصلا به همین خاطر هست که ما حتی یک نقاشی کج و کوله بچگانه از یک اسب رو بازم به صورت اسب تشخیص میدیم!
مهم نیست این بازنمایی توسط چه سیستمی ذخیره شده (شبکه های عصبی عمیق یک مدل احتمالاتی یا به نحو کمی اسرار آمیزی توسط مغز!) و این دقیقا هوش کلاود شنون ( Claude Shannon) بود! شنون تشخیص داد که اطلاعات در بسیاری از مواقع چیزی جز تشخیص همین توزیع ها نیست.
مثلا برای رنگ اسب ما بیشتر انتظار داریم که رنگ هایی مثل قهوه ای و سیاه و سفید ببینیم اما اگر اسبی سبز باشه اسب نیست؟ در واقع اسب سبز هم یک امکانه ولی احتمالش کمتره (شاید یک اسب کارتونی!) دنیای واقعی باعث میشه ما به دنبال تعریف های دقیق برای «چیزها» نباشیم چیزی که ما یاد میگیریم نه ساختار به معنای سفت و سخت و قانونی اون بلکه یک ابر هست که در زبان ریاضی به توزیع ترجمه میشه. توزیع ها حاوی اطلاعات هستند و نظمی رو توصیف میکنند! مثلا اینکه رنگ اسب ها معمولا سفید و سیاه و قهوه ایه تا سبز یا صورتی خودش یک نظم هست در مقابل نظم، بی نظمی قرار میگیره. وقتی یک ویژگی هیچ تفاوتی بین مقدارهاش وجود نداشته باشه در بی نظم ترین حالت ممکن خواهد بود مثلا جهت کله ی اسب در تصویر تاثیری در «اسب بودن» شکل نداره! با احتمال مساوی کله ی اسب میتونه چپ یا راست یا وسط تصویر باشه! ما به چنین چیزی توجهی نمیکنیم!
اما بی نظمی رو چطور میشه تعریف کرد؟
(ادامه دارد)
اگه چیزی قطعا اتفاق بیفته یا قطعا اتفاق نیفته چنین چیزی هیچ بی نظمی ای نداره. مثلا هیچ شیر خوراکی ای نمیتونه چیزی غیر از سفید باشه! بیشترین بی نظمی اما زمانی اتفاق میفته که هیچ گونه پیش بینی پذیری ای وجود نداره و همه ی حالت ها دقیقا با یک احتمال اتفاق میفتن (مثل رنگ لباس). اگه خودمون رو به دو حالت محدود کنیم. احتمال صد و صفر باید بی نظمی صفر داشته باشن و ۵۰ درصد بیشترین بی نظمی رو!
[0 1] -> 0
[1 0] -> 0
[0.5 0.5] -> max
یعنی چیزی شبیه به شکل پایین
[0 1] -> 0
[1 0] -> 0
[0.5 0.5] -> max
یعنی چیزی شبیه به شکل پایین
اما آیا میشه بی نظمی رو باز هم به اجزای سازنده ش شکست به چیزی که ساده تر بشه درکش کرد؟ اینجاست که اساسی ترین بخش (اتم) نظریه شنون رو میبینیم. شنون مفهوم «غافلگیری» (surprisal) را اساسی ترین بخش نظریه خودش می دونه! اگر چیزی احتمال ۱۰۰ درصد باشه اصلا غافلگیر کننده نیست بنابراین مقدار غافلگیری اون صفره. از طرفی هر چه احتمال چیزی کمتر باشه بسیار غافلگیر کننده تره! در واقع احتمال چیزی و غافلگیری اون تقریبا به یک معنا هستند و فقط واحدشون فرق داره. چیزی که احتمالش صفر باشه بی نهایت غافلگیر کننده ست!! یک تابع مطلوب برای تبدیل احتمال به غافلگیری لگاریتمه
حالا چطور میتوان ازین مفهوم به بی نظمی رسید؟ شنون بی نظمی رو میانگین غافلگیری ما از حالت های یک سیستم تعریف میکنه! اینجا نیاز داریم یکم صبر کنیم و به این جمله بیشتر فکر کنیم. فرض کنید شما در یک سیستم سیاسی زندگی میکنید که کاملا بی نظم و بی در پیکره! در چنین سیستمی شما هر روز غافلگیر میشوید. به عبارتی هر چیزی هر روز اتفاق میفته! از طرفی یک سیستم سیاسی پایدار به طور میانگین کمتر شما را غافلگیر می کند بنابراین سرمایه گذاری و برنامه ریزی برای آینده ساده تر است. بخش های غافلگیر کننده ی سیستم (I بالا یعنی p کم) احتمال رخ دادنشان کم است و قسمت های کمتر غافلگیر کننده (I کم یعنی p زیاد) احتمال رخ دادنشان بیشتر است! بنابراین میانگین کم تر خواهد بود! از طرف دیگر در سیستم بی نظم همه چیز به یک اندازه (=یک احتمال) غافلگیر کننده است (I بالا برای همه زمانی که همه احتمال ها مساوی می شوند!)
بنابراین کافی است که میانگین غافلگیری ها را حساب کنیم تا به بنظمی برسیم!
بنابراین کافی است که میانگین غافلگیری ها را حساب کنیم تا به بنظمی برسیم!
در حالی به عصر هوش مصنوعی صنعتی وارد می شویم و این تکنولوژی به زندگی عموم مردم وارد می شود، به ابزارهای شناختی ای دسترسی پیدا میکنیم که پیش از این قابل تصور نبود. این ابزارها مستقیما به ما در «فکر کردن» و فعالیت های شناختی کمک می کنند این کمک چیزی فراتر از ذخیره، بازیابی، جستجو و دسته بندی اطلاعات است. با این حال وقتی در مورد «هوش» این سیستم ها صحبت می کنیم باید با احتیاط بیشتری در مورد آن صحبت کنیم تا سو تعبیر های معمولی که در مورد «آگاه بودن»، «حیات داشتن» و «زنده بودن» وجود دارد، پیش نیاید.
فارسی https://vrgl.ir/4C1VK
انگلیسی https://hilbert-cantor.medium.com/the-era-of-gpt-4-c27879ede156
فارسی https://vrgl.ir/4C1VK
انگلیسی https://hilbert-cantor.medium.com/the-era-of-gpt-4-c27879ede156
ویرگول
عصر ChatGPT
نگاهی عمیق تر به ساختار و تفاوت «هوش» در مدل های زبانی عظیم و هوش انسانی
معرفی یک افزونه ی گوگل کروم
این افزونه با استفاده از chatgpt مقالات arxiv را خلاصه کرده و نکات اصلی آن را به شما می گوید. سوالاتی از نویسنده ها می سازد و حتی پیشنهاداتی در مورد مسیرهای پژوهشی بر اساس آن مقاله به شما می دهد.
https://chrome.google.com/webstore/detail/arxivgpt/fbbfpcjhnnklhmncjickdipdlhoddjoh
این افزونه با استفاده از chatgpt مقالات arxiv را خلاصه کرده و نکات اصلی آن را به شما می گوید. سوالاتی از نویسنده ها می سازد و حتی پیشنهاداتی در مورد مسیرهای پژوهشی بر اساس آن مقاله به شما می دهد.
https://chrome.google.com/webstore/detail/arxivgpt/fbbfpcjhnnklhmncjickdipdlhoddjoh
Google
SolarXiv - Chrome Web Store
Summarize arXiv papers using Solar LLM technology
این کتابخانه با استفاده از ChatGPT بسیاری از کارهای معمول پردازش متن را اتوماتیک میکند، به طور مثال بدون داشتن هیچ دیتاستی بر روی تعدادی برچسب میتوان برچسب ها را تعریف و دسته بندی بدون هیچ آموزشی انجام داد
https://github.com/iryna-kondr/scikit-llm
https://github.com/iryna-kondr/scikit-llm
GitHub
GitHub - BeastByteAI/scikit-llm: Seamlessly integrate LLMs into scikit-learn.
Seamlessly integrate LLMs into scikit-learn. Contribute to BeastByteAI/scikit-llm development by creating an account on GitHub.
This media is not supported in your browser
VIEW IN TELEGRAM
محصول جدید شرکت Adobe به نام FireFly که کار خلاقانه دستکاری و ساخت تصویر را به سطحی غیرقابل مقایسه با تمامی ابزارهای قبلی که داشت می رساند! اکنون استفاده از فوتوشاپ برای تعداد بیشتری در دسترس قرار می گیرد و فرآیند خلاقیت سرعت بیشتری پیدا میکند!
🔵رزولوشون زبان!🔵
در بزرگ کردن مدل های زبانی دقیقا چه اتفاقی می افتد؟ چطور شده که هر چه این مدل ها را بزرگ تر میکنیم و حجم محاسباتی بیشتری را مصرف میکنیم به نتایج بهتری میرسیم. نتایج شگفت انگیزی که از محصول اخیر openai یعنی chatgpt میبینیم از کجا نشات می گیرد؟ در حالی که تنها چیزی که مدل در عمل یاد میگیرد پیش بینی کلمه ی بعدی با داشتن کلمات قبلی است. چطور به انجام رساندن چنین کار به نسبت ساده ای می تواند راه حل مشکلات دیرپای هوش مصنوعی در حوزه ی زبان مانند مساله استدلال متعارفی )commonsense reasoning) ترجمه متن، خلاصه و حتی مسائل ریاضی و برنامه نویسی باشد؟
برای درک چنین چیزی نیاز است به موضوع تقریبا بی ربطی فکر کنیم: گرافیک کامپیوتری! ااز زمانی که ما شروع کرده ایم به تصویر کردن جهان خارج و فیزیک در کامپیوتر، راه درازی طی شده است. از مدل های ساده ی اولیه که تنها یک توپ را مدل می کردند و موتور های گرافیکی ساده تا موتور های گرافیکی امروزی که به سختی می توان خروجی آن ها را از ویدیو واقعی تشخیص داد چندین اتفاق مهم افتاده است اما شاید بتوان همه را در یک موضوع خلاصه کرد:افزایش توان محاسباتی از طریق کارت های گرافیکی و افزایش رزولوشن تصویر!
نکته ی مهم آن است که متوجه شویم دلیل استفاده از کارت گرافیک برای محاسبات ماتریسی و تانسوری در هوش مصنوعی مثل مدل های زبانی و حتی مدل های صوتی و تصویری فراتر از یک ابزار محاسبه است! در مدل سازی های هوش مصنوعی هم ما کاری به جز افزایش رزولوشن داده ی خروجی نمیکنیم! همچنان که با افزایش رزولوشن در گرافیک کامپیوتری شما تصویر بهتر و بهتری بدست می آورید تا در نقطه ای دیگر خروجی گرافیکی از واقعیت قابل تشخیص نیست چنین اتفاقی هم برای زبان می افتد. مدل های autoregressive زبانی که مبتنی بر مکانیزم attention هستند دقیقا آموزش می بینند تا با خواندن متن های زیاد ریزترین ارتباطات ممکن زبانی را بدست بیاورند که در نهایت منجر به تولید کلمه بعد و بعدی می شود تا بتواند یک مساله ی ریاضی یا لطیفه یا ترجمه را انجام دهد. به عبارتی این شبکه ها آنقدر بزرگ شده اند که تمام ظرافت های زبان را در خود بازنمایی کرده اند. توجه کنید «ظرافت» دقیقا کلمه ای است که می تواند برای تصویر و گرافیک بکار برود و از طرفی برای زبان هم قابل استفاده است!
همه ی ما میدانیم که تشخیص مثلا کنایه یا طنز کار ساده ای نیست و نیازمند درک ظریف ترین ارتباط های بین کلمات و مفاهیم در زبان است. اما اگر مدل زبانی من آنقدر بزرگ شده باشد که بتواند تمام این جزییات را مدل کرده و مهم تر از آن عمومی سازی (generalize) کند (کاری که شبکه های عصبی بخوبی انجام میدهند) می تواند «بافتار» زبان را هم شبیه سازی کند به طرزی که با متن واقعی مو نزند! مهم است توجه کنیم که این با حفظ کردن کل متن ها فرق دارد چون در مدلهای زبانی ما می توانیم عمومی سازی کنیم. اگر مدل من با خواندن هزاران داستان غم ناک بداند که ساختار یک داستان غم ناک چگونه است می تواند داستان های جدید با کاراتر ها و فضاهای جدید ایجاد کند اما تم اصلی را حفظ کند. این یک نوع عمومی سازی است که ما هم در آموزش زبان بسیار از آن استفاده میکنیم. مثلا وقتی کودک میخواهد ساختاری مثل گرامر را یاد بگیرد اول مثال هایی به او می دهیم تا در نهایت بتواند «شبیه» به آن ها را بسازد. این شبیه سازی می تواند از پر کردن یک تمپلیت ساده مثل «من (غذا) می خورم» باشد تا شبیه سازی های بسیار پیچیده که مبتنی بر مجرد سازی های زیادی است مثل داستان سرایی کردن (مثلا با ساختار مقدمه، میان پرده و پایان و یا هر ساختار ادبی پیچیده ای)
بنابراین از این دیدگاه مدل های زبانی بزرگ، بافتار زبان را شبیه سازی میکنند و این کار را با چنان دقت و ظرافتی انجام می دهند که از واقعیت فاصله ی زیادی ندارد. شما این موضوع را بهتر درک می کنید وقتی سری به مدل های کوچکتر بزنید تا متوجه بشوید همچنان که مدل های گرافیکی ساده خنده دار و زمخت هستند و مثلا نمیتوانند به دقت موهای مژه یا رگ های یک برگ را نشان دهند مدل های زبانی کوچکتر هم زمخت بوده و به راحتی میتوان خروجی های کم کیفیت آن ها را که فقط کلی ترین ویژگی های زبان (مانند ترتیب فاعل، مفعول و فعل در انگلیسی ) را رعایت کرده ولی جملات مهمل و بی معنی تولید می کنند، تشخیص داد.
در بزرگ کردن مدل های زبانی دقیقا چه اتفاقی می افتد؟ چطور شده که هر چه این مدل ها را بزرگ تر میکنیم و حجم محاسباتی بیشتری را مصرف میکنیم به نتایج بهتری میرسیم. نتایج شگفت انگیزی که از محصول اخیر openai یعنی chatgpt میبینیم از کجا نشات می گیرد؟ در حالی که تنها چیزی که مدل در عمل یاد میگیرد پیش بینی کلمه ی بعدی با داشتن کلمات قبلی است. چطور به انجام رساندن چنین کار به نسبت ساده ای می تواند راه حل مشکلات دیرپای هوش مصنوعی در حوزه ی زبان مانند مساله استدلال متعارفی )commonsense reasoning) ترجمه متن، خلاصه و حتی مسائل ریاضی و برنامه نویسی باشد؟
برای درک چنین چیزی نیاز است به موضوع تقریبا بی ربطی فکر کنیم: گرافیک کامپیوتری! ااز زمانی که ما شروع کرده ایم به تصویر کردن جهان خارج و فیزیک در کامپیوتر، راه درازی طی شده است. از مدل های ساده ی اولیه که تنها یک توپ را مدل می کردند و موتور های گرافیکی ساده تا موتور های گرافیکی امروزی که به سختی می توان خروجی آن ها را از ویدیو واقعی تشخیص داد چندین اتفاق مهم افتاده است اما شاید بتوان همه را در یک موضوع خلاصه کرد:افزایش توان محاسباتی از طریق کارت های گرافیکی و افزایش رزولوشن تصویر!
نکته ی مهم آن است که متوجه شویم دلیل استفاده از کارت گرافیک برای محاسبات ماتریسی و تانسوری در هوش مصنوعی مثل مدل های زبانی و حتی مدل های صوتی و تصویری فراتر از یک ابزار محاسبه است! در مدل سازی های هوش مصنوعی هم ما کاری به جز افزایش رزولوشن داده ی خروجی نمیکنیم! همچنان که با افزایش رزولوشن در گرافیک کامپیوتری شما تصویر بهتر و بهتری بدست می آورید تا در نقطه ای دیگر خروجی گرافیکی از واقعیت قابل تشخیص نیست چنین اتفاقی هم برای زبان می افتد. مدل های autoregressive زبانی که مبتنی بر مکانیزم attention هستند دقیقا آموزش می بینند تا با خواندن متن های زیاد ریزترین ارتباطات ممکن زبانی را بدست بیاورند که در نهایت منجر به تولید کلمه بعد و بعدی می شود تا بتواند یک مساله ی ریاضی یا لطیفه یا ترجمه را انجام دهد. به عبارتی این شبکه ها آنقدر بزرگ شده اند که تمام ظرافت های زبان را در خود بازنمایی کرده اند. توجه کنید «ظرافت» دقیقا کلمه ای است که می تواند برای تصویر و گرافیک بکار برود و از طرفی برای زبان هم قابل استفاده است!
همه ی ما میدانیم که تشخیص مثلا کنایه یا طنز کار ساده ای نیست و نیازمند درک ظریف ترین ارتباط های بین کلمات و مفاهیم در زبان است. اما اگر مدل زبانی من آنقدر بزرگ شده باشد که بتواند تمام این جزییات را مدل کرده و مهم تر از آن عمومی سازی (generalize) کند (کاری که شبکه های عصبی بخوبی انجام میدهند) می تواند «بافتار» زبان را هم شبیه سازی کند به طرزی که با متن واقعی مو نزند! مهم است توجه کنیم که این با حفظ کردن کل متن ها فرق دارد چون در مدلهای زبانی ما می توانیم عمومی سازی کنیم. اگر مدل من با خواندن هزاران داستان غم ناک بداند که ساختار یک داستان غم ناک چگونه است می تواند داستان های جدید با کاراتر ها و فضاهای جدید ایجاد کند اما تم اصلی را حفظ کند. این یک نوع عمومی سازی است که ما هم در آموزش زبان بسیار از آن استفاده میکنیم. مثلا وقتی کودک میخواهد ساختاری مثل گرامر را یاد بگیرد اول مثال هایی به او می دهیم تا در نهایت بتواند «شبیه» به آن ها را بسازد. این شبیه سازی می تواند از پر کردن یک تمپلیت ساده مثل «من (غذا) می خورم» باشد تا شبیه سازی های بسیار پیچیده که مبتنی بر مجرد سازی های زیادی است مثل داستان سرایی کردن (مثلا با ساختار مقدمه، میان پرده و پایان و یا هر ساختار ادبی پیچیده ای)
بنابراین از این دیدگاه مدل های زبانی بزرگ، بافتار زبان را شبیه سازی میکنند و این کار را با چنان دقت و ظرافتی انجام می دهند که از واقعیت فاصله ی زیادی ندارد. شما این موضوع را بهتر درک می کنید وقتی سری به مدل های کوچکتر بزنید تا متوجه بشوید همچنان که مدل های گرافیکی ساده خنده دار و زمخت هستند و مثلا نمیتوانند به دقت موهای مژه یا رگ های یک برگ را نشان دهند مدل های زبانی کوچکتر هم زمخت بوده و به راحتی میتوان خروجی های کم کیفیت آن ها را که فقط کلی ترین ویژگی های زبان (مانند ترتیب فاعل، مفعول و فعل در انگلیسی ) را رعایت کرده ولی جملات مهمل و بی معنی تولید می کنند، تشخیص داد.
برای اندازه گیری رزولوشن در تصویر تعاریف درستی داریم اما در زبان چه؟ اصلا رزولوشن در زبان را میتوان تعریف کرد؟ به نظر من بهترین تعریف برای رزولوشن با مفهوم perplexity گره خورده است که در عمل cross entropy بین توزیع احتمال تولید شده توسط شبکه و توزیع احتمال واقعی (که با داده ها تخمین زده می شود empirical distribution) است. زمانی که این فاصله (که از نوع اطلاعات است) به صفر برسد تفاوتی بین واقعیت و توزیع مدل زبانی نیست و رزولوشن بی نهایت است. بنابراین می توان رزولوشن مدل را به صورت معکوس perplexity تعریف کرد
LM_resolution = 1/perplexity
Perplexity = 2^ H(p, q)
که در آن H(p,q) کراس آنتروپی بین توزیع احتمال مدل زبانی p و توزیع احتمال واقعی q است. حالتی که رزولوشن بی نهایت است یک حد است که هیچ گاه نمی توان به آن رسید چون توزیع احتمال مقصد علاوه به ظرافت بی نهایت (؟) همواره در حال تغییر است. چون زبان یک پدیده ی دینامیک است.
LM_resolution = 1/perplexity
Perplexity = 2^ H(p, q)
که در آن H(p,q) کراس آنتروپی بین توزیع احتمال مدل زبانی p و توزیع احتمال واقعی q است. حالتی که رزولوشن بی نهایت است یک حد است که هیچ گاه نمی توان به آن رسید چون توزیع احتمال مقصد علاوه به ظرافت بی نهایت (؟) همواره در حال تغییر است. چون زبان یک پدیده ی دینامیک است.
Taijin Kyofusho
The Evpatoria Report
جملاتی که در ابتدای آهنگ میشنوید، مربوط به آخرین لحظات زندگی هفت فضانورد فضاپیمای آمریکایی «شاتل فضایی کلمبیا» و مکالمهٔ آنها با ایستگاه کنترل مأموریت است. این هفت فضانورد که از کشورهای آمریکا، اسرائیل و هند بودند، پس از اتمام ماموریت STS 107 در فضا و در حال بازگشت به جو زمین، در روز یکم فوریه 2003 به دلیل انفجار فضاپیما، جان خود را از دست دادند.
نام قطعه (تایجین کیوفوشو/Taijin Kyofusho) نام ژاپنی یک اختلال روانی است؛ افراد مبتلا به این اختلال، ترس شدیدی از این دارند که موجب آسیب یا آزار دیگران شوند و به همین دلیل ترجیح میدهند روابط اجتماعی خود را به حداقل برسانند تا احتمال چنین وقایعی به حداقل برسد./
نام قطعه (تایجین کیوفوشو/Taijin Kyofusho) نام ژاپنی یک اختلال روانی است؛ افراد مبتلا به این اختلال، ترس شدیدی از این دارند که موجب آسیب یا آزار دیگران شوند و به همین دلیل ترجیح میدهند روابط اجتماعی خود را به حداقل برسانند تا احتمال چنین وقایعی به حداقل برسد./
This media is not supported in your browser
VIEW IN TELEGRAM
بوستون داینامیکز از ۱۹۸۳ تا ۲۰۲۲
🔵مشتق کسری!🔵
در گذشته در مورد مفاهیم عجیب و غریب ریاضی و اینکه از جاهای غیر منتظره ای سر در می آورند صحبت کردیم. بخش گسترده (شاید در واقع تمام) ریاضیات پر است از جهش هایی در جهات عجیب و غیر قابل فهم. هر مفهوم ریاضی در زمان خودش بی معنا بوده است. گسترش سیستم های عددی مهم ترین مثال آن است. از اعداد طبیعی به اعداد کسری و منفی و در نهایت اعداد مختلط!
خیلی اوقات ما به چنین جهش هایی فکر نمیکنیم چون صرفا آن ها را بی معنی تلقی می کنیم. یا حتی بدتر آن ها به پارادوکس منجر می شوند! یک مثل کهن در مورد چنین تناقض هایی به مفهوم پیوستگی بر میگردد که قدمتی بسیار طولانی دارد. گفته می شود اولین تناقض کشف شده در مورد مفهوم پیوستگی توسط زنو ارايه شد. زنو مثال معروف مسابقه ی خرگوش و لاک پشت را دارد. سوال این است که کدام می برد. همه می گویند خرگوش. اما خرگوش برای اینکه تمام مسیر را ببرد نیاز دارد نصف ان را برود و برای آنکه نصف آن را برود باز هم نیاز دارد نصف آن را ببرد و الی اخر! انگار خرگوش نگون بخت هرگز نمی تواند شروع کند چون هیچ قدم بی نهایت کوچکی وجود ندارد! با این حال میبینم که جهان ما پیوسته است و چنین مشکلاتی وجود ندارد! بیش تر از ۱۷ قرن طول کشید تا این مساله توسط نیوتون و لایبنیتز حل شود. نیوتون و لایبنیتز حساب دیفرانسیل و انتگرال را معرفی کردند که عملا حساب بی نهایت کوچک ها بود. آن ها نشان دادند که گاهی ضرب بی نهایت کوچک (زمان یک قدم) در ضرب بی نهایت بزرگ (تمام بازه ها) می تواند یک عدد متناهی باشد. چنین چیزی را هر کس که حد های بی نهایت حل کرده باشد می داند.
در عمل پارادوکس همواره موتور محرکه ی کشفیات جدید ریاضیات بوده است و بیشتر اوقات دغدغه ی ریاضیدان کاربرد عملی نظریه اش نیست بلکه رفع آن پارادوکس ها و سوالات است. اما از طرف دیگر تاریخ نشان داده گسترش مفاهیم ریاضی همواره کاربرد های جدید پیدا کرده است. انگار ریاضیات به ما ابزارهای جدید برای شکافتن حتی حقایق فیزیکی را هم می دهند.
اخیرا با یکی از همین جهش های عجیب آشنا شدم که من را بسیار با خود درگیر کرده است. در درس حسابان با مفهوم مشتق آشنا می شویم مشتق در ساده ترین حالت خود چیزی جز زاویه ی خط در یک نقطه نیست. مشتق دوم میزان تحدب و تعقر را اندازه می گیرد و مشتق های بالاتر اطلاعات بیشتر (هرچند تفسیر آن ها سخت است) مشتق گرفتن همواره یک عملیات عدد درست تلقی می شد: یعنی مثلا مشتق اول و دوم و سوم داریم اما مشتق سه چهارم نداریم! چنین چیزی بی معنی است! اما آیا واقعا بی معناست؟
جالب است که این سوال را خود لایبنیتز پرسید که خودش مشتق را کشف کرد. با این حال لایبنتیز متوجه پارادوکس هایی در مورد این مساله شد. با این حال نوشت: مشتق کسری منجر به پارادوکس می شود اما روزی نتایج مفیدی از آن استخراج می شود.
اما پارادوکس مشتق کسری چیست؟ ابتدا بیایید ببینیم چطور چنین چیزی استخراج می شود.
(ادامه دارد..)
در گذشته در مورد مفاهیم عجیب و غریب ریاضی و اینکه از جاهای غیر منتظره ای سر در می آورند صحبت کردیم. بخش گسترده (شاید در واقع تمام) ریاضیات پر است از جهش هایی در جهات عجیب و غیر قابل فهم. هر مفهوم ریاضی در زمان خودش بی معنا بوده است. گسترش سیستم های عددی مهم ترین مثال آن است. از اعداد طبیعی به اعداد کسری و منفی و در نهایت اعداد مختلط!
خیلی اوقات ما به چنین جهش هایی فکر نمیکنیم چون صرفا آن ها را بی معنی تلقی می کنیم. یا حتی بدتر آن ها به پارادوکس منجر می شوند! یک مثل کهن در مورد چنین تناقض هایی به مفهوم پیوستگی بر میگردد که قدمتی بسیار طولانی دارد. گفته می شود اولین تناقض کشف شده در مورد مفهوم پیوستگی توسط زنو ارايه شد. زنو مثال معروف مسابقه ی خرگوش و لاک پشت را دارد. سوال این است که کدام می برد. همه می گویند خرگوش. اما خرگوش برای اینکه تمام مسیر را ببرد نیاز دارد نصف ان را برود و برای آنکه نصف آن را برود باز هم نیاز دارد نصف آن را ببرد و الی اخر! انگار خرگوش نگون بخت هرگز نمی تواند شروع کند چون هیچ قدم بی نهایت کوچکی وجود ندارد! با این حال میبینم که جهان ما پیوسته است و چنین مشکلاتی وجود ندارد! بیش تر از ۱۷ قرن طول کشید تا این مساله توسط نیوتون و لایبنیتز حل شود. نیوتون و لایبنیتز حساب دیفرانسیل و انتگرال را معرفی کردند که عملا حساب بی نهایت کوچک ها بود. آن ها نشان دادند که گاهی ضرب بی نهایت کوچک (زمان یک قدم) در ضرب بی نهایت بزرگ (تمام بازه ها) می تواند یک عدد متناهی باشد. چنین چیزی را هر کس که حد های بی نهایت حل کرده باشد می داند.
در عمل پارادوکس همواره موتور محرکه ی کشفیات جدید ریاضیات بوده است و بیشتر اوقات دغدغه ی ریاضیدان کاربرد عملی نظریه اش نیست بلکه رفع آن پارادوکس ها و سوالات است. اما از طرف دیگر تاریخ نشان داده گسترش مفاهیم ریاضی همواره کاربرد های جدید پیدا کرده است. انگار ریاضیات به ما ابزارهای جدید برای شکافتن حتی حقایق فیزیکی را هم می دهند.
اخیرا با یکی از همین جهش های عجیب آشنا شدم که من را بسیار با خود درگیر کرده است. در درس حسابان با مفهوم مشتق آشنا می شویم مشتق در ساده ترین حالت خود چیزی جز زاویه ی خط در یک نقطه نیست. مشتق دوم میزان تحدب و تعقر را اندازه می گیرد و مشتق های بالاتر اطلاعات بیشتر (هرچند تفسیر آن ها سخت است) مشتق گرفتن همواره یک عملیات عدد درست تلقی می شد: یعنی مثلا مشتق اول و دوم و سوم داریم اما مشتق سه چهارم نداریم! چنین چیزی بی معنی است! اما آیا واقعا بی معناست؟
جالب است که این سوال را خود لایبنیتز پرسید که خودش مشتق را کشف کرد. با این حال لایبنتیز متوجه پارادوکس هایی در مورد این مساله شد. با این حال نوشت: مشتق کسری منجر به پارادوکس می شود اما روزی نتایج مفیدی از آن استخراج می شود.
اما پارادوکس مشتق کسری چیست؟ ابتدا بیایید ببینیم چطور چنین چیزی استخراج می شود.
(ادامه دارد..)