حملهی OpenAI به قلمرو MultiModal
شرکت OpenAI (اگر نمیشناسیدش، مدلهای جیپیتی را این شرکت داده) سهشنبه شب از دو مدل CLIP و DALL-E رونمایی کرد.
به صورت ساده و مختصر؛ مدل CLIP یک عکس و چند کلاس میگیرد و به صورت zero shot تشخیص میدهد عکس متعلق به کدام کلاس است.
و مدل DALL-E یک ترنسفورمر با ۱۲ میلیارد پارامتر است که یک متن (کپشن) میگیرد و تصویری متناسب با متن را تولید میکند.
این دو بلاگ و ویدیو توضیحاتی راجع به این مدلها دادند. درون بلاگ میتوانید نمونههایی از خروجیها را ببینید.
قبلا در این پست (https://t.iss.one/nlp_stuff/108) مقالهای را توضیح داده بودیم که گفته بود یکی از ترندهای بعدی، حوزهی مولتی مودال (ترکیبی از حوزههای مختلف مثل تصویر و متن) خواهد بود.
نتایج حیرتانگیز و زبان قاصر از توصیف است!
https://openai.com/blog/clip/
https://openai.com/blog/dall-e/
https://www.youtube.com/watch?v=j4xgkjWlfL4
#fresh
#blog
#read
@nlp_stuff
شرکت OpenAI (اگر نمیشناسیدش، مدلهای جیپیتی را این شرکت داده) سهشنبه شب از دو مدل CLIP و DALL-E رونمایی کرد.
به صورت ساده و مختصر؛ مدل CLIP یک عکس و چند کلاس میگیرد و به صورت zero shot تشخیص میدهد عکس متعلق به کدام کلاس است.
و مدل DALL-E یک ترنسفورمر با ۱۲ میلیارد پارامتر است که یک متن (کپشن) میگیرد و تصویری متناسب با متن را تولید میکند.
این دو بلاگ و ویدیو توضیحاتی راجع به این مدلها دادند. درون بلاگ میتوانید نمونههایی از خروجیها را ببینید.
قبلا در این پست (https://t.iss.one/nlp_stuff/108) مقالهای را توضیح داده بودیم که گفته بود یکی از ترندهای بعدی، حوزهی مولتی مودال (ترکیبی از حوزههای مختلف مثل تصویر و متن) خواهد بود.
نتایج حیرتانگیز و زبان قاصر از توصیف است!
https://openai.com/blog/clip/
https://openai.com/blog/dall-e/
https://www.youtube.com/watch?v=j4xgkjWlfL4
#fresh
#blog
#read
@nlp_stuff
یکی از تسکهای اولیه و مهم در پردازش زبان طبیعی، تشخیص اسامی خاص یا همون NER است که یک مرحله مقدماتی برای خیلی از تسکهای دیگهست.
محمدمهدی برامون در این پست ویرگول، به صورت کامل از ابتدا تا انتهای این تسک (تعریف، مدلها، دیتاستها و ...) را توضیح داده. حتی اگر هیچ آشنایی با این موضوع نداشته باشید، این نوشتار براتون مباحث را به شکل نیکویی روشن میکنه. لطفا نظر بدید و با بقیه هم به اشتراک بذارید.
پ.ن. شما هم اگر پست خوبی در زمینهی هوش مصنوعی و پردازش زبان دارید، به ما خبر بدید که در انتشارات اورفیت منتشر کنیم.
https://vrgl.ir/OvlJR
#read
#blog
#overfit
@nlp_stuff
محمدمهدی برامون در این پست ویرگول، به صورت کامل از ابتدا تا انتهای این تسک (تعریف، مدلها، دیتاستها و ...) را توضیح داده. حتی اگر هیچ آشنایی با این موضوع نداشته باشید، این نوشتار براتون مباحث را به شکل نیکویی روشن میکنه. لطفا نظر بدید و با بقیه هم به اشتراک بذارید.
پ.ن. شما هم اگر پست خوبی در زمینهی هوش مصنوعی و پردازش زبان دارید، به ما خبر بدید که در انتشارات اورفیت منتشر کنیم.
https://vrgl.ir/OvlJR
#read
#blog
#overfit
@nlp_stuff
ویرگول
داستان نامداران: یافتن اسامی خاص!
برای یافتن اسامی خاص توی متن با استفاده از یادگیری ماشین این پست رو بخونین
شیرجه عمیق به دیپ لرنینگ
بر شما باد چسبیدن به این سایت برای یادگیری دیپ لرنینگ.
کتاب کامل و جامع، نوتبوکهای پیادهسازی شده با چند فریمورک (NumPy/MXNet و PyTorch و TensorFlow)، کورس رایگان و بهروز برای کتاب از ویژگیهاشه.
مخصوصا فصلهای ۱۰، ۱۴ و ۱۵اش به افرادی که دیپ بلدند و دوست دارند در حوزهی NLP وارد شن توصیه میشه. در فصل ۱۰ معماری اتنشن و ترنسفورمرها را توضیح دادند و در فصل ۱۴ و ۱۵ پیشپردازش، آموزش و فاین تیون کردن تسکهای NLP را آوردند.
خلاصه از این بهتر بعید میدونم چیزی پیدا کنید؛ پس تنبلی و وسواس را کنار بذارید و شروع کنید.
https://d2l.ai
#coach
#course
#book
@nlp_stuff
بر شما باد چسبیدن به این سایت برای یادگیری دیپ لرنینگ.
کتاب کامل و جامع، نوتبوکهای پیادهسازی شده با چند فریمورک (NumPy/MXNet و PyTorch و TensorFlow)، کورس رایگان و بهروز برای کتاب از ویژگیهاشه.
مخصوصا فصلهای ۱۰، ۱۴ و ۱۵اش به افرادی که دیپ بلدند و دوست دارند در حوزهی NLP وارد شن توصیه میشه. در فصل ۱۰ معماری اتنشن و ترنسفورمرها را توضیح دادند و در فصل ۱۴ و ۱۵ پیشپردازش، آموزش و فاین تیون کردن تسکهای NLP را آوردند.
خلاصه از این بهتر بعید میدونم چیزی پیدا کنید؛ پس تنبلی و وسواس را کنار بذارید و شروع کنید.
https://d2l.ai
#coach
#course
#book
@nlp_stuff
و همچنان اندر جادوی CLIP
مطلب جالبی راجع به مدل کلیپ (https://t.iss.one/nlp_stuff/114) اینه که در حین آموزش یک سری تسک تصویری دیگه مثل OCR و Action Recognition را هم به صورت zero shot یاد گرفته.
قبلا مدلهای جیپیتی هم در مورد تسکهای زبانی همینطور بودند.
برای مثال در بخش ۶ (Limitations) مقالهشون اومدند گفتند که ما هیچ تصویری از MNIST در دیتامون نداشتیم ولی تونستیم به صورت zero shot دقت ۸۸ (که البته دقت خوبی نیست) را روی این دیتاست بدست بیاریم!
در این لینک میتونید تصویر دلخواهتون را به صورت zero shot دستهبندی کنید:
https://clip.kiri.ai
اینم لینک مقالهاش:
https://cdn.openai.com/papers/Learning_Transferable_Visual_Models_From_Natural_Language_Supervision.pdf
#read
#paper
@nlp_stuff
مطلب جالبی راجع به مدل کلیپ (https://t.iss.one/nlp_stuff/114) اینه که در حین آموزش یک سری تسک تصویری دیگه مثل OCR و Action Recognition را هم به صورت zero shot یاد گرفته.
قبلا مدلهای جیپیتی هم در مورد تسکهای زبانی همینطور بودند.
برای مثال در بخش ۶ (Limitations) مقالهشون اومدند گفتند که ما هیچ تصویری از MNIST در دیتامون نداشتیم ولی تونستیم به صورت zero shot دقت ۸۸ (که البته دقت خوبی نیست) را روی این دیتاست بدست بیاریم!
در این لینک میتونید تصویر دلخواهتون را به صورت zero shot دستهبندی کنید:
https://clip.kiri.ai
اینم لینک مقالهاش:
https://cdn.openai.com/papers/Learning_Transferable_Visual_Models_From_Natural_Language_Supervision.pdf
#read
#paper
@nlp_stuff
هاگینگ فیس و AutoNLP
هاگینگ فیس یک کتابخونهی AutoNLP داره آماده میکنه که به صورت خودکار مدل، فاین تیون کردن روی دیتا و دیپلویمنت مدل را برای تسکهای مختلفی مثل classification, NER, summarization, translation به راحتی خوردن یک لیوان آب سالم میکنه و قراره در سه ماههی اول ۲۰۲۱ release بشه.
لینک پایین را هم دادند که ملت ثبت نام کنند و بگن که برای چه زبان و تسکی و اینا میخوان استفاده کنند که به نسخه بتا بهشون دسترسی بده.
https://huggingface.typeform.com/to/FAtsVfbg
#news
@nlp_stuff
هاگینگ فیس یک کتابخونهی AutoNLP داره آماده میکنه که به صورت خودکار مدل، فاین تیون کردن روی دیتا و دیپلویمنت مدل را برای تسکهای مختلفی مثل classification, NER, summarization, translation به راحتی خوردن یک لیوان آب سالم میکنه و قراره در سه ماههی اول ۲۰۲۱ release بشه.
لینک پایین را هم دادند که ملت ثبت نام کنند و بگن که برای چه زبان و تسکی و اینا میخوان استفاده کنند که به نسخه بتا بهشون دسترسی بده.
https://huggingface.typeform.com/to/FAtsVfbg
#news
@nlp_stuff
موضوعات برجسته تحقیقاتی در ۲۰۲۰ از نظر رودر
برادر رودر در این پست راجع به ریسرچهای انجامشده در زمینه یادگیری ماشین و پردازش زبان در سال ۲۰۲۰ صحبت کردن. چیزایی مثل این که چه اتفاقاتی در این حوزهها افتاده و گام بعدی در سال ۲۰۲۱ چیه و اینا. موضوعات مورد بحث تو این پست به صورت تیتروار ایناست:
Scaling up—and down
Retrieval augmentation
Few-shot learning
Contrastive learning
Evaluation beyond accuracy
Practical concerns of large LMs
Multilinguality
Image Transformers
ML for science
Reinforcement learning
این مطلب خیلی تازهست و مال همین امروزه (۱۹ ژانویه)؛ پس داغ داغ بخونید تا بیات نشده.
https://ruder.io/research-highlights-2020/
#read
#blog
@nlp_stuff
برادر رودر در این پست راجع به ریسرچهای انجامشده در زمینه یادگیری ماشین و پردازش زبان در سال ۲۰۲۰ صحبت کردن. چیزایی مثل این که چه اتفاقاتی در این حوزهها افتاده و گام بعدی در سال ۲۰۲۱ چیه و اینا. موضوعات مورد بحث تو این پست به صورت تیتروار ایناست:
Scaling up—and down
Retrieval augmentation
Few-shot learning
Contrastive learning
Evaluation beyond accuracy
Practical concerns of large LMs
Multilinguality
Image Transformers
ML for science
Reinforcement learning
این مطلب خیلی تازهست و مال همین امروزه (۱۹ ژانویه)؛ پس داغ داغ بخونید تا بیات نشده.
https://ruder.io/research-highlights-2020/
#read
#blog
@nlp_stuff
ruder.io
ML and NLP Research Highlights of 2020
This post summarizes progress in 10 exciting and impactful directions in ML and NLP in 2020.
This media is not supported in your browser
VIEW IN TELEGRAM
اکستنشن ویدیوی arxiv
برادر آمیت برادری را در حقمون تکمیل کرده و یه اکستنشن روی کروم زده که از مقالهی arxiv لینک میده به ویدیوی ارائهی مقاله.
لینک اکستنشن، گیت و لیست مقالههایی که ویدیوشون را اضافه کرده در ادامه آوردیم:
https://chrome.google.com/webstore/detail/papers-with-video/aflnhgmklenfljibnfellgkmdpmmoekf
https://github.com/amitness/papers-with-video
https://gist.github.com/amitness/9e5ad24ab963785daca41e2c4cfa9a82
#tool
@nlp_stuff
برادر آمیت برادری را در حقمون تکمیل کرده و یه اکستنشن روی کروم زده که از مقالهی arxiv لینک میده به ویدیوی ارائهی مقاله.
لینک اکستنشن، گیت و لیست مقالههایی که ویدیوشون را اضافه کرده در ادامه آوردیم:
https://chrome.google.com/webstore/detail/papers-with-video/aflnhgmklenfljibnfellgkmdpmmoekf
https://github.com/amitness/papers-with-video
https://gist.github.com/amitness/9e5ad24ab963785daca41e2c4cfa9a82
#tool
@nlp_stuff
مصورسازی نحوه انتخاب کلمه توسط ترنسفورمر
آقای العمار در این قسمت با ویژوالایز کردن حالتهای نهان داخل ترنسفورمر نشون میده که فرآیند انتخاب یک کلمه در ترنسفورمر، لایه به لایه چه شکلیه و چطور رتبه کلمه نهایی بین بقیه کلمات در مسیر لایهها کاهش پیدا میکنه. به قول خودش میخواد فرآیند فکری ترنسفورمرها را بررسی کنه. یکی دو تا نوتبوک هم برامون گذشته اگر حوصله داشتیم باهاش ور بریم.
انصافا توضیحات و ویژوالایزهایی که تو این قسمت کرده خیلی جذابن! اگر گیر درس و امتحان نیستید، از دستشون ندید.
قبلا هم از این یکی داداشمون پست (https://t.iss.one/nlp_stuff/106) گذاشتیم.
https://jalammar.github.io/hidden-states/
پ.ن. برای دوستاتون که به NLP یا ویژوالیزیشن علاقهمندند بفرستید که کیف کنند.
#read
#blog
@nlp_stuff
آقای العمار در این قسمت با ویژوالایز کردن حالتهای نهان داخل ترنسفورمر نشون میده که فرآیند انتخاب یک کلمه در ترنسفورمر، لایه به لایه چه شکلیه و چطور رتبه کلمه نهایی بین بقیه کلمات در مسیر لایهها کاهش پیدا میکنه. به قول خودش میخواد فرآیند فکری ترنسفورمرها را بررسی کنه. یکی دو تا نوتبوک هم برامون گذشته اگر حوصله داشتیم باهاش ور بریم.
انصافا توضیحات و ویژوالایزهایی که تو این قسمت کرده خیلی جذابن! اگر گیر درس و امتحان نیستید، از دستشون ندید.
قبلا هم از این یکی داداشمون پست (https://t.iss.one/nlp_stuff/106) گذاشتیم.
https://jalammar.github.io/hidden-states/
پ.ن. برای دوستاتون که به NLP یا ویژوالیزیشن علاقهمندند بفرستید که کیف کنند.
#read
#blog
@nlp_stuff
آنچه بنجیو در خشت خام میبیند
یاشوا بنجیو که (انصافا) یکی از خدایگان هوش مصنوعی و دیپ لرنینگ است، از یکی دو سال پیش به تدریج در تاکهای مختلف (مثلا اینجا و اینجا و اینجا و اینجا) ایدههای خود برای پیشرفت آینده هوش مصنوعی را شرح داده است. ایدههای او بر بناکردن inductive biasهای جدیدی (به طور خیلی خلاصه و مفید inductive bias همان فرضیاتی که یک الگوریتم یادگیری قبل از حل مساله در مورد آن در نظر میگیرد و راه حلش روی آن فرض بنا شده است، برای مثال وقتی ما فرض میکنیم که معنای یک تیکه از تصویر میتواند از تیکههای مجاورش دریافت شود این فرض ما منجر به بناشدن شبکههای cnnای میشود) برای دیپ لرنینگ حول کلیدواژه مهم out of distribution generalization (تا الان بدین شکل بوده که مدل ما یک توزیع از دادههای آموزشی در میآورده و نهایتا با کمی تغییر دنبال این توزیع در دادههای تست بوده است. اما شیخ ما اعتقاد دارد بایستی از این به بعد تغییرات گسترده در دادههای تست نسبت به توزیع دادههای آموزش را هم بتواند تحمل کند. مثلا باید یادگرفتن را یادبگیرد تا اگر توزیع محیطش تغییری هم کرد بتواند خودش را با آن وفق دهد!) بنا شده است.
به طور مختصر و مفید؛ پیر ما معتقد است که تسکهایی را که مغز انسان انجام میدهد میتوان به دسته سیستم ۱ و سیستم ۲ تقسیم بندی کرد. تسکهای سیستم ۱ مسائلی هستند که به صورت ناخودآگاه و البته سریع و بدون نیاز به تفکر قابل انجام توسط مغز هستند مثلا تشخیص خر از پنگوئن، تشخیص ناسزا از غیرناسزا و ... ، حال ان که تسکهای سیستم ۲ بایستی با توجه و برنامهریزی و البته آگاهانه انجام شوند مثلا رانندگی کردن.
بنجیو میگوید که توانایی فعلی دیپ لرنینگ در انجام دادن تسکهای سیستم ۱ است و در سیستم ۲ توفیقی هنوز ندارد. در ادامه بنجیو پیشنهاد میدهد که آینده هوش مصنوعی درگیر با انجام تسکهای سیستم ۲ و همچنین همان کلیدواژه out of distribution generalization خواهد بود.
بر اساس همین ایده اولیه، بنجیو تعدادی ایده برای الهامگیری و شکستن بنبست فعلی پیشرفت دیپ لرنینگ پیشنهاد میکند که از آنها میتوان به بررسی مسائل multi agent، خلق شبکههای عصبی با ویژگی ماژولاریزیشن نظیر RIMها، دیدن مسائل از زاویه گرافهای علی (causal) متغیرها، متالرنینگ و ... اشاره کرد.
لینک مقالهاش:
https://arxiv.org/pdf/2011.15091.pdf
پ.ن. لطفا کانال را به کسایی که هوش مصنوعی دوست دارند، معرفی کنید! ممنون.
#paper
#read
@nlp_stuff
یاشوا بنجیو که (انصافا) یکی از خدایگان هوش مصنوعی و دیپ لرنینگ است، از یکی دو سال پیش به تدریج در تاکهای مختلف (مثلا اینجا و اینجا و اینجا و اینجا) ایدههای خود برای پیشرفت آینده هوش مصنوعی را شرح داده است. ایدههای او بر بناکردن inductive biasهای جدیدی (به طور خیلی خلاصه و مفید inductive bias همان فرضیاتی که یک الگوریتم یادگیری قبل از حل مساله در مورد آن در نظر میگیرد و راه حلش روی آن فرض بنا شده است، برای مثال وقتی ما فرض میکنیم که معنای یک تیکه از تصویر میتواند از تیکههای مجاورش دریافت شود این فرض ما منجر به بناشدن شبکههای cnnای میشود) برای دیپ لرنینگ حول کلیدواژه مهم out of distribution generalization (تا الان بدین شکل بوده که مدل ما یک توزیع از دادههای آموزشی در میآورده و نهایتا با کمی تغییر دنبال این توزیع در دادههای تست بوده است. اما شیخ ما اعتقاد دارد بایستی از این به بعد تغییرات گسترده در دادههای تست نسبت به توزیع دادههای آموزش را هم بتواند تحمل کند. مثلا باید یادگرفتن را یادبگیرد تا اگر توزیع محیطش تغییری هم کرد بتواند خودش را با آن وفق دهد!) بنا شده است.
به طور مختصر و مفید؛ پیر ما معتقد است که تسکهایی را که مغز انسان انجام میدهد میتوان به دسته سیستم ۱ و سیستم ۲ تقسیم بندی کرد. تسکهای سیستم ۱ مسائلی هستند که به صورت ناخودآگاه و البته سریع و بدون نیاز به تفکر قابل انجام توسط مغز هستند مثلا تشخیص خر از پنگوئن، تشخیص ناسزا از غیرناسزا و ... ، حال ان که تسکهای سیستم ۲ بایستی با توجه و برنامهریزی و البته آگاهانه انجام شوند مثلا رانندگی کردن.
بنجیو میگوید که توانایی فعلی دیپ لرنینگ در انجام دادن تسکهای سیستم ۱ است و در سیستم ۲ توفیقی هنوز ندارد. در ادامه بنجیو پیشنهاد میدهد که آینده هوش مصنوعی درگیر با انجام تسکهای سیستم ۲ و همچنین همان کلیدواژه out of distribution generalization خواهد بود.
بر اساس همین ایده اولیه، بنجیو تعدادی ایده برای الهامگیری و شکستن بنبست فعلی پیشرفت دیپ لرنینگ پیشنهاد میکند که از آنها میتوان به بررسی مسائل multi agent، خلق شبکههای عصبی با ویژگی ماژولاریزیشن نظیر RIMها، دیدن مسائل از زاویه گرافهای علی (causal) متغیرها، متالرنینگ و ... اشاره کرد.
لینک مقالهاش:
https://arxiv.org/pdf/2011.15091.pdf
پ.ن. لطفا کانال را به کسایی که هوش مصنوعی دوست دارند، معرفی کنید! ممنون.
#paper
#read
@nlp_stuff
YouTube
Yoshua Bengio: Deep Learning Cognition | Full Keynote - AI in 2020 & Beyond
Yoshua Bengio, considered one of the 'Godfathers of Artificial Intelligence' discusses Recurrent independent mechanisms, sample complexity, end-to-end adaptation, multivariate categorical MLP conditionals and more.
When summarising his talk, Professor Bengio…
When summarising his talk, Professor Bengio…
👍2
سایت paperswithcode (که توصیه میکنیم توی این سایت بخوابید) اومده مقالههای قبول شدهی ICLR 2021 را به همراه کدشون گذاشته و میتونید با استفاده از تسک و نویسنده و keyword فیلتر کنید.
https://paperswithcode.com/conference/iclr-2021-1
#link
@nlp_stuff
https://paperswithcode.com/conference/iclr-2021-1
#link
@nlp_stuff
This media is not supported in your browser
VIEW IN TELEGRAM
توضیح خلاصهی ViT
در چند روز اخیر سیلی عظیمی از مدلهای ترنسفورمری برای vision به راه افتادهاند. اگر هنوز مقاله An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale را نخوندید و حوصله خوندن پیپرش را هم هنوز ندارید، ده دقیقه این پست را مشاهده کنید تا بفهمید چه خبره و از قافله بعدی عقب نمونید.
https://theaisummer.com/vision-transformer/
پ.ن. قبلا این مقاله را در این پست (https://t.iss.one/nlp_stuff/82) معرفی کرده بودیم.
#read
#blog
@nlp_stuff
در چند روز اخیر سیلی عظیمی از مدلهای ترنسفورمری برای vision به راه افتادهاند. اگر هنوز مقاله An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale را نخوندید و حوصله خوندن پیپرش را هم هنوز ندارید، ده دقیقه این پست را مشاهده کنید تا بفهمید چه خبره و از قافله بعدی عقب نمونید.
https://theaisummer.com/vision-transformer/
پ.ن. قبلا این مقاله را در این پست (https://t.iss.one/nlp_stuff/82) معرفی کرده بودیم.
#read
#blog
@nlp_stuff
طوفان برت، speech را هم در نوردید!
مدلهای پیشرو در مبحث بازشناسی گفتار (تبدیل گفتار به متن) مثل این مقاله تا به امروز معمولا برای اینکه بازشناسی به صورت انتها به انتها انجام شود، از پشتهای از لایههای کانولوشنی برای مدلسازی گفتار استفاده میکردند و مدل زبانی به عنوان بخشی از تابع هزینه در نظر گرفته میشد؛ به این صورت که لایه آخر به ازای هر حرف در دیکشنری یه امتیاز برمیگردوند و این امتیاز با امتیاز مدل زبانی ترکیب میشد و حرف بازشناسیشده معین میشد.
حالا داداشای تایوانیمون در مقالهی زیر اومدند و گفتند که اصل داستان مدل زبانیه و مدلسازی صوت، نمک قضیه ست! میشه مدل زبانی را به صورت main stream هم در تسک آورد یعنی بخشی از معماری شبکه باشد و نه فقط در تابع هزینه! چه طوری؟ با برت.
نتیجه اینکه مدل زبانی، تعداد انتخاب در هر لحظه رو به شدت کاهش میده و مدل گفتار میشه یه شبکه ساده که قراره از بین اون انتخابهای بسیار کوچیک حالا انتخاب کنه. فاین تیون کردنش هم خیلی راحتتره.
خلاصه اینکه ماهیت تسک انتها به انتهاتر و هلو شده! این اتفاق بار دیگه داره جایگاه مهم مدل زبانی را حتی در مباحث گفتار پردازی ثابت میکنه!
لینک مقاله:
https://arxiv.org/pdf/2102.00291.pdf
#paper
#read
.
@nlp_stuff
مدلهای پیشرو در مبحث بازشناسی گفتار (تبدیل گفتار به متن) مثل این مقاله تا به امروز معمولا برای اینکه بازشناسی به صورت انتها به انتها انجام شود، از پشتهای از لایههای کانولوشنی برای مدلسازی گفتار استفاده میکردند و مدل زبانی به عنوان بخشی از تابع هزینه در نظر گرفته میشد؛ به این صورت که لایه آخر به ازای هر حرف در دیکشنری یه امتیاز برمیگردوند و این امتیاز با امتیاز مدل زبانی ترکیب میشد و حرف بازشناسیشده معین میشد.
حالا داداشای تایوانیمون در مقالهی زیر اومدند و گفتند که اصل داستان مدل زبانیه و مدلسازی صوت، نمک قضیه ست! میشه مدل زبانی را به صورت main stream هم در تسک آورد یعنی بخشی از معماری شبکه باشد و نه فقط در تابع هزینه! چه طوری؟ با برت.
نتیجه اینکه مدل زبانی، تعداد انتخاب در هر لحظه رو به شدت کاهش میده و مدل گفتار میشه یه شبکه ساده که قراره از بین اون انتخابهای بسیار کوچیک حالا انتخاب کنه. فاین تیون کردنش هم خیلی راحتتره.
خلاصه اینکه ماهیت تسک انتها به انتهاتر و هلو شده! این اتفاق بار دیگه داره جایگاه مهم مدل زبانی را حتی در مباحث گفتار پردازی ثابت میکنه!
لینک مقاله:
https://arxiv.org/pdf/2102.00291.pdf
#paper
#read
.
@nlp_stuff
Telegram
stuff
یادگیری بازنمایی مشترک تصویر-متن!
در طی سالیان اخیر، مدلهای از پیشآموزش دیده نظیر برت و یا Resnet کاربردهای فراوانی در یادگیری ژرف داشتند. رسالت این مدلها اینه که با گرفتن یک ورودی (برای برت متن و برای resnet تصویر) یک بردار را به عنوان بازنمایی اون ورودی در خروجی تحویل بدن. هفته پیش مقالهای منتشر شده که سعی کرده این عمل کد کردن را در یک فضای مشترک انجام بده. به بیان بهتر کاری کنه که شما چه تصویر بهش ورودی بدی و چه متن، بیاد یک بازنمایی را در یک فضای مشترک بین تصویر و متن برگردونه. برای مثال وقتی بهش عکس گربه با کاموا میدید و وقتی بهش متن «گربه مشغول بازی با کاموا» بهش میدید، رپرزنتیشنهایی را براتون برگردونه که از لحاظ برداری بهم نزدیک باشند و در واقع متعلق به یک فضای مشترک هستند. مشابه این کار قبلا در مقالههای دیگه مثل CLIP انجام شده، اما تفاوت این مقاله فعلی با CLIP در اینه که بر خلاف CLIP از دیتای تمیزنشده و نویزی زوج تصویر و متنهای کپشن استفاده کرده که طبیعتا با این آسونگیری در فیلتر دادههاش، حجم دیتاستش بسیار زیاد شده. روش آموزشش هم به طور خلاصه به این صورت بوده تصویر و متن مربوط رو به معماریهای EfficientNet و Bert داده و بعدش با ایده Self-Supervised Learning سعی کرده رپرزنتیشنهای حاصل از این دو معماری برای این زوج مربوط رو به هم نزدیک کنه.
نکته جالب مقاله اما در آزمایشها و خروجیهاییه که انتشار داده. در یک آزمایشش سعی کرده تسک بازیابی تصویر (با توجه به یک متن ورودی)را انجام بده و در آزمایش جالب دیگهاش هم سعی کرده با جمع یا تفریق کردن رپرزنتیشن یک کلمه روی رپرزنتیشن یک تصویر، نشون بده که تصویرش (تصویر معادل رپرزنتیشن حاصلشده) چه تغییری میکنه. دو تا تصاویر برای این دو تا آزمایش ضمیمه شدند (برای دیدن جفتش در گوشی ورق بزنید!!).
خواندن این مقاله برای اونهایی که علاقه مند به حوزه Multi-Modal هستند، خالی از لطف نیست.
لینک مقاله:
https://arxiv.org/abs/2102.05918
.
پ.ن. اگر نمیدونید مدل CLIP چیه، پست https://t.iss.one/nlp_stuff/121 را ببینید.
#read
#paper
@nlp_sutuff
در طی سالیان اخیر، مدلهای از پیشآموزش دیده نظیر برت و یا Resnet کاربردهای فراوانی در یادگیری ژرف داشتند. رسالت این مدلها اینه که با گرفتن یک ورودی (برای برت متن و برای resnet تصویر) یک بردار را به عنوان بازنمایی اون ورودی در خروجی تحویل بدن. هفته پیش مقالهای منتشر شده که سعی کرده این عمل کد کردن را در یک فضای مشترک انجام بده. به بیان بهتر کاری کنه که شما چه تصویر بهش ورودی بدی و چه متن، بیاد یک بازنمایی را در یک فضای مشترک بین تصویر و متن برگردونه. برای مثال وقتی بهش عکس گربه با کاموا میدید و وقتی بهش متن «گربه مشغول بازی با کاموا» بهش میدید، رپرزنتیشنهایی را براتون برگردونه که از لحاظ برداری بهم نزدیک باشند و در واقع متعلق به یک فضای مشترک هستند. مشابه این کار قبلا در مقالههای دیگه مثل CLIP انجام شده، اما تفاوت این مقاله فعلی با CLIP در اینه که بر خلاف CLIP از دیتای تمیزنشده و نویزی زوج تصویر و متنهای کپشن استفاده کرده که طبیعتا با این آسونگیری در فیلتر دادههاش، حجم دیتاستش بسیار زیاد شده. روش آموزشش هم به طور خلاصه به این صورت بوده تصویر و متن مربوط رو به معماریهای EfficientNet و Bert داده و بعدش با ایده Self-Supervised Learning سعی کرده رپرزنتیشنهای حاصل از این دو معماری برای این زوج مربوط رو به هم نزدیک کنه.
نکته جالب مقاله اما در آزمایشها و خروجیهاییه که انتشار داده. در یک آزمایشش سعی کرده تسک بازیابی تصویر (با توجه به یک متن ورودی)را انجام بده و در آزمایش جالب دیگهاش هم سعی کرده با جمع یا تفریق کردن رپرزنتیشن یک کلمه روی رپرزنتیشن یک تصویر، نشون بده که تصویرش (تصویر معادل رپرزنتیشن حاصلشده) چه تغییری میکنه. دو تا تصاویر برای این دو تا آزمایش ضمیمه شدند (برای دیدن جفتش در گوشی ورق بزنید!!).
خواندن این مقاله برای اونهایی که علاقه مند به حوزه Multi-Modal هستند، خالی از لطف نیست.
لینک مقاله:
https://arxiv.org/abs/2102.05918
.
پ.ن. اگر نمیدونید مدل CLIP چیه، پست https://t.iss.one/nlp_stuff/121 را ببینید.
#read
#paper
@nlp_sutuff
Telegram
stuff
ترجمه ماشینی بین ۵۰ زبان
تیم Facebook AI مدل mBART-50 را روی هاگینگفیس گذاشت. با این مدل میتونید هر متنی را بین هر جفتی از پنجاه تا زبان (که فارسی هم داره) ترجمه کنید.
یه نمونه مقایسه هم بین سرویس ترجمه گوگل و این مدل فیسبوک گذاشتیم (برای دیدن عکس دوم در گوشی ورق بزنید!!) که نشون میده تنه به تنهی گوگل داره میزنه!
لینک مقاله و مدل:
https://arxiv.org/abs/2008.00401v1
https://huggingface.co/models?filter=mbart-50
این ویدیو هم برای نحوهی استفاده ازش موجوده. اگر اعصابتون لهجه هندی را میکشه، ببینید.
https://www.youtube.com/watch?v=fxZtz0LPJLE
#news
#link
@nlp_stuff
تیم Facebook AI مدل mBART-50 را روی هاگینگفیس گذاشت. با این مدل میتونید هر متنی را بین هر جفتی از پنجاه تا زبان (که فارسی هم داره) ترجمه کنید.
یه نمونه مقایسه هم بین سرویس ترجمه گوگل و این مدل فیسبوک گذاشتیم (برای دیدن عکس دوم در گوشی ورق بزنید!!) که نشون میده تنه به تنهی گوگل داره میزنه!
لینک مقاله و مدل:
https://arxiv.org/abs/2008.00401v1
https://huggingface.co/models?filter=mbart-50
این ویدیو هم برای نحوهی استفاده ازش موجوده. اگر اعصابتون لهجه هندی را میکشه، ببینید.
https://www.youtube.com/watch?v=fxZtz0LPJLE
#news
#link
@nlp_stuff
Telegram
stuff
TransGan: Transformers + GAN
پس از ماجراجویی ترنسفورمرها در مسائل دستهبندی، تشخیص اشیا و قطعهبندی در حوزه پردازش تصویر، حالا بالاخره نوبت به تولید تصویر رسیده است که با ترنسفورمرها آشنا شود. دوستانمون در این مقاله یک مدل تولید تصویر به کل ترنسفورمری و البته چندین آزمایش جالب انجام دادهاند.
نکته قابل توجه در رابطه با معماری قسمت جنریتور این مدل، در اینه که ابتدا با تعداد پچهای کم و با اندازه بالا شروع میکنه و بعد از اعمال هر لایه انکودر ترنسفورمر، تعداد تکهها را دو برابر و البته اندازه اونها را نصف میکنه. در نهایت هم از روی خروجی آخرین انکودر مقادیر rgb پیکسلها را به دست میاره. قسمت دیسکریمینیتور این مقاله هم مشابه همون مقاله ViT است.
اما نکات جالب این مقاله به اختصار:
۱- در مقایسه سه حالت مختلف بین ترکیب جنریتور و دسکریمینتورهای مختلف cnnای یا ترنسفورمری، مقایسه انجام داده و نشون داده که ترکیب جنریتور ترنسفورمری و دیسکریمینتور cnnای بهترین عملکرد را داره.
۲- نکته دوم در وابستگی شدید مدل ترنسفورمری به دیتا آگمنتیشن است که این مقاله نشون داده مدل ترنسفورمری نسبت به مشابه های cnnای خودش به شدت به دیتا اگمنتیشن گشنهتره.
۳-نکته و ابتکار بعدی این مدل اما در ارائه یک تسک سوپررزولوشن کردن تصویر برای قسمت جنریتور است که با مالتی تسک کردن این تسک با تسک تولید تصویر نشون داده که عملکردش بهبود پیدا کرده.
۴-اما ابتکار دیگهاش که بیشتر به چشم ما اومد: همونطور که میدونید معماری ترنسفورمری نسبت به cnn سوگیری القایی (inductive bias) مکانی (locality) را نداره و برای همین حدس زده میشه که در تسک تولید تصویر هم نتونه پیوستگی خوبی بین پیکسل ها و نواحی همسایه به دست بیاره. از همین رو این مدل یک پیشنهاد جالب داشته، به این صورت که در فرآیند آموزش جنریتورش، هر ناحیه ابتدا صرفا به نواحی دور و بر خودش میتونسته attend کنه و بعدش به مرور نواحی بیشتر از ماسک درمیان و به اونها هم میتونه attention داشته باشه. این ایده هم نشون داده شده که تونسته عملکرد مدل را بهبود بده.
(برای دیدن عکسها در گوشی ورق بزنید.)
لینک مقاله:
https://arxiv.org/abs/2102.07074
.
لینک یوتوب توضیح مقاله:
https://www.youtube.com/watch?v=R5DiLFOMZrc
#read
#paper
@nlp_stuff
پس از ماجراجویی ترنسفورمرها در مسائل دستهبندی، تشخیص اشیا و قطعهبندی در حوزه پردازش تصویر، حالا بالاخره نوبت به تولید تصویر رسیده است که با ترنسفورمرها آشنا شود. دوستانمون در این مقاله یک مدل تولید تصویر به کل ترنسفورمری و البته چندین آزمایش جالب انجام دادهاند.
نکته قابل توجه در رابطه با معماری قسمت جنریتور این مدل، در اینه که ابتدا با تعداد پچهای کم و با اندازه بالا شروع میکنه و بعد از اعمال هر لایه انکودر ترنسفورمر، تعداد تکهها را دو برابر و البته اندازه اونها را نصف میکنه. در نهایت هم از روی خروجی آخرین انکودر مقادیر rgb پیکسلها را به دست میاره. قسمت دیسکریمینیتور این مقاله هم مشابه همون مقاله ViT است.
اما نکات جالب این مقاله به اختصار:
۱- در مقایسه سه حالت مختلف بین ترکیب جنریتور و دسکریمینتورهای مختلف cnnای یا ترنسفورمری، مقایسه انجام داده و نشون داده که ترکیب جنریتور ترنسفورمری و دیسکریمینتور cnnای بهترین عملکرد را داره.
۲- نکته دوم در وابستگی شدید مدل ترنسفورمری به دیتا آگمنتیشن است که این مقاله نشون داده مدل ترنسفورمری نسبت به مشابه های cnnای خودش به شدت به دیتا اگمنتیشن گشنهتره.
۳-نکته و ابتکار بعدی این مدل اما در ارائه یک تسک سوپررزولوشن کردن تصویر برای قسمت جنریتور است که با مالتی تسک کردن این تسک با تسک تولید تصویر نشون داده که عملکردش بهبود پیدا کرده.
۴-اما ابتکار دیگهاش که بیشتر به چشم ما اومد: همونطور که میدونید معماری ترنسفورمری نسبت به cnn سوگیری القایی (inductive bias) مکانی (locality) را نداره و برای همین حدس زده میشه که در تسک تولید تصویر هم نتونه پیوستگی خوبی بین پیکسل ها و نواحی همسایه به دست بیاره. از همین رو این مدل یک پیشنهاد جالب داشته، به این صورت که در فرآیند آموزش جنریتورش، هر ناحیه ابتدا صرفا به نواحی دور و بر خودش میتونسته attend کنه و بعدش به مرور نواحی بیشتر از ماسک درمیان و به اونها هم میتونه attention داشته باشه. این ایده هم نشون داده شده که تونسته عملکرد مدل را بهبود بده.
(برای دیدن عکسها در گوشی ورق بزنید.)
لینک مقاله:
https://arxiv.org/abs/2102.07074
.
لینک یوتوب توضیح مقاله:
https://www.youtube.com/watch?v=R5DiLFOMZrc
#read
#paper
@nlp_stuff
Telegram
stuff
هاگینگفیس یک رسمی را در فروم خودش راه انداخته که پژوهشگران هر زبان یک تاپیک برای زبان خودشون بزنند تا آشنایی و انجمنسازی بهتری رقم بخوره!
ما هم یکی برای زبان فارسی شروع کردیم.
لطفا شما هم به جمع ما بپیوندید!
لینک داستان:
https://discuss.huggingface.co/t/persian-nlp-introductions/3774
#link
@nlp_stuff
ما هم یکی برای زبان فارسی شروع کردیم.
لطفا شما هم به جمع ما بپیوندید!
لینک داستان:
https://discuss.huggingface.co/t/persian-nlp-introductions/3774
#link
@nlp_stuff
Hugging Face Forums
Persian NLP - Introductions
Salam!!! 🇮🇷 Welcome! This is the introduction thread for Persian! Please introduce yourself and let us know: Your name, Github, Hugging Face, and/or Twitter handle Your interest in Persian NLP Some projects you are working on or interested in starting…
ماجراجوییهای جذاب با contrastive learning اینبار در speech!
تیم تحقیقاتی فیسبوک در ادامه روند رو به رشدش در speech اینبار پای contrastive learning رو وسط کشیده تا بازی speech رو کلا عوض کنه!! شاید باورتون نشه ولی کل تسک بازشناسی رو تقسیم به فاز pre train و fine tuning کرده (که همین هم باعث شده خودش رو در دل هاگینگفیس جا کنه و هاگینگفیس به طور رسمی ازش پشتیبانی میکنه!) در فاز pre training مثل مدل زبانی میاد و سعی میکنه مدل صوتی درست کنه و در واقع به نوعی بازنمایی سگمنتهای مختلف صوتی رو با یه contrastive loss یاد میگیره که این کار کاملا self supervised است و نیازی به لیبل نداره؛ حالا در فاز fine tuning میاد و با صوتهای لیبل خورده یه شبکه ساده خطی که با تابع هدف CTC ترین میشه کار رو تکمیل میکنه. نتیجه خارق العادهست! تنها با ۱۰ دقیقه صوت لیبلدار نتایجی نزدیک به state of the artهای قبلی رو در این حوزه تولید میکنه؛ یعنی WER (word error rate) حدود ۴ درصد برای صوت تمیز و حدود ۸ درصد برای صوتهای واقعی! معماری بخش contrastive lossش هم ترنسفورمری است و برای تبدیل صوت خام به وکتور از لایه کانولوشنی استفاده میکنه.
بهونه کمبود داده لیبل خورده نیارید که contrastive learning قراره بازی رو در بیاره!
لینک مقاله:
https://arxiv.org/pdf/2006.11477.pdf
لینک هاگینگ فیس:
https://huggingface.co/facebook/wav2vec2-base-960h
#read
#paper
تیم تحقیقاتی فیسبوک در ادامه روند رو به رشدش در speech اینبار پای contrastive learning رو وسط کشیده تا بازی speech رو کلا عوض کنه!! شاید باورتون نشه ولی کل تسک بازشناسی رو تقسیم به فاز pre train و fine tuning کرده (که همین هم باعث شده خودش رو در دل هاگینگفیس جا کنه و هاگینگفیس به طور رسمی ازش پشتیبانی میکنه!) در فاز pre training مثل مدل زبانی میاد و سعی میکنه مدل صوتی درست کنه و در واقع به نوعی بازنمایی سگمنتهای مختلف صوتی رو با یه contrastive loss یاد میگیره که این کار کاملا self supervised است و نیازی به لیبل نداره؛ حالا در فاز fine tuning میاد و با صوتهای لیبل خورده یه شبکه ساده خطی که با تابع هدف CTC ترین میشه کار رو تکمیل میکنه. نتیجه خارق العادهست! تنها با ۱۰ دقیقه صوت لیبلدار نتایجی نزدیک به state of the artهای قبلی رو در این حوزه تولید میکنه؛ یعنی WER (word error rate) حدود ۴ درصد برای صوت تمیز و حدود ۸ درصد برای صوتهای واقعی! معماری بخش contrastive lossش هم ترنسفورمری است و برای تبدیل صوت خام به وکتور از لایه کانولوشنی استفاده میکنه.
بهونه کمبود داده لیبل خورده نیارید که contrastive learning قراره بازی رو در بیاره!
لینک مقاله:
https://arxiv.org/pdf/2006.11477.pdf
لینک هاگینگ فیس:
https://huggingface.co/facebook/wav2vec2-base-960h
#read
#paper
Telegram
stuff
دورزدن فقر سختافزاری برای فاینتیون کردن مدلهای زبانی
اگر از نداشتن توان سخت افزاری برای فاین تیون کردن مدلهای زبانی رنج میبرید، شما رو به دیدن این تاک عالی دعوت میکنیم.
در بخش اول از این ویدئو که کلا سه تا ارائه داره، آقای Sylvain Gugger (یکی از اعضای هاگینگ فیس) در رابطه با تکنیکهای لازم (مثل Gradient Checkpoint و FP16 و ..) برای دست و پنجه نرم کردن با مدلهای بزرگ در حالتی که تنها داشتهتون یک gpu عادیه صحبت میکنه. به علاوه اکثر این تکنیکها توسط Trainer کتابخونه ترنسفورمرز هاگینگ فیس پیادهسازی شده و میتونید به راحتی ازشون استفاده کنید و برای سازندگانش دعای خیر کنید.
https://www.youtube.com/watch?v=RG-yV5zgqjQ
#link
#watch
@nlp_stuff
اگر از نداشتن توان سخت افزاری برای فاین تیون کردن مدلهای زبانی رنج میبرید، شما رو به دیدن این تاک عالی دعوت میکنیم.
در بخش اول از این ویدئو که کلا سه تا ارائه داره، آقای Sylvain Gugger (یکی از اعضای هاگینگ فیس) در رابطه با تکنیکهای لازم (مثل Gradient Checkpoint و FP16 و ..) برای دست و پنجه نرم کردن با مدلهای بزرگ در حالتی که تنها داشتهتون یک gpu عادیه صحبت میکنه. به علاوه اکثر این تکنیکها توسط Trainer کتابخونه ترنسفورمرز هاگینگ فیس پیادهسازی شده و میتونید به راحتی ازشون استفاده کنید و برای سازندگانش دعای خیر کنید.
https://www.youtube.com/watch?v=RG-yV5zgqjQ
#link
#watch
@nlp_stuff
YouTube
PyData Montreal #17: Online meetup on NLP
Our guests this time are:
- Sylvain Gugger, a Research Engineer at Hugging Face and one of the core maintainers of the Transformers library, with a talk on "Fine-tuning a large language model without your own supercomputer"
- Julia Kreutzer, a Research Scientist…
- Sylvain Gugger, a Research Engineer at Hugging Face and one of the core maintainers of the Transformers library, with a talk on "Fine-tuning a large language model without your own supercomputer"
- Julia Kreutzer, a Research Scientist…
ایده GLOM هینتون
هینتون (یکی دیگه از خدایگان دیپلرنینگ)، این پیرمرد خستگیناپذیر، در ۷۳ سالگی تک و تنها به خط زده و این هفته یک پیپر ۴۴ای صفحهای منتشر کرده. هینتون در این مقاله سیستم و روشی تخیلی به نام GLOM رو پیشنهاد کرده که صرفا یک ایدهست و در واقع در این پیپر هیچ پیادهسازی و آزمایشی انجام نشده.
این ایده GLOM به دنبال اینه که با ورودی گرفتن یک تصویر بتونه در خروجی یک بازنمایی سلسله مراتبی از اون تصویر ارائه بده؛ مثلا با ورودی گرفتن 🚙 بگه که یک ماشین میبینم که دو تا چرخ داره و یک بدنه، و بدنه اش هم دو تا پنجره داره. نکته اصلی اینجاست که شبکههای عصبی فعلی با ساختار ثابتشون قادر به پاسخ دادن به این سوال و پارس کردن یک درخت معنایی از اجزای حاضر توی تصویر نیستند.
ساختار پیشنهادی GLOM رو میشه به شما ترکیبی از ترنسفورمر و ساختارهای بازگشتی و فلسفه کپسول نتورکها دید. نکته جالب رو هم میشه در یک جور تبادل پیامهای بالا به پایین و پایین به بالا و البته مکانی در شبکهاش دونست. برای آموزش دادن این این شبکه هم، هینتون یک ایده مبتنی بر contrastive learning رو پیشنهاد میکنه ( همون طور که میبینید این پیپر ۴۴ صفحهای ملقمهای از همه چیزه!)
در حال حاضر با توجه به ساختار بازگشتی GLOM و قدرت سخت افزاری فعلی بعید به نظر میرسه که به زودی بتونیم ببینیمش، ولی اگر از مرحله ایده بودن بیرون بیاد و عملیاتی بشه، یک مدل عصبی تفسیرپذیر جالبی میشه. این ایده قادر به اعمال شدن بر روی حوزههای غیر تصویر مثل متن است و همانطور که هینتون در آخر مقاله اشاره میکنه، میتونه باعث وجود اومدن مدلی به نام GLOMBERT بشه.
پیشنهاد میشه اول این ویدئوی خوب در توضیح این مقاله رو ببینید و بعد اگر کنجکاوتر شدید به سراغ خودش برید:
https://youtu.be/cllFzkvrYmE
لینک مقاله:
https://arxiv.org/abs/2102.12627
پ.ن. کم کاری نکنید و لطفا کانال را به بقیهی هوشمصنوعیدوستان معرفی کنید!
#read
#watch
#paper
@nlp_stuff
هینتون (یکی دیگه از خدایگان دیپلرنینگ)، این پیرمرد خستگیناپذیر، در ۷۳ سالگی تک و تنها به خط زده و این هفته یک پیپر ۴۴ای صفحهای منتشر کرده. هینتون در این مقاله سیستم و روشی تخیلی به نام GLOM رو پیشنهاد کرده که صرفا یک ایدهست و در واقع در این پیپر هیچ پیادهسازی و آزمایشی انجام نشده.
این ایده GLOM به دنبال اینه که با ورودی گرفتن یک تصویر بتونه در خروجی یک بازنمایی سلسله مراتبی از اون تصویر ارائه بده؛ مثلا با ورودی گرفتن 🚙 بگه که یک ماشین میبینم که دو تا چرخ داره و یک بدنه، و بدنه اش هم دو تا پنجره داره. نکته اصلی اینجاست که شبکههای عصبی فعلی با ساختار ثابتشون قادر به پاسخ دادن به این سوال و پارس کردن یک درخت معنایی از اجزای حاضر توی تصویر نیستند.
ساختار پیشنهادی GLOM رو میشه به شما ترکیبی از ترنسفورمر و ساختارهای بازگشتی و فلسفه کپسول نتورکها دید. نکته جالب رو هم میشه در یک جور تبادل پیامهای بالا به پایین و پایین به بالا و البته مکانی در شبکهاش دونست. برای آموزش دادن این این شبکه هم، هینتون یک ایده مبتنی بر contrastive learning رو پیشنهاد میکنه ( همون طور که میبینید این پیپر ۴۴ صفحهای ملقمهای از همه چیزه!)
در حال حاضر با توجه به ساختار بازگشتی GLOM و قدرت سخت افزاری فعلی بعید به نظر میرسه که به زودی بتونیم ببینیمش، ولی اگر از مرحله ایده بودن بیرون بیاد و عملیاتی بشه، یک مدل عصبی تفسیرپذیر جالبی میشه. این ایده قادر به اعمال شدن بر روی حوزههای غیر تصویر مثل متن است و همانطور که هینتون در آخر مقاله اشاره میکنه، میتونه باعث وجود اومدن مدلی به نام GLOMBERT بشه.
پیشنهاد میشه اول این ویدئوی خوب در توضیح این مقاله رو ببینید و بعد اگر کنجکاوتر شدید به سراغ خودش برید:
https://youtu.be/cllFzkvrYmE
لینک مقاله:
https://arxiv.org/abs/2102.12627
پ.ن. کم کاری نکنید و لطفا کانال را به بقیهی هوشمصنوعیدوستان معرفی کنید!
#read
#watch
#paper
@nlp_stuff
YouTube
GLOM: How to represent part-whole hierarchies in a neural network (Geoff Hinton's Paper Explained)
#glom #hinton #capsules
Geoffrey Hinton describes GLOM, a Computer Vision model that combines transformers, neural fields, contrastive learning, capsule networks, denoising autoencoders and RNNs. GLOM decomposes an image into a parse tree of objects and…
Geoffrey Hinton describes GLOM, a Computer Vision model that combines transformers, neural fields, contrastive learning, capsule networks, denoising autoencoders and RNNs. GLOM decomposes an image into a parse tree of objects and…