NLP stuff

حمله‌ی OpenAI به قلمرو MultiModal

شرکت OpenAI (اگر نمی‌شناسیدش، مدل‌های جی‌پی‌تی را این شرکت داده) سه‌شنبه شب از دو مدل CLIP و DALL-E رونمایی کرد.
به صورت ساده و مختصر؛ مدل CLIP یک عکس و چند کلاس می‌گیرد و به صورت zero shot تشخیص می‌دهد عکس متعلق به کدام کلاس است.
و مدل DALL-E یک ترنسفورمر با ۱۲ میلیارد پارامتر است که یک متن (کپشن) می‌گیرد و تصویری متناسب با متن را تولید می‌کند.
این دو بلاگ و ویدیو توضیحاتی راجع به این مدل‌ها دادند. درون بلاگ می‌توانید نمونه‌هایی از خروجی‌ها را ببینید.
قبلا در این پست (https://t.iss.one/nlp_stuff/108) مقاله‌ای را توضیح داده بودیم که گفته بود یکی از ترندهای بعدی، حوزه‌ی مولتی مودال (ترکیبی از حوزه‌های مختلف مثل تصویر و متن) خواهد بود.
نتایج حیرت‌انگیز و زبان قاصر از توصیف است!

https://openai.com/blog/clip/

https://openai.com/blog/dall-e/

https://www.youtube.com/watch?v=j4xgkjWlfL4

#fresh
#blog
#read

@nlp_stuff

1.78K viewsedited 14:54

NLP stuff

یکی از تسک‌های اولیه و مهم در پردازش زبان طبیعی، تشخیص اسامی خاص یا همون NER است که یک مرحله مقدماتی برای خیلی از تسک‌های دیگه‌ست.
محمدمهدی برامون در این پست ویرگول، به صورت کامل از ابتدا تا انتهای این تسک (تعریف، مدل‌ها، دیتاست‌ها و ...) را توضیح داده. حتی اگر هیچ آشنایی با این موضوع نداشته باشید، این نوشتار براتون مباحث را به شکل نیکویی روشن می‌کنه. لطفا نظر بدید و با بقیه هم به اشتراک بذارید.

پ.ن. شما هم اگر پست خوبی در زمینه‌ی هوش مصنوعی و پردازش زبان دارید، به ما خبر بدید که در انتشارات اورفیت منتشر کنیم.

https://vrgl.ir/OvlJR

#read
#blog
#overfit

@nlp_stuff

ویرگول

داستان نامداران: یافتن اسامی خاص!

برای یافتن اسامی خاص توی متن با استفاده از یادگیری ماشین این پست رو بخونین

1.37K views13:17

NLP stuff

شیرجه عمیق به دیپ لرنینگ

بر شما باد چسبیدن به این سایت برای یادگیری دیپ لرنینگ.
کتاب کامل و جامع، نوت‌بوک‌های پیاده‌سازی شده با چند فریمورک (NumPy/MXNet و PyTorch و TensorFlow)، کورس رایگان و به‌روز برای کتاب از ویژگی‌هاشه.
مخصوصا فصل‌های ۱۰، ۱۴ و ۱۵اش به افرادی که دیپ بلدند و دوست دارند در حوزه‌ی NLP وارد شن توصیه میشه. در فصل ۱۰ معماری اتنشن و ترنسفورمرها را توضیح دادند و در فصل ۱۴ و ۱۵ پیش‌پردازش، آموزش و فاین تیون کردن تسک‌های NLP را آوردند.
خلاصه از این بهتر بعید می‌دونم چیزی پیدا کنید؛ پس تنبلی و وسواس را کنار بذارید و شروع کنید.

https://d2l.ai

#coach
#course
#book

@nlp_stuff

2.09K viewsedited 15:30

NLP stuff

و همچنان اندر جادوی CLIP

مطلب جالبی راجع به مدل کلیپ (https://t.iss.one/nlp_stuff/114) اینه که در حین آموزش یک سری تسک تصویری دیگه مثل OCR و Action Recognition را هم به صورت zero shot یاد گرفته.
قبلا مدل‌های جی‌پی‌تی هم در مورد تسک‌های زبانی همینطور بودند.
برای مثال در بخش ۶ (Limitations) مقاله‌شون اومدند گفتند که ما هیچ تصویری از MNIST در دیتامون نداشتیم ولی تونستیم به صورت zero shot دقت ۸۸ (که البته دقت خوبی نیست) را روی این دیتاست بدست بیاریم!
در این لینک می‌تونید تصویر دلخواه‌تون را به صورت zero shot دسته‌بندی کنید:

https://clip.kiri.ai

اینم لینک مقاله‌اش:

https://cdn.openai.com/papers/Learning_Transferable_Visual_Models_From_Natural_Language_Supervision.pdf

#read
#paper

@nlp_stuff

1.28K views16:50

NLP stuff

هاگینگ فیس و AutoNLP

هاگینگ فیس یک کتابخونه‌ی AutoNLP داره آماده می‌کنه که به صورت خودکار مدل، فاین تیون کردن روی دیتا و دیپلویمنت مدل را برای تسک‌های مختلفی مثل classification, NER, summarization, translation به راحتی خوردن یک لیوان آب سالم می‌کنه و قراره در سه ماهه‌ی اول ۲۰۲۱ release بشه.
لینک پایین را هم دادند که ملت ثبت نام کنند و بگن که برای چه زبان و تسکی و اینا می‌خوان استفاده کنند که به نسخه بتا بهشون دسترسی بده.

https://huggingface.typeform.com/to/FAtsVfbg

#news

@nlp_stuff

1.47K views17:55

NLP stuff

موضوعات برجسته تحقیقاتی در ۲۰۲۰ از نظر رودر

برادر رودر در این پست راجع به ریسرچ‌های انجام‌شده در زمینه یادگیری ماشین و پردازش زبان در سال ۲۰۲۰ صحبت کردن. چیزایی مثل این که چه اتفاقاتی در این حوزه‌ها افتاده و گام بعدی در سال ۲۰۲۱ چیه و اینا. موضوعات مورد بحث تو این پست به صورت تیتروار ایناست:
Scaling up—and down
Retrieval augmentation
Few-shot learning
Contrastive learning
Evaluation beyond accuracy
Practical concerns of large LMs
Multilinguality
Image Transformers
ML for science
Reinforcement learning

این مطلب خیلی تازه‌ست و مال همین امروزه (۱۹ ژانویه)؛ پس داغ داغ بخونید تا بیات نشده.

https://ruder.io/research-highlights-2020/

#read
#blog

@nlp_stuff

ruder.io

ML and NLP Research Highlights of 2020

This post summarizes progress in 10 exciting and impactful directions in ML and NLP in 2020.

1.61K viewsedited 17:00

NLP stuff

This media is not supported in your browser

VIEW IN TELEGRAM

اکستنشن ویدیوی arxiv

برادر آمیت برادری را در حقمون تکمیل کرده و یه اکستنشن روی کروم زده که از مقاله‌ی arxiv لینک میده به ویدیوی ارائه‌ی مقاله.
لینک اکستنشن، گیت و لیست مقاله‌هایی که ویدیوشون را اضافه کرده در ادامه آوردیم:

https://chrome.google.com/webstore/detail/papers-with-video/aflnhgmklenfljibnfellgkmdpmmoekf

https://github.com/amitness/papers-with-video

https://gist.github.com/amitness/9e5ad24ab963785daca41e2c4cfa9a82

#tool

@nlp_stuff

1.92K viewsedited 15:49

NLP stuff

مصورسازی نحوه انتخاب کلمه توسط ترنسفورمر

آقای العمار در این قسمت با ویژوالایز کردن حالت‌های نهان داخل ترنسفورمر نشون می‌ده که فرآیند انتخاب یک کلمه در ترنسفورمر، لایه به لایه چه شکلیه و چطور رتبه کلمه نهایی بین بقیه کلمات در مسیر لایه‌ها کاهش پیدا می‌کنه. به قول خودش می‌خواد فرآیند فکری ترنسفورمرها را بررسی کنه. یکی دو تا نوت‌بوک هم برامون گذشته اگر حوصله داشتیم باهاش ور بریم.
انصافا توضیحات و ویژوالایزهایی که تو این قسمت کرده خیلی جذابن! اگر گیر درس و امتحان نیستید، از دستشون ندید.
قبلا هم از این یکی داداشمون پست (https://t.iss.one/nlp_stuff/106) گذاشتیم.

https://jalammar.github.io/hidden-states/

پ.ن. برای دوستاتون که به NLP یا ویژوالیزیشن علاقه‌مندند بفرستید که کیف کنند.

#read
#blog

@nlp_stuff

1.44K views18:48

NLP stuff

آنچه بنجیو در خشت خام می‌بیند

یاشوا بنجیو که (انصافا) یکی از خدایگان هوش مصنوعی و دیپ لرنینگ است، از یکی دو سال پیش به تدریج در تاک‌های مختلف (مثلا اینجا و اینجا و اینجا و اینجا) ایده‌های خود برای پیشرفت‌ آینده هوش مصنوعی را شرح داده است. ایده‌های او بر بناکردن inductive biasهای جدیدی (به طور خیلی خلاصه و مفید inductive bias همان فرضیاتی که یک الگوریتم یادگیری قبل از حل مساله در مورد آن در نظر می‌گیرد و راه حلش روی آن فرض بنا شده است، برای مثال وقتی ما فرض می‌کنیم که معنای یک تیکه از تصویر می‌تواند از تیکه‌های مجاورش دریافت شود این فرض ما منجر به بناشدن شبکه‌های cnnای می‌شود) برای دیپ لرنینگ حول کلیدواژه مهم out of distribution generalization (تا الان بدین شکل بوده که مدل ما یک توزیع از داده‌های آموزشی در می‌آورده و نهایتا با کمی تغییر دنبال این توزیع در داده‌های تست بوده است. اما شیخ ما اعتقاد دارد بایستی از این به بعد تغییرات گسترده در داده‌های تست نسبت به توزیع داده‌های آموزش را هم بتواند تحمل کند. مثلا باید یادگرفتن را یادبگیرد تا اگر توزیع محیطش تغییری هم کرد بتواند خودش را با آن وفق دهد!) بنا شده است.
به طور مختصر و مفید؛ پیر ما معتقد است که تسک‌هایی را که مغز انسان انجام می‌دهد می‌توان به دسته سیستم ۱ و سیستم ۲ تقسیم ‌بندی کرد. تسک‌های سیستم ۱ مسائلی هستند که به صورت ناخودآگاه و البته سریع و بدون نیاز به تفکر قابل انجام توسط مغز هستند مثلا تشخیص خر از پنگوئن، تشخیص ناسزا از غیرناسزا و ... ، حال ان که تسک‌های سیستم ۲ بایستی با توجه و برنامه‌ریزی و البته آگاهانه انجام شوند مثلا رانندگی کردن.
بنجیو می‌گوید که توانایی فعلی دیپ لرنینگ در انجام دادن تسک‌های سیستم ۱ است و در سیستم ۲ توفیقی هنوز ندارد. در ادامه بنجیو پیشنهاد می‌دهد که آینده هوش مصنوعی درگیر با انجام تسک‌های سیستم ۲ و همچنین همان کلیدواژه out of distribution generalization خواهد بود.

بر اساس همین ایده اولیه، بنجیو تعدادی ایده برای الهام‌گیری و شکستن بن‌بست فعلی پیشرفت دیپ لرنینگ پیشنهاد می‌کند که از آن‌ها می‌توان به بررسی مسائل multi agent، خلق شبکه‌های عصبی با ویژگی ماژولاریزیشن نظیر RIMها، دیدن مسائل از زاویه گراف‌های علی (causal) متغیر‌ها، متالرنینگ و ... اشاره کرد.

لینک مقاله‌‌اش:

https://arxiv.org/pdf/2011.15091.pdf

پ.ن. لطفا کانال را به کسایی که هوش مصنوعی دوست دارند، معرفی کنید! ممنون.

#paper
#read

@nlp_stuff

YouTube

Yoshua Bengio: Deep Learning Cognition | Full Keynote - AI in 2020 & Beyond

Yoshua Bengio, considered one of the 'Godfathers of Artificial Intelligence' discusses Recurrent independent mechanisms, sample complexity, end-to-end adaptation, multivariate categorical MLP conditionals and more.

When summarising his talk, Professor Bengio…

👍2

1.93K viewsedited 19:13

NLP stuff

سایت paperswithcode (که توصیه می‌کنیم توی این سایت بخوابید) اومده مقاله‌های قبول شده‌ی ICLR 2021 را به همراه کدشون گذاشته و می‌تونید با استفاده از تسک و نویسنده و keyword فیلتر کنید.

https://paperswithcode.com/conference/iclr-2021-1

#link

@nlp_stuff

1.95K views15:45

NLP stuff

This media is not supported in your browser

VIEW IN TELEGRAM

توضیح خلاصه‌ی ViT

در چند روز اخیر سیلی عظیمی از مدل‌های ترنسفورمری برای vision به راه افتاده‌اند. اگر هنوز مقاله An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale را نخوندید و حوصله خوندن پیپرش را هم هنوز ندارید، ده دقیقه این پست را مشاهده کنید تا بفهمید چه خبره و از قافله بعدی عقب نمونید.

https://theaisummer.com/vision-transformer/

پ.ن. قبلا این مقاله را در این پست (https://t.iss.one/nlp_stuff/82) معرفی کرده بودیم.
#read
#blog

@nlp_stuff

1.36K viewsedited 15:59

NLP stuff

طوفان برت، speech را هم در نوردید!

مدل‌های پیشرو در مبحث بازشناسی گفتار (تبدیل گفتار به متن) مثل این مقاله تا به امروز معمولا برای اینکه بازشناسی به صورت انتها به انتها انجام شود، از پشته‌ای از لایه‌های کانولوشنی برای مدلسازی گفتار استفاده می‌کردند و مدل زبانی به عنوان بخشی از تابع هزینه در نظر گرفته می‌شد؛ به این صورت که لایه آخر به ازای هر حرف در دیکشنری یه امتیاز برمی‌گردوند و این امتیاز با امتیاز مدل زبانی ترکیب می‌شد و حرف بازشناسی‌شده معین می‌شد.
حالا داداشای تایوانی‌مون در مقاله‌ی زیر اومدند و گفتند که اصل داستان مدل زبانیه و مدلسازی صوت، نمک قضیه ست! میشه مدل زبانی را به صورت main stream هم در تسک آورد یعنی بخشی از معماری شبکه باشد و نه فقط در تابع هزینه! چه طوری؟ با برت.
نتیجه اینکه مدل زبانی، تعداد انتخاب در هر لحظه رو به شدت کاهش میده و مدل گفتار میشه یه شبکه ساده که قراره از بین اون انتخاب‌های بسیار کوچیک حالا انتخاب کنه. فاین تیون کردنش هم خیلی راحت‌تره.
خلاصه اینکه ماهیت تسک انتها به انتهاتر و هلو شده! این اتفاق بار دیگه داره جایگاه مهم مدل زبانی را حتی در مباحث گفتار پردازی ثابت می‌کنه!

لینک مقاله:
https://arxiv.org/pdf/2102.00291.pdf

#paper
#read
.
@nlp_stuff

stuff

1.21K views16:07

NLP stuff

یادگیری بازنمایی مشترک تصویر-متن!

در طی سالیان اخیر، مدل‌های از پیش‌‌آموزش دیده نظیر برت و یا Resnet کاربردهای فراوانی در یادگیری ژرف داشتند. رسالت این مدل‌ها اینه که با گرفتن یک ورودی (برای برت متن و برای resnet تصویر)‌ یک بردار را به عنوان بازنمایی اون ورودی در خروجی تحویل بدن. هفته پیش مقاله‌ای منتشر شده که سعی کرده این عمل کد کردن را در یک فضای مشترک انجام بده. به بیان بهتر کاری کنه که شما چه تصویر بهش ورودی بدی و چه متن، بیاد یک بازنمایی را در یک فضای مشترک بین تصویر و متن برگردونه. برای مثال وقتی بهش عکس گربه با کاموا می‌دید و وقتی بهش متن «گربه مشغول بازی با کاموا» بهش می‌دید، رپرزنتیشن‌هایی را براتون برگردونه که از لحاظ برداری بهم نزدیک باشند و در واقع متعلق به یک فضای مشترک هستند. مشابه‌ این کار قبلا در مقاله‌های دیگه‌ مثل CLIP انجام شده، اما تفاوت این مقاله فعلی با CLIP در اینه که بر خلاف CLIP از دیتای تمیزنشده و نویزی زوج تصویر و متن‌های کپشن استفاده کرده که طبیعتا با این آسون‌گیری در فیلتر داده‌هاش، حجم دیتاستش بسیار زیاد شده. روش آموزشش هم به طور خلاصه به این صورت بوده تصویر و متن مربوط رو به معماری‌های EfficientNet و Bert داده و بعدش با ایده Self-Supervised Learning سعی کرده رپرزنتیشن‌های حاصل از این دو معماری برای این زوج مربوط رو به هم نزدیک کنه.

نکته جالب مقاله اما در آزمایش‌ها و خروجی‌هاییه که انتشار داده. در یک آزمایشش سعی کرده تسک بازیابی تصویر (با توجه به یک متن ورودی)‌را انجام بده و در آزمایش جالب دیگه‌اش هم سعی کرده با جمع یا تفریق کردن رپرزنتیشن یک کلمه روی رپرزنتیشن یک تصویر، نشون بده که تصویرش (تصویر معادل رپرزنتیشن حاصل‌شده) چه تغییری میکنه. دو تا تصاویر برای این دو تا آزمایش ضمیمه شدند (برای دیدن جفتش در گوشی ورق بزنید!!).
خواندن این مقاله برای اونهایی که علاقه مند به حوزه Multi-Modal هستند، خالی از لطف نیست.

لینک مقاله:
https://arxiv.org/abs/2102.05918
.

پ.ن. اگر نمی‌دونید مدل CLIP چیه، پست https://t.iss.one/nlp_stuff/121 را ببینید.

#read
#paper

@nlp_sutuff

stuff

1.28K viewsedited 20:07

NLP stuff

ترجمه ماشینی بین ۵۰ زبان

تیم Facebook AI مدل mBART-50 را روی هاگینگ‌فیس گذاشت. با این مدل میتونید هر متنی را بین هر جفتی از پنجاه تا زبان (که فارسی هم داره) ترجمه کنید.
یه نمونه مقایسه هم بین سرویس ترجمه گوگل و این مدل فیسبوک گذاشتیم (برای دیدن عکس دوم در گوشی ورق بزنید!!) که نشون میده تنه به تنه‌ی گوگل داره می‌زنه!

لینک مقاله و مدل:
https://arxiv.org/abs/2008.00401v1

https://huggingface.co/models?filter=mbart-50

این ویدیو هم برای نحوه‌ی استفاده ازش موجوده. اگر اعصابتون لهجه هندی را می‌کشه، ببینید.
https://www.youtube.com/watch?v=fxZtz0LPJLE

#news
#link

@nlp_stuff

stuff

1.59K viewsedited 15:17

NLP stuff

TransGan: Transformers + GAN

پس از ماجراجویی ترنسفورمرها در مسائل دسته‌بندی، تشخیص اشیا و قطعه‌بندی در حوزه پردازش تصویر، حالا بالاخره نوبت به تولید تصویر رسیده است که با ترنسفورمر‌ها آشنا شود. دوستانمون در این مقاله یک مدل تولید تصویر به کل ترنسفورمری و البته چندین آزمایش جالب انجام داده‌اند.

نکته قابل توجه در رابطه با معماری قسمت جنریتور این مدل، در اینه که ابتدا با تعداد پچ‌های کم و با اندازه بالا شروع میکنه و بعد از اعمال هر لایه انکودر ترنسفورمر، تعداد تکه‌ها را دو برابر و البته اندازه اون‌ها را نصف میکنه. در نهایت هم از روی خروجی آخرین انکودر مقادیر rgb پیکسل‌ها را به دست میاره. قسمت دیسکریمینیتور این مقاله هم مشابه همون مقاله ViT است.

اما نکات جالب این مقاله به اختصار:
۱- در مقایسه سه حالت مختلف بین ترکیب جنریتور و دسکریمینتورهای مختلف cnnای یا ترنسفورمری،‌ مقایسه انجام داده و نشون داده که ترکیب جنریتور ترنسفورمری و دیسکریمینتور cnnای بهترین عملکرد را داره.

۲- نکته دوم در وابستگی شدید مدل ترنسفورمری به دیتا آگمنتیشن است که این مقاله نشون داده مدل ترنسفورمری نسبت به مشابه های cnnای خودش به شدت به دیتا اگمنتیشن گشنه‌تره.

۳-نکته و ابتکار بعدی این مدل اما در ارائه یک تسک سوپررزولوشن کردن تصویر برای قسمت جنریتور است که با مالتی تسک کردن این تسک با تسک تولید تصویر نشون داده که عملکردش بهبود پیدا کرده.

۴-اما ابتکار دیگه‌اش که بیشتر به چشم ما اومد: همونطور که می‌دونید معماری ترنسفورمری نسبت به cnn سوگیری القایی (inductive bias) مکانی (locality) را نداره و برای همین حدس زده میشه که در تسک تولید تصویر هم نتونه پیوستگی خوبی بین پیکسل ها و نواحی همسایه به دست بیاره. از همین رو این مدل یک پیشنهاد جالب داشته، به این صورت که در فرآیند آموزش جنریتورش، هر ناحیه ابتدا صرفا به نواحی دور و بر خودش می‌تونسته attend کنه و بعدش به مرور نواحی بیشتر از ماسک درمیان و به اونها هم میتونه attention داشته باشه. این ایده هم نشون داده شده که تونسته عملکرد مدل را بهبود بده.
(برای دیدن عکس‌ها در گوشی ورق بزنید.)

لینک مقاله:
https://arxiv.org/abs/2102.07074
.
لینک یوتوب توضیح مقاله:
https://www.youtube.com/watch?v=R5DiLFOMZrc

#read
#paper

@nlp_stuff

stuff

1.22K views19:36

NLP stuff

هاگینگ‌فیس یک رسمی را در فروم خودش راه انداخته که پژوهش‌گران هر زبان یک تاپیک برای زبان خودشون بزنند تا آشنایی و انجمن‌سازی بهتری رقم بخوره!
ما هم یکی برای زبان فارسی شروع کردیم.
لطفا شما هم به جمع ما بپیوندید!

لینک داستان:
https://discuss.huggingface.co/t/persian-nlp-introductions/3774

#link

@nlp_stuff

Hugging Face Forums

Persian NLP - Introductions

Salam!!! 🇮🇷 Welcome! This is the introduction thread for Persian! Please introduce yourself and let us know: Your name, Github, Hugging Face, and/or Twitter handle Your interest in Persian NLP Some projects you are working on or interested in starting…

1.27K views15:53

NLP stuff

ماجراجویی‌های جذاب با contrastive learning اینبار در speech!

تیم تحقیقاتی فیسبوک در ادامه روند رو به رشدش در speech اینبار پای contrastive learning رو وسط کشیده تا بازی speech رو کلا عوض کنه!! شاید باورتون نشه ولی کل تسک بازشناسی رو تقسیم به فاز pre train و fine tuning کرده (که همین هم باعث شده خودش رو در دل هاگینگ‌فیس جا کنه و هاگینگ‌فیس به طور رسمی ازش پشتیبانی می‌کنه!) در فاز pre training مثل مدل زبانی میاد و سعی می‌کنه مدل صوتی درست کنه و در واقع به نوعی بازنمایی سگمنت‌های مختلف صوتی رو با یه contrastive loss یاد می‌گیره که این کار کاملا self supervised است و نیازی به لیبل نداره؛ حالا در فاز fine tuning میاد و با صوت‌های لیبل خورده یه شبکه ساده خطی که با تابع هدف CTC ترین میشه کار رو تکمیل می‌کنه. نتیجه خارق العاده‌ست! تنها با ۱۰ دقیقه صوت لیبل‌دار نتایجی نزدیک به state of the artهای قبلی رو در این حوزه تولید می‌کنه؛ یعنی WER (word error rate) حدود ۴ درصد برای صوت تمیز و حدود ۸ درصد برای صوت‌های واقعی! معماری بخش contrastive lossش هم ترنسفورمری است و برای تبدیل صوت خام به وکتور از لایه کانولوشنی استفاده می‌کنه.
بهونه کمبود داده لیبل خورده نیارید که contrastive learning قراره بازی رو در بیاره!

لینک مقاله:
https://arxiv.org/pdf/2006.11477.pdf
لینک هاگینگ فیس:
https://huggingface.co/facebook/wav2vec2-base-960h

#read
#paper

stuff

1.3K views14:29

NLP stuff

دورزدن فقر سخت‌افزاری برای فاین‌تیون کردن مدل‌های زبانی

اگر از نداشتن توان سخت افزاری برای فاین تیون کردن مدل‌های زبانی رنج می‌برید، شما رو به دیدن این تاک عالی دعوت می‌کنیم.
در بخش اول از این ویدئو که کلا سه تا ارائه داره، آقای Sylvain Gugger (یکی از اعضای هاگینگ فیس) در رابطه با تکنیک‌های لازم (مثل Gradient Checkpoint و FP16 و ..) برای دست و پنجه نرم کردن با مدل‌های بزرگ در حالتی که تنها داشته‌تون یک gpu عادیه صحبت می‌کنه. به علاوه اکثر این تکنیک‌ها توسط Trainer کتابخونه ترنسفورمرز هاگینگ فیس پیاده‌سازی شده و میتونید به راحتی ازشون استفاده کنید و برای سازندگانش دعای خیر کنید.

https://www.youtube.com/watch?v=RG-yV5zgqjQ

#link
#watch

@nlp_stuff

YouTube

PyData Montreal #17: Online meetup on NLP

Our guests this time are:
- Sylvain Gugger, a Research Engineer at Hugging Face and one of the core maintainers of the Transformers library, with a talk on "Fine-tuning a large language model without your own supercomputer"
- Julia Kreutzer, a Research Scientist…

1.4K viewsedited 16:25

NLP stuff

ایده GLOM هینتون

هینتون (یکی دیگه از خدایگان دیپ‌لرنینگ)، این پیرمرد خستگی‌ناپذیر، در ۷۳ سالگی تک و تنها به خط زده و این هفته یک پیپر ۴۴ای صفحه‌ای منتشر کرده. هینتون در این مقاله سیستم و روشی تخیلی به نام GLOM رو پیشنهاد کرده که صرفا یک ایده‌ست و در واقع در این پیپر هیچ پیاده‌سازی و آزمایشی انجام نشده.
این ایده GLOM به دنبال اینه که با ورودی گرفتن یک تصویر بتونه در خروجی یک بازنمایی سلسله مراتبی از اون تصویر ارائه بده؛ مثلا با ورودی گرفتن 🚙 بگه که یک ماشین میبینم که دو تا چرخ داره و یک بدنه، و بدنه اش هم دو تا پنجره داره. نکته اصلی اینجاست که شبکه‌های عصبی فعلی با ساختار ثابتشون قادر به پاسخ دادن به این سوال و پارس کردن یک درخت معنایی از اجزای حاضر توی تصویر نیستند.

ساختار پیشنهادی GLOM رو میشه به شما ترکیبی از ترنسفورمر و ساختارهای بازگشتی و فلسفه کپسول نتورک‌ها دید. نکته جالب رو هم میشه در یک جور تبادل پیام‌های بالا به پایین و پایین به بالا و البته مکانی در شبکه‌اش دونست. برای آموزش دادن این این شبکه هم، هینتون یک ایده مبتنی بر contrastive learning رو پیشنهاد می‌کنه ( همون طور که می‌بینید این پیپر ۴۴ صفحه‌ای ملقمه‌ای از همه چیزه!)

در حال حاضر با توجه به ساختار بازگشتی GLOM و قدرت سخت افزاری فعلی بعید به نظر می‌رسه که به زودی بتونیم ببینیمش، ولی اگر از مرحله ایده بودن بیرون بیاد و عملیاتی بشه، یک مدل عصبی تفسیرپذیر جالبی میشه. این ایده قادر به اعمال شدن بر روی حوزه‌های غیر تصویر مثل متن است و همانطور که هینتون در آخر مقاله اشاره می‌کنه، می‌تونه باعث وجود اومدن مدلی به نام GLOMBERT بشه.

پیشنهاد میشه اول این ویدئوی خوب در توضیح این مقاله رو ببینید و بعد اگر کنجکاوتر شدید به سراغ خودش برید:

https://youtu.be/cllFzkvrYmE

لینک مقاله:
https://arxiv.org/abs/2102.12627

پ.ن. کم کاری نکنید و لطفا کانال را به بقیه‌ی هوش‌مصنوعی‌دوستان معرفی کنید!

#read
#watch
#paper

@nlp_stuff

YouTube

GLOM: How to represent part-whole hierarchies in a neural network (Geoff Hinton's Paper Explained)

#glom #hinton #capsules

Geoffrey Hinton describes GLOM, a Computer Vision model that combines transformers, neural fields, contrastive learning, capsule networks, denoising autoencoders and RNNs. GLOM decomposes an image into a parse tree of objects and…

1.33K views17:45

About

Blog

Apps

Platform