Fit More and Train Faster With ZeRO via DeepSpeed and FairScale
https://huggingface.co/blog/zero-deepspeed-fairscale
@ml_nlp_cv
https://huggingface.co/blog/zero-deepspeed-fairscale
@ml_nlp_cv
huggingface.co
Fit More and Train Faster With ZeRO via DeepSpeed and FairScale
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
Forwarded from NLP stuff
آنچه بنجیو در خشت خام میبیند
یاشوا بنجیو که (انصافا) یکی از پدرهای هوش مصنوعی و دیپ لرنینگ است، از یکی دو سال پیش به تدریج در تاکهای مختلف (مثلا اینجا و اینجا و اینجا و اینجا) ایدههای خود برای پیشرفت آینده هوش مصنوعی را شرح داده است. ایدههای او بر بناکردن inductive biasهای جدیدی (به طور خیلی خلاصه و مفید inductive bias همان فرضیاتی که یک الگوریتم یادگیری قبل از حل مساله در مورد آن در نظر میگیرد و راه حلش روی آن فرض بنا شده است، برای مثال وقتی ما فرض میکنیم که معنای یک تیکه از تصویر میتواند از تیکههای مجاورش دریافت شود این فرض ما منجر به بناشدن شبکههای cnnای میشود) برای دیپ لرنینگ حول کلیدواژه مهم out of distribution generalization (
تا الان بدین شکل بوده که مدل ما یک توزیع از دادههای آموزشی در میآورده و نهایتا با کمی تغییر دنبال این توزیع در دادههای تست بوده است. اما شیخ ما اعتقاد دارد بایستی از این به بعد تغییرات گسترده در دادههای تست نسبت به توزیع دادههای آموزش را هم بتواند تحمل کند. مثلا باید یادگرفتن را یادبگیرد تا اگر توزیع محیطش تغییری هم کرد بتواند خودش را با آن وفق دهد!) بنا شده است.
به طور مختصر و مفید؛ پیر ما معتقد است که تسکهایی را که مغز انسان انجام میدهد میتوان به دسته سیستم ۱ و سیستم ۲ تقسیم بندی کرد. تسکهای سیستم ۱ مسائلی هستند که به صورت ناخودآگاه و البته سریع و بدون نیاز به تفکر قابل انجام توسط مغز هستند مثلا تشخیص خر از پنگوئن، تشخیص ناسزا از غیرناسزا و ... ، حال ان که تسکهای سیستم ۲ بایستی با توجه و برنامهریزی و البته آگاهانه انجام شوند مثلا رانندگی کردن.
بنجیو میگوید که توانایی فعلی دیپ لرنینگ در انجام دادن تسکهای سیستم ۱ است و در سیستم ۲ توفیقی هنوز ندارد. در ادامه بنجیو پیشنهاد میدهد که آینده هوش مصنوعی درگیر با انجام تسکهای سیستم ۲ و همچنین همان کلیدواژه out of distribution generalization خواهد بود.
بر اساس همین ایده اولیه، بنجیو تعدادی ایده برای الهامگیری و شکستن بنبست فعلی پیشرفت دیپ لرنینگ پیشنهاد میکند که از آنها میتوان به بررسی مسائل multi agent، خلق شبکههای عصبی با ویژگی ماژولاریزیشن نظیر RIMها، دیدن مسائل از زاویه گرافهای علی (causal) متغیرها، متالرنینگ و ... اشاره کرد.
لینک مقالهاش:
https://arxiv.org/pdf/2011.15091.pdf
پ.ن. لطفا کانال را به کسایی که هوش مصنوعی دوست دارند، معرفی کنید! ممنون.
#paper
#read
@nlp_stuff
یاشوا بنجیو که (انصافا) یکی از پدرهای هوش مصنوعی و دیپ لرنینگ است، از یکی دو سال پیش به تدریج در تاکهای مختلف (مثلا اینجا و اینجا و اینجا و اینجا) ایدههای خود برای پیشرفت آینده هوش مصنوعی را شرح داده است. ایدههای او بر بناکردن inductive biasهای جدیدی (به طور خیلی خلاصه و مفید inductive bias همان فرضیاتی که یک الگوریتم یادگیری قبل از حل مساله در مورد آن در نظر میگیرد و راه حلش روی آن فرض بنا شده است، برای مثال وقتی ما فرض میکنیم که معنای یک تیکه از تصویر میتواند از تیکههای مجاورش دریافت شود این فرض ما منجر به بناشدن شبکههای cnnای میشود) برای دیپ لرنینگ حول کلیدواژه مهم out of distribution generalization (
تا الان بدین شکل بوده که مدل ما یک توزیع از دادههای آموزشی در میآورده و نهایتا با کمی تغییر دنبال این توزیع در دادههای تست بوده است. اما شیخ ما اعتقاد دارد بایستی از این به بعد تغییرات گسترده در دادههای تست نسبت به توزیع دادههای آموزش را هم بتواند تحمل کند. مثلا باید یادگرفتن را یادبگیرد تا اگر توزیع محیطش تغییری هم کرد بتواند خودش را با آن وفق دهد!) بنا شده است.
به طور مختصر و مفید؛ پیر ما معتقد است که تسکهایی را که مغز انسان انجام میدهد میتوان به دسته سیستم ۱ و سیستم ۲ تقسیم بندی کرد. تسکهای سیستم ۱ مسائلی هستند که به صورت ناخودآگاه و البته سریع و بدون نیاز به تفکر قابل انجام توسط مغز هستند مثلا تشخیص خر از پنگوئن، تشخیص ناسزا از غیرناسزا و ... ، حال ان که تسکهای سیستم ۲ بایستی با توجه و برنامهریزی و البته آگاهانه انجام شوند مثلا رانندگی کردن.
بنجیو میگوید که توانایی فعلی دیپ لرنینگ در انجام دادن تسکهای سیستم ۱ است و در سیستم ۲ توفیقی هنوز ندارد. در ادامه بنجیو پیشنهاد میدهد که آینده هوش مصنوعی درگیر با انجام تسکهای سیستم ۲ و همچنین همان کلیدواژه out of distribution generalization خواهد بود.
بر اساس همین ایده اولیه، بنجیو تعدادی ایده برای الهامگیری و شکستن بنبست فعلی پیشرفت دیپ لرنینگ پیشنهاد میکند که از آنها میتوان به بررسی مسائل multi agent، خلق شبکههای عصبی با ویژگی ماژولاریزیشن نظیر RIMها، دیدن مسائل از زاویه گرافهای علی (causal) متغیرها، متالرنینگ و ... اشاره کرد.
لینک مقالهاش:
https://arxiv.org/pdf/2011.15091.pdf
پ.ن. لطفا کانال را به کسایی که هوش مصنوعی دوست دارند، معرفی کنید! ممنون.
#paper
#read
@nlp_stuff
YouTube
Yoshua Bengio: Deep Learning Cognition | Full Keynote - AI in 2020 & Beyond
Yoshua Bengio, considered one of the 'Godfathers of Artificial Intelligence' discusses Recurrent independent mechanisms, sample complexity, end-to-end adaptation, multivariate categorical MLP conditionals and more.
When summarising his talk, Professor Bengio…
When summarising his talk, Professor Bengio…
The Hateful Memes Challenge: Detecting Hate Speech in Multimodal Memes
https://arxiv.org/abs/2005.04790
@ml_nlp_cv
https://arxiv.org/abs/2005.04790
@ml_nlp_cv
Forwarded from Modern Cogitation (ʀᴏкɪγα)
This media is not supported in your browser
VIEW IN TELEGRAM
شبیه سازی پرواز دسته جمعی پرندگان به کمک مکانیزم محرک اوریگامی
https://t.iss.one/modern_cogitation
https://t.iss.one/modern_cogitation
THE GRAMMARLY KEYBOARD
Write mistake-free emails, texts, and posts in all your apps.
Grammarly’s AI-powered keyboard
ensures your emails, LinkedIn
messages, and Facebook posts
are clear and mistake-free.400
https://www.grammarly.com/keyboard
Download for Android
Download for iOS
@ml_nlp_cv
Write mistake-free emails, texts, and posts in all your apps.
Grammarly’s AI-powered keyboard
ensures your emails, LinkedIn
messages, and Facebook posts
are clear and mistake-free.400
https://www.grammarly.com/keyboard
Download for Android
Download for iOS
@ml_nlp_cv
Grammarly
Discover Grammarly for Mobile
Write confidently on the go. Grammarly's mobile app goes beyond autocorrect to help you improve tone, clarity, grammar, and more in every email, text, or post.
Learning the language of viral evolution and escape | Science
https://science.sciencemag.org/content/371/6526/284
@ml_nlp_cv
https://science.sciencemag.org/content/371/6526/284
@ml_nlp_cv
Science
Learning the language of viral evolution and escape
Viral mutations that evade neutralizing antibodies, an occurrence known as viral escape, can occur and may impede the development of vaccines. To predict which mutations may lead to viral escape, Hie et al. used a machine learning technique for natural language…
How Facebook is using AI to improve photo descriptions for people who are blind or visually impaired
@ml_nlp_cv
@ml_nlp_cv
Tech at Meta
How Facebook is using AI to improve photo descriptions for people who are blind or visually impaired How Facebook is using automatic…
How Facebook is using AI to improve photo descriptions for people who are blind or visually impaired How Facebook is using automatic alt text to improve photo descriptions for people who are blind and visually impairedHow Facebook is using AI to improve photo…
Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity
توضیح مقاله: در عنوان مقاله ذکر شده که تعداد پارامترهای ترسفورمر به یک تریلیون افزایش یافته است (تعداد پارامترهای مدل #GPT_3، صدوهفتاد و پنج بیلیون بود!)
سوالی که در اینجا پیش می آید این است که آیا واقعا تعداد پارامترها، در مقایسه با ترنسفورمرهای قبلی به این نسبت (تقریبا ۵.۵ برابر) افزایش پیدا کرده است؟!
بله، ولی اینجا به روش متفاوتی از پارامترها استفاده میشه. یک روش sparse (در عنوان مقاله هم کلمه sparsity قید شده)
در این کار از یک معماری به اسم Switch-Tramsformers استفاده کرده اند. معماری که بر اساس MoE عمل میکنه (خود MoE یا Mixture of Experts هم مفهوم با ارزشی است که اخیرا داره مطرح میشه)
لایه فیدفوروارد شبکه به این expert ها تقسیم بندی میشه و سوئیچ-ترنسفورمر، هر توکِن رو فقط به یک اکسپرت route میکنه (اسپارسیتی یا تُنُک بودن اینجا هست)
روشهای قبلی مبتنی بر MoE ادعا میکردند برای اینکه یک سیگنال آموزشی باثبات داشته باشیم حداقل به دو تا expert نیاز داریم. اما معماری ترسفورمری که اینجا ارائه شده این تعداد را به یک عدد کاهش داده است.
نتیجه: امکان scaling اکسپرت ها، و در واقع امکان افزایش تعداد پارامترهای مدل، اون هم بدون اینکه مدل مجبور به محاسبات بیشتری باشد، فراهم شده است (این فرض و مفهومی خیلی مهم و باارزش محسوب می شود)
به همین دلیل در ابتدا عرض شد که تعداد یک تریلیون پارامتر عنوان شده در این مقاله، لزوما قابل قیاس با ۱۷۵ بیلیون پارامتر مدل GPT-3 نمیباشد!
راهکارهایی که در این مقاله برای با ثبات کردن آموزش ارائه شده:
• Selective Dropout
• Selective Casting of Parameters to Defferent Precisions
• Better initializiong
اینم لینک این مقاله جالب و نسبتا طولانی، تقدیم به شما:
https://arxiv.org/abs/2101.03961
@ml_nlp_cv
توضیح مقاله: در عنوان مقاله ذکر شده که تعداد پارامترهای ترسفورمر به یک تریلیون افزایش یافته است (تعداد پارامترهای مدل #GPT_3، صدوهفتاد و پنج بیلیون بود!)
سوالی که در اینجا پیش می آید این است که آیا واقعا تعداد پارامترها، در مقایسه با ترنسفورمرهای قبلی به این نسبت (تقریبا ۵.۵ برابر) افزایش پیدا کرده است؟!
بله، ولی اینجا به روش متفاوتی از پارامترها استفاده میشه. یک روش sparse (در عنوان مقاله هم کلمه sparsity قید شده)
در این کار از یک معماری به اسم Switch-Tramsformers استفاده کرده اند. معماری که بر اساس MoE عمل میکنه (خود MoE یا Mixture of Experts هم مفهوم با ارزشی است که اخیرا داره مطرح میشه)
لایه فیدفوروارد شبکه به این expert ها تقسیم بندی میشه و سوئیچ-ترنسفورمر، هر توکِن رو فقط به یک اکسپرت route میکنه (اسپارسیتی یا تُنُک بودن اینجا هست)
روشهای قبلی مبتنی بر MoE ادعا میکردند برای اینکه یک سیگنال آموزشی باثبات داشته باشیم حداقل به دو تا expert نیاز داریم. اما معماری ترسفورمری که اینجا ارائه شده این تعداد را به یک عدد کاهش داده است.
نتیجه: امکان scaling اکسپرت ها، و در واقع امکان افزایش تعداد پارامترهای مدل، اون هم بدون اینکه مدل مجبور به محاسبات بیشتری باشد، فراهم شده است (این فرض و مفهومی خیلی مهم و باارزش محسوب می شود)
به همین دلیل در ابتدا عرض شد که تعداد یک تریلیون پارامتر عنوان شده در این مقاله، لزوما قابل قیاس با ۱۷۵ بیلیون پارامتر مدل GPT-3 نمیباشد!
راهکارهایی که در این مقاله برای با ثبات کردن آموزش ارائه شده:
• Selective Dropout
• Selective Casting of Parameters to Defferent Precisions
• Better initializiong
اینم لینک این مقاله جالب و نسبتا طولانی، تقدیم به شما:
https://arxiv.org/abs/2101.03961
@ml_nlp_cv
Forwarded from NLP stuff
سایت paperswithcode (که توصیه میکنیم توی این سایت بخوابید) اومده مقالههای قبول شدهی ICLR 2021 را به همراه کدشون گذاشته و میتونید با استفاده از تسک و نویسنده و keyword فیلتر کنید.
https://paperswithcode.com/conference/iclr-2021-1
#link
@nlp_stuff
https://paperswithcode.com/conference/iclr-2021-1
#link
@nlp_stuff
This media is not supported in your browser
VIEW IN TELEGRAM
روش جدید ارائه شده توسط جورجیاتک و مرکز هوش مصنوعی فیس بوک، برای فشرده سازی مدل های توصیه گر عمیق که منجر به کاهش قابل توجه میزان مصرف حافظه و استفاده از آنها در مقیاس بزرگ تر می شود. نوآوری کلیدی این روش جایگزینی جداول تعبیه سازی بزرگ DLRM با دنباله ای از ضرب های ماتریسی با استفاده از روش تجزیه tensor train میباشد.
TTc-Rec: Tensor Train Compression for Deep Learning Recommendation Models. paper, Github and blog post.
@ml_nlp_cv
TTc-Rec: Tensor Train Compression for Deep Learning Recommendation Models. paper, Github and blog post.
@ml_nlp_cv
Forwarded from PyTorch Howsam
و این گوگل کولب دوست داشتنی!
کولب امکانی رو اضافه کرده که بعد از اینکه اجرا تموم شد، به شما نوتیف میده! مناسب برای زمانی که اجرا گذاشتید و مشغول کار دیگری هستید.
نحوه فعالسازی:
Tools -> Settings -> Site -> Show desktop notif...
@pytorch_howsam
کولب امکانی رو اضافه کرده که بعد از اینکه اجرا تموم شد، به شما نوتیف میده! مناسب برای زمانی که اجرا گذاشتید و مشغول کار دیگری هستید.
نحوه فعالسازی:
Tools -> Settings -> Site -> Show desktop notif...
@pytorch_howsam
Forwarded from آرمان بهنام (آرمان بهنام)
This media is not supported in your browser
VIEW IN TELEGRAM
#کرونا #شهر_هوشمند #اینترنت_اشیا
دستگیره درب هوشمند
🖌این دستگیره خودش را ضدعفونی میکند.
________
📚@BigDataServe
دستگیره درب هوشمند
🖌این دستگیره خودش را ضدعفونی میکند.
________
📚@BigDataServe
The battle of algorithms: Uncovering offensive AI | MIT Technology Review
https://www.technologyreview.com/2021/02/05/1017563/the-battle-of-algorithms-uncovering-offensive-ai/
https://www.technologyreview.com/2021/02/05/1017563/the-battle-of-algorithms-uncovering-offensive-ai/
MIT Technology Review
The battle of algorithms: Uncovering offensive AI
As machine-learning applications move into the mainstream, a new era of cyber threat is emerging—one that uses offensive artificial intelligence (AI) to supercharge attack campaigns. Offensive AI allows attackers to automate reconnaissance, craft tailored…
AI detects 1,210 potential gravitational lenses in the search for dark matter
https://thenextweb.com/neural/2021/02/03/ai-detects-1210-new-potential-gravitational-lenses-in-the-search-for-dark-matter/
https://thenextweb.com/neural/2021/02/03/ai-detects-1210-new-potential-gravitational-lenses-in-the-search-for-dark-matter/
Neural | The Next Web
AI detects 1,210 new potential gravitational lenses in the search for dark matter
Scientists used deep residual neural networks to search for the lenses in surveys of the sky. Their study could help unravel the mysteries of dark matter.
Forwarded from PyTorch Howsam
This media is not supported in your browser
VIEW IN TELEGRAM
CharacterGAN
تولید کاراکتر همراه با انیمیشن با استفاده از GAN
مقالهای که طی روزهای اخیر ترند شده و موردتوجه قرار گرفته. کار قشنگیه...
مقاله | کد پایتورچ
@pytorch_howsam
تولید کاراکتر همراه با انیمیشن با استفاده از GAN
مقالهای که طی روزهای اخیر ترند شده و موردتوجه قرار گرفته. کار قشنگیه...
مقاله | کد پایتورچ
@pytorch_howsam
Forwarded from NLP stuff
This media is not supported in your browser
VIEW IN TELEGRAM
توضیح خلاصهی ViT
در چند روز اخیر سیلی عظیمی از مدلهای ترنسفورمری برای vision به راه افتادهاند. اگر هنوز مقاله An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale را نخوندید و حوصله خوندن پیپرش را هم هنوز ندارید، ده دقیقه این پست را مشاهده کنید تا بفهمید چه خبره و از قافله بعدی عقب نمونید.
https://theaisummer.com/vision-transformer/
پ.ن. قبلا این مقاله را در این پست (https://t.iss.one/nlp_stuff/82) معرفی کرده بودیم.
#read
#blog
@nlp_stuff
در چند روز اخیر سیلی عظیمی از مدلهای ترنسفورمری برای vision به راه افتادهاند. اگر هنوز مقاله An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale را نخوندید و حوصله خوندن پیپرش را هم هنوز ندارید، ده دقیقه این پست را مشاهده کنید تا بفهمید چه خبره و از قافله بعدی عقب نمونید.
https://theaisummer.com/vision-transformer/
پ.ن. قبلا این مقاله را در این پست (https://t.iss.one/nlp_stuff/82) معرفی کرده بودیم.
#read
#blog
@nlp_stuff
مقاله ای جدید در nature که نشان میدهد از روی چهره افراد می توان گرایشات سیاسی آنها را متوجه شد!
https://www.nature.com/articles/s41598-020-79310-1
@ml_nlp_cv
https://www.nature.com/articles/s41598-020-79310-1
@ml_nlp_cv
Nature
Facial recognition technology can expose political orientation from naturalistic facial images
Scientific Reports - Facial recognition technology can expose political orientation from naturalistic facial images
توضیح خیلی خوب و روان مدل #GPT_3، و معرفی پنج ابزار مبتنی بر این مدل برای تولید محتوا، تولید متون تبلیغاتی و بازاریابی:
https://techpp.com/2021/01/28/gpt-3-tools-for-copywriting
@ml_nlp_cv
https://techpp.com/2021/01/28/gpt-3-tools-for-copywriting
@ml_nlp_cv
TechPP
GPT-3 for Copywriting: What is it and What are the Best GPT-3 Tools for Copywriting - TechPP
If you've been keeping an eye on GPT-3 and are interested in trying it out for your copywriting needs, here are some of the best GPT-3 tools to help you with different content generation needs.