Forwarded from NLP stuff
همه ممکن است نشت کنند!
یکی از مهمترین بخشهای پایپلاین دیتا، نحوه صحیح تقسیمبندی دیتا به دادهی train و test است. نکات زیادی داره که مهمتریناش اینه که نباید نشتی داشته باشید؛ یعنی از دادهی آموزش نباید توی دادهی ولیدیشن و تست داشته باشید وگرنه میبینید متریکتون به شکل غیرواقعی خوب میشه. باز یکی دیگه از نکاتش اینه که قرار نیست توزیع داده آموزش و تست تفاوت زیادی کنند وگرنه میبینید که روی داده تست نتایجتون خیلی ضعیف میشه. یا اینکه قرار نیست هر جور که دوست دارید دادتون رو تقسیم کنید و گاهی مثلا اگر مساله با سری زمانی در ارتباطه، لازمه روی خط زمانی تقسیم کنید و گاهی لازمه شافل کنید و رندوم تقسیم کنید. نکات بیشتر و دقیقتری رو در فصل یک و دو کتاب hands on ml میتونید پیدا کنید.
شاید با خودتون فکر کنید خب اینکه خیلی راحته؛ ولی اینطور نیست. استاد پوروطنِ ما همیشه این مثل معروف رو میگفت که: شیطان در جزئیاته.
سال ۲۰۱۷ اندرو انگِ گولاخ و شرکا یک مقاله با عنوان CheXNet: Radiologist-Level Pneumonia Detection on Chest X-Rays with Deep Learning دادند (تریلی اسم مقاله رو نمیکشه). اونجا یه مدل CNNای ارائه دادند و روی صد هزار تا تصویر رادیولوژی از ۳۰ هزار تا بیمار آموزش دادند تا بتونند بیماری ذات الریه رو تشخیص بدن (اولا عظمت دیتا رو داشته باشید. ثانیا دقت کردید که چند تا تصویر برای یک بیمار وجود داشته). بعد اومدند این دیتا رو ۸۰ به ۲۰ بین آموزش و تست به صورت رندوم تقسیم کردند. چشمتون مشکل رو دید؟ اگر شما بیاید دیتا رو به صورت رندوم تقسیم کنید تصاویر یک بیمار میتونه توی هر دو تا دادهی ترین و تست باشه و مدل میتونه از فیچرهای مربوط به بیمار کلی استفاده کنه؛ حتی اگر این فیچرها مستقیما مربوط به خود بیماری ذات الریه نباشه. مثلا یک زخمی از عمل رو توی یه عکس آموزش میبینه و یاد میگیره این مربوط به کلاس اوله. بعد دیگه هر جا عین همون زخم رو ببینه زرتی میگه کلاس اوله و دیگه فکر نمیکنه. یعنی یه میانبر پیدا کرد. بعد از ۱۱ روز فهمیدند مشکل داره و اومدند این رو درست کردند و دوباره مقاله رو منتشر کردند. در عکس دوم ضمیمهشده به پست میتونید ببینید که جملهی there was 𝗻𝗼 𝗽𝗮𝘁𝗶𝗲𝗻𝘁 𝗼𝘃𝗲𝗿𝗹𝗮𝗽 between the sets رو در تصویر راست (نسخه اصلاح شده) نسبت به تصویر چپ (نسخه اولیه) اضافه کردند و نحوه تقسیم رو تغییر دادند.
حداقل دو تا درس از این موضوع میتونیم یاد بگیریم: اول. حواسمون به نشتی باشه چون همه ممکنه نشت کنیم. دوم. همه حتی اندرو انگ و شرکا هم ممکنه اشتباه کنند. پس فقط سعی کنیم یاد بگیریم، درستش کنیم و تکرار نکنیم. خجالت هم نداره.
لینک مقاله نسخه اول:
https://arxiv.org/abs/1711.05225v1
لینک مقاله نسخه اصلاح شده:
https://arxiv.org/abs/1711.05225
لینک توئیت توضیح این داستان:
https://twitter.com/svpino/status/1592140348905517056
پ.ن. شما هم اگر پست خوبی داشتید بفرستید تا به اسم خودتون توی کانال بذاریم.
#tweet
#handson
@nlp_stuff
یکی از مهمترین بخشهای پایپلاین دیتا، نحوه صحیح تقسیمبندی دیتا به دادهی train و test است. نکات زیادی داره که مهمتریناش اینه که نباید نشتی داشته باشید؛ یعنی از دادهی آموزش نباید توی دادهی ولیدیشن و تست داشته باشید وگرنه میبینید متریکتون به شکل غیرواقعی خوب میشه. باز یکی دیگه از نکاتش اینه که قرار نیست توزیع داده آموزش و تست تفاوت زیادی کنند وگرنه میبینید که روی داده تست نتایجتون خیلی ضعیف میشه. یا اینکه قرار نیست هر جور که دوست دارید دادتون رو تقسیم کنید و گاهی مثلا اگر مساله با سری زمانی در ارتباطه، لازمه روی خط زمانی تقسیم کنید و گاهی لازمه شافل کنید و رندوم تقسیم کنید. نکات بیشتر و دقیقتری رو در فصل یک و دو کتاب hands on ml میتونید پیدا کنید.
شاید با خودتون فکر کنید خب اینکه خیلی راحته؛ ولی اینطور نیست. استاد پوروطنِ ما همیشه این مثل معروف رو میگفت که: شیطان در جزئیاته.
سال ۲۰۱۷ اندرو انگِ گولاخ و شرکا یک مقاله با عنوان CheXNet: Radiologist-Level Pneumonia Detection on Chest X-Rays with Deep Learning دادند (تریلی اسم مقاله رو نمیکشه). اونجا یه مدل CNNای ارائه دادند و روی صد هزار تا تصویر رادیولوژی از ۳۰ هزار تا بیمار آموزش دادند تا بتونند بیماری ذات الریه رو تشخیص بدن (اولا عظمت دیتا رو داشته باشید. ثانیا دقت کردید که چند تا تصویر برای یک بیمار وجود داشته). بعد اومدند این دیتا رو ۸۰ به ۲۰ بین آموزش و تست به صورت رندوم تقسیم کردند. چشمتون مشکل رو دید؟ اگر شما بیاید دیتا رو به صورت رندوم تقسیم کنید تصاویر یک بیمار میتونه توی هر دو تا دادهی ترین و تست باشه و مدل میتونه از فیچرهای مربوط به بیمار کلی استفاده کنه؛ حتی اگر این فیچرها مستقیما مربوط به خود بیماری ذات الریه نباشه. مثلا یک زخمی از عمل رو توی یه عکس آموزش میبینه و یاد میگیره این مربوط به کلاس اوله. بعد دیگه هر جا عین همون زخم رو ببینه زرتی میگه کلاس اوله و دیگه فکر نمیکنه. یعنی یه میانبر پیدا کرد. بعد از ۱۱ روز فهمیدند مشکل داره و اومدند این رو درست کردند و دوباره مقاله رو منتشر کردند. در عکس دوم ضمیمهشده به پست میتونید ببینید که جملهی there was 𝗻𝗼 𝗽𝗮𝘁𝗶𝗲𝗻𝘁 𝗼𝘃𝗲𝗿𝗹𝗮𝗽 between the sets رو در تصویر راست (نسخه اصلاح شده) نسبت به تصویر چپ (نسخه اولیه) اضافه کردند و نحوه تقسیم رو تغییر دادند.
حداقل دو تا درس از این موضوع میتونیم یاد بگیریم: اول. حواسمون به نشتی باشه چون همه ممکنه نشت کنیم. دوم. همه حتی اندرو انگ و شرکا هم ممکنه اشتباه کنند. پس فقط سعی کنیم یاد بگیریم، درستش کنیم و تکرار نکنیم. خجالت هم نداره.
لینک مقاله نسخه اول:
https://arxiv.org/abs/1711.05225v1
لینک مقاله نسخه اصلاح شده:
https://arxiv.org/abs/1711.05225
لینک توئیت توضیح این داستان:
https://twitter.com/svpino/status/1592140348905517056
پ.ن. شما هم اگر پست خوبی داشتید بفرستید تا به اسم خودتون توی کانال بذاریم.
#tweet
#handson
@nlp_stuff
Telegram
stuff
👍6
برای دوستانی که در میونه هایپ ChatGPT و مدل های generative (😁) میخوان پایههاشونو قوی کنن:
دوست خوبمون Sebastian Raschka (یکی از نویسندههای کتاب Machine Learning with PyTorch and Scikit-Learn، که نسبتاً اخیره و آخرین چاپش مال 2021 هست) یک پلیلیست یوتیوب داره به نام
Intro to Deep Learning and Generative Models Course
که توش انواع و اقسام مدلهای مهم دیپ لرنینگ و خصوصاً generative رو با کد پایتورچ کاور میکنه
شخصاً پیشنهادش میکنم. تا اینجا AE, VAE, GAN رو از روش نگاه کردم و تکمیل بود👌
اینم لینکش: https://www.youtube.com/playlist?list=PLTKMiZHVd_2KJtIXOW0zFhFfBaJJilH51
دوست خوبمون Sebastian Raschka (یکی از نویسندههای کتاب Machine Learning with PyTorch and Scikit-Learn، که نسبتاً اخیره و آخرین چاپش مال 2021 هست) یک پلیلیست یوتیوب داره به نام
Intro to Deep Learning and Generative Models Course
که توش انواع و اقسام مدلهای مهم دیپ لرنینگ و خصوصاً generative رو با کد پایتورچ کاور میکنه
شخصاً پیشنهادش میکنم. تا اینجا AE, VAE, GAN رو از روش نگاه کردم و تکمیل بود👌
اینم لینکش: https://www.youtube.com/playlist?list=PLTKMiZHVd_2KJtIXOW0zFhFfBaJJilH51
YouTube
Intro to Deep Learning and Generative Models Course
Deep learning is a field that specializes in discovering and extracting intricate structures in large, unstructured datasets for parameterizing artificial ne...
🔥8
انتشارات Manning یک تعداد زیادی کتاب داره توی همه حوزههای برنامهنویسی و دیتاساینس
کافیه برین توی کاتالوگش: https://www.manning.com/catalog
و کلمه کلیدی "deep learning" رو سرچ کنید. برای حوزه خاص خودتون هم حتی کتاب داره😁
متن نسبتاً روون با فونت خاص و توام با تصاویر، از ویژگیهای بارز این کتابهاست
کافیه برین توی کاتالوگش: https://www.manning.com/catalog
و کلمه کلیدی "deep learning" رو سرچ کنید. برای حوزه خاص خودتون هم حتی کتاب داره😁
متن نسبتاً روون با فونت خاص و توام با تصاویر، از ویژگیهای بارز این کتابهاست
🔥2
Forwarded from Deep Time
به چیزای بد فکر نکنید! هوش مصنوعی تصویری که در ذهنتون هست رو میبینه، البته فعلا با اسکن مغزی fMRI
Link
مقالهای که اخیرا توسط دو محقق ژاپنی منتشر شده نشون میده که با استفاده از Stable Diffusion تونستن تصویر ذهنی افراد رو بازسازی کنن. مقاله فعلا peer review نیست اما در ژورنال معتبر CVPR برای سال 2023 پذیرفته شده.
بعد از Transformerها که حدود 6سال پیش دنیای هوش مصنوعی رو متحول کردند و نتیجش شد چیزی مثل chatGPT، حالا یکی دو سالی هست Diffusion تکنولوژی روز هوش مصنوعی شده و نتایجی مثل DALL-E برای تولید تصاویر از متن با هوش مصنوعی داشته. اما این مقاله نشون میده قدرت این مدلها بیشتر از این حرفاست.
@deeptimeai
Link
مقالهای که اخیرا توسط دو محقق ژاپنی منتشر شده نشون میده که با استفاده از Stable Diffusion تونستن تصویر ذهنی افراد رو بازسازی کنن. مقاله فعلا peer review نیست اما در ژورنال معتبر CVPR برای سال 2023 پذیرفته شده.
بعد از Transformerها که حدود 6سال پیش دنیای هوش مصنوعی رو متحول کردند و نتیجش شد چیزی مثل chatGPT، حالا یکی دو سالی هست Diffusion تکنولوژی روز هوش مصنوعی شده و نتایجی مثل DALL-E برای تولید تصاویر از متن با هوش مصنوعی داشته. اما این مقاله نشون میده قدرت این مدلها بیشتر از این حرفاست.
@deeptimeai
Google
Stable Diffusion with Brain Activity
Accepted at CVPR 2023
Yu Takagi* 1,2 , Shinji Nishimoto 1,2
1. Graduate School of Frontier Biosciences, Osaka University, Japan
2. CiNet, NICT, Japan
Yu Takagi* 1,2 , Shinji Nishimoto 1,2
1. Graduate School of Frontier Biosciences, Osaka University, Japan
2. CiNet, NICT, Japan
🔥3
Forwarded from Ai Events️ (محمودآبادی)
Prof. Giuseppe Attardi, a prominent AI researcher internationally, will deliver the e-lecture:
“Large Language Models are All You Need”,
on March 14th, 2023 17:00 -18:00 CET,
see details in: https://www.i-aida.org/ai-lectures/
You can join for free using the zoom link: link & Password: 148148
Attendance is free.
@Ai_Events
“Large Language Models are All You Need”,
on March 14th, 2023 17:00 -18:00 CET,
see details in: https://www.i-aida.org/ai-lectures/
You can join for free using the zoom link: link & Password: 148148
Attendance is free.
@Ai_Events
AIDA - AI Doctoral Academy
AI Excellence Lecture Series - AIDA - AI Doctoral Academy
Please click to the following: AI Excellence Lecture Series.
Stanford MLSys Seminar Series
This seminar series has an incredible amount of knowledge and tips on a wide range of topics in ML.
Just finished watching the OPT episode which is a really good watch if you are training LLMs or just want to learn how it's done.
https://youtube.com/playlist?list=PLSrTvUm384I9PV10koj_cqit9OfbJXEkq
This seminar series has an incredible amount of knowledge and tips on a wide range of topics in ML.
Just finished watching the OPT episode which is a really good watch if you are training LLMs or just want to learn how it's done.
https://youtube.com/playlist?list=PLSrTvUm384I9PV10koj_cqit9OfbJXEkq
YouTube
MLSys Seminars
Share your videos with friends, family, and the world
Forwarded from باشگاه دانشجویی رستا
ارائهی علمی
یادگیری ماشین بر مبنای استنتاج علّی
🗣️ گفتوگویی با احسان شریفیان، دانشجوی کارشناسی ارشد برق مخابرات سیستم صنعتی شریف
🔍 پژوهشهایی اخیرا بر این ایده متمرکزند که انسان در اصل یادگیری خود علتها را تشخیص میدهد و رفتار محیط خود را بر اساس آن علتهای عام پیشبینی میکند. این پژوهشها سعی داشتهاند که مفهوم علتها و معلولهایشان را به صورت ریاضی مدل کرده و ارتباط آن با روشهای آماری و ... را بیان کنند. سپس به کمک این مدلسازی الگوریتمهای یادگیری ماشین را بهبود بخشند.
🎙️ در این ارائه سعی میکنیم کمی بیشتر با این حوزه و مطالب مربوط به آن آشنا شویم.
📆 یکشنبه، ۲۱ اسفند ماه
⏰ ساعت ۲۰:۰۰
📌 لینک ورود به جلسه
🌱 منتظر حضورتون هستیم!
🕊 رستایی باشید.
[ RastaihaClub | Instagram | Rastaiha ]
یادگیری ماشین بر مبنای استنتاج علّی
🗣️ گفتوگویی با احسان شریفیان، دانشجوی کارشناسی ارشد برق مخابرات سیستم صنعتی شریف
🔍 پژوهشهایی اخیرا بر این ایده متمرکزند که انسان در اصل یادگیری خود علتها را تشخیص میدهد و رفتار محیط خود را بر اساس آن علتهای عام پیشبینی میکند. این پژوهشها سعی داشتهاند که مفهوم علتها و معلولهایشان را به صورت ریاضی مدل کرده و ارتباط آن با روشهای آماری و ... را بیان کنند. سپس به کمک این مدلسازی الگوریتمهای یادگیری ماشین را بهبود بخشند.
🎙️ در این ارائه سعی میکنیم کمی بیشتر با این حوزه و مطالب مربوط به آن آشنا شویم.
📆 یکشنبه، ۲۱ اسفند ماه
⏰ ساعت ۲۰:۰۰
📌 لینک ورود به جلسه
🌱 منتظر حضورتون هستیم!
🕊 رستایی باشید.
[ RastaihaClub | Instagram | Rastaiha ]
👍2
Forwarded from AI with Papers - Artificial Intelligence & Deep Learning
🎀 The baby is born: GPT-4 is out! 🎀
👉GPT-4 is the new LLM (accepting image and text inputs, emitting text outputs) with human-level performance on various professional and academic benchmarks
😎More: https://bit.ly/3LntuWL
👉GPT-4 is the new LLM (accepting image and text inputs, emitting text outputs) with human-level performance on various professional and academic benchmarks
😎More: https://bit.ly/3LntuWL
🔥3👎1
Forwarded from NLP stuff
و اکنون GPT-4
و سرانجام لحظاتی پیش Open-AI رسما انتشار مدل GPT-4 را تایید کرد. فعلا تحولات اخیر در رابطه با این مدل به صورت خلاصه وار اینه که:
- در تسکهای تستهای انسانی آکادمیک (مثل GRE) از مدلهای قبلی مثل GPT-3 بهتره و در خیلی از تسکها در صدکهای بالایی قرار داره که یعنی از بیش از نیمی از انسانها هم برتره. این رو به این معنا تفسیر کردند که این مدل تواناییهای Reasoning قابل توجهی داره.
- مولتی مداله، یعنی میتونه تصویر رو هم در کنار prompt ورودی بگیره و با توجه به اون پرامپت روی اون تصویر توضیحی بده. مثلا بهش میگید تو این عکس چه میبینی و میاد براتون توضیح میده. در خیلی از تسکای پرسش و پاسخ تصویری با این که دقتش به حد SOTA نمیرسه اما باز هم قابل قبوله و از مدلهای مولتی مدال قبلی بهتر داره نتیجه میگیره (وقتی میتونید ارزش این کار رو درک کنید که دقت کنید که به صورت Zero-Shot داره این کار رو انجام میده!)
- قابلیت شخصیسازی و فرمانپذیری سبک پاسخ دادن داره! در واقع این امکان وجود داره که شما با پیامهاتون به GPT بفهمونید که دوست دارید با چه سبکی بهتون پاسخ بده. یک مثال جالب خود Open-AI تو دموش گذاشته که به طرف میگه فرض کن سقراط هستی و در نقش معلم و هیچ وقت به دانش آموزات پاسخ رو نمیدی بلکه سعی میکنی با سوال پرسیدن اونها رو به جواب برسونی و بعد به طرز جالبی سعی کردن که باهاش یک معادله دو مجهولی رو حل کنند!
- همچنان با همون تسک ساده پیشبینی کلمه بعدی آموزش دیده اما با تاثیرپذیری از Chat-GPT اینجا هم اومدن و از RHLF برای فاینتیونکردن GPT-4 استفاده کردند.
برای توضیحات بیشتر اینجا را ببینید:
https://openai.com/research/gpt-4
@nlp_stuff
و سرانجام لحظاتی پیش Open-AI رسما انتشار مدل GPT-4 را تایید کرد. فعلا تحولات اخیر در رابطه با این مدل به صورت خلاصه وار اینه که:
- در تسکهای تستهای انسانی آکادمیک (مثل GRE) از مدلهای قبلی مثل GPT-3 بهتره و در خیلی از تسکها در صدکهای بالایی قرار داره که یعنی از بیش از نیمی از انسانها هم برتره. این رو به این معنا تفسیر کردند که این مدل تواناییهای Reasoning قابل توجهی داره.
- مولتی مداله، یعنی میتونه تصویر رو هم در کنار prompt ورودی بگیره و با توجه به اون پرامپت روی اون تصویر توضیحی بده. مثلا بهش میگید تو این عکس چه میبینی و میاد براتون توضیح میده. در خیلی از تسکای پرسش و پاسخ تصویری با این که دقتش به حد SOTA نمیرسه اما باز هم قابل قبوله و از مدلهای مولتی مدال قبلی بهتر داره نتیجه میگیره (وقتی میتونید ارزش این کار رو درک کنید که دقت کنید که به صورت Zero-Shot داره این کار رو انجام میده!)
- قابلیت شخصیسازی و فرمانپذیری سبک پاسخ دادن داره! در واقع این امکان وجود داره که شما با پیامهاتون به GPT بفهمونید که دوست دارید با چه سبکی بهتون پاسخ بده. یک مثال جالب خود Open-AI تو دموش گذاشته که به طرف میگه فرض کن سقراط هستی و در نقش معلم و هیچ وقت به دانش آموزات پاسخ رو نمیدی بلکه سعی میکنی با سوال پرسیدن اونها رو به جواب برسونی و بعد به طرز جالبی سعی کردن که باهاش یک معادله دو مجهولی رو حل کنند!
- همچنان با همون تسک ساده پیشبینی کلمه بعدی آموزش دیده اما با تاثیرپذیری از Chat-GPT اینجا هم اومدن و از RHLF برای فاینتیونکردن GPT-4 استفاده کردند.
برای توضیحات بیشتر اینجا را ببینید:
https://openai.com/research/gpt-4
@nlp_stuff
Openai
GPT-4
We’ve created GPT-4, the latest milestone in OpenAI’s effort in scaling up deep learning. GPT-4 is a large multimodal model (accepting image and text inputs, emitting text outputs) that, while less capable than humans in many real-world scenarios, exhibits…
🔥4
پایتورچ 2.0
تمام تغییرات رو تو این لینک میتونین بررسی کنین:
https://github.com/pytorch/pytorch/releases/tag/v2.0.0
TLDR:
چند موردی که به نظرم برجستهتر بود:
۱. دیتاستهای توزیع شده
۲. بهینه کردن عملیاتهای مرتبط با ترنسفورمرها به خصوص نوع خاص اون یعنی مدلهای زبانی بزرگ (scaled dot product attention)
۳. فیکس کردن set_to_none=True فلگ تابع zero_grad جهت کم کردن سربار حافظه
تمام تغییرات رو تو این لینک میتونین بررسی کنین:
https://github.com/pytorch/pytorch/releases/tag/v2.0.0
TLDR:
چند موردی که به نظرم برجستهتر بود:
۱. دیتاستهای توزیع شده
۲. بهینه کردن عملیاتهای مرتبط با ترنسفورمرها به خصوص نوع خاص اون یعنی مدلهای زبانی بزرگ (scaled dot product attention)
۳. فیکس کردن set_to_none=True فلگ تابع zero_grad جهت کم کردن سربار حافظه
GitHub
Release PyTorch 2.0: Our next generation release that is faster, more Pythonic and Dynamic as ever · pytorch/pytorch
PyTorch 2.0 Release notes
Highlights
Backwards Incompatible Changes
Deprecations
New Features
Improvements
Bug fixes
Performance
Documentation
Highlights
We are excited to announce the release of...
Highlights
Backwards Incompatible Changes
Deprecations
New Features
Improvements
Bug fixes
Performance
Documentation
Highlights
We are excited to announce the release of...
👍3
Easy to miss in the PyTorch 2.0 release notes, they've added a small, but useful feature: torch.device, which previously just returned a device object, can now be used as a context manager.
A code speaks more than a thousand words: (1st pic)
At first, it doesn't look so useful, because you could also just call .to() on the tensor.
But when you create large tensors, and many of them, it may take a little bit to 1) overwrite the memory in CPU and 2) transfer it to the GPU.
With that context manager, you can just tell PyTorch to create the tensor on the device, rather than allocating memory on the CPU first.
This makes even more sense when you apply the context manager over the creation of a NN module: (second pic)
This is nice, because the entire module and all submodules get init directly on the device.
https://twitter.com/adrianwaelchli/status/1636161187632107521?s=19
A code speaks more than a thousand words: (1st pic)
At first, it doesn't look so useful, because you could also just call .to() on the tensor.
But when you create large tensors, and many of them, it may take a little bit to 1) overwrite the memory in CPU and 2) transfer it to the GPU.
With that context manager, you can just tell PyTorch to create the tensor on the device, rather than allocating memory on the CPU first.
This makes even more sense when you apply the context manager over the creation of a NN module: (second pic)
This is nice, because the entire module and all submodules get init directly on the device.
https://twitter.com/adrianwaelchli/status/1636161187632107521?s=19
👍1
Multimodal Machine Learning - Carnegie Mellon, 2022
A great series of lectures on multimodal machine learning(MML). The course covers fundamental concepts related to MML and recent state-of-the-art MML systems.
Lectures: https://www.youtube.com/playlist?list=PL-Fhd_vrvisNM7pbbevXKAbT_Xmub37fA
Webpage: https://cmu-multicomp-lab.github.io/mmml-course/fall2022/
Multimodal machine learning is a hot area in AI research. Unimodal learning has developed massively in the last 5 years. The challenge now is how we fuse different modalities(vision, audio, text, robot actions) into a single agent. GPT-4 & similar models are the beginning.
So good to see courses that are dedicated to this new and vibrant area of AI research.
A great series of lectures on multimodal machine learning(MML). The course covers fundamental concepts related to MML and recent state-of-the-art MML systems.
Lectures: https://www.youtube.com/playlist?list=PL-Fhd_vrvisNM7pbbevXKAbT_Xmub37fA
Webpage: https://cmu-multicomp-lab.github.io/mmml-course/fall2022/
Multimodal machine learning is a hot area in AI research. Unimodal learning has developed massively in the last 5 years. The challenge now is how we fuse different modalities(vision, audio, text, robot actions) into a single agent. GPT-4 & similar models are the beginning.
So good to see courses that are dedicated to this new and vibrant area of AI research.
🔥1
Forwarded from Silicon Brain | جامعه هوش مصنوعی
این روزا که chatgpt خیلی ترند شده، از تکنولوژی های جدید حوزه تصویر عقب نمونید!
دیفیوژن مدل برای تشخیص اشیا
تا به حال روشی برای تشخیص اشیا در نظر گرفته اید که بدون نیاز به داده های اولیه لیبل خورده، اشیای موجود در تصویر را تشخیص دهد؟
این مدل #دیفیوژن یعنی #DiffusionDet، از روش خاصی برای تشخیص اشیا استفاده میکند. این مدل ابتدا تصویر فعلی را با جعبه های تصادفی نویزی کرده و در ادامه با دینویز کردن جعبه ها فرآیند تشخیص تصویر را انجام میدهد!
پیپرویدکد | گیتهاب | مقاله
#denoising
@silicon_brain
دیفیوژن مدل برای تشخیص اشیا
تا به حال روشی برای تشخیص اشیا در نظر گرفته اید که بدون نیاز به داده های اولیه لیبل خورده، اشیای موجود در تصویر را تشخیص دهد؟
این مدل #دیفیوژن یعنی #DiffusionDet، از روش خاصی برای تشخیص اشیا استفاده میکند. این مدل ابتدا تصویر فعلی را با جعبه های تصادفی نویزی کرده و در ادامه با دینویز کردن جعبه ها فرآیند تشخیص تصویر را انجام میدهد!
پیپرویدکد | گیتهاب | مقاله
#denoising
@silicon_brain
👍2🔥2
توی مدل جدیدی که توسط تیم تحقیقاتی استنفورد منتشر شده، تونستن به واسطه فاین تیون مدل سبک Meta LLama (ورژن 7B) و متدولوژی self-instruct و API های مدل ساده داوینچی GPT با هزینه کمتر از ۶۰۰ دلار، یک چتبات با نام Alpaca توسعه بدن. نکات مهم مربوط به این چت بات، زمان مورد نیاز برای فاین تیون (حدود ۳ ساعت) و عدم نیازمندی به افراد برای label زدن و رنک کردن دستورات و پاسخ های چت بات (به کمک متد self-instruct) هستن.
پ.ن: بماند که فاینتیون رو با هشت تا GPU با ۸۰ گیگ رم انجام دادن🥲
https://youtu.be/xslW5sQOkC8
پ.ن: بماند که فاینتیون رو با هشت تا GPU با ۸۰ گیگ رم انجام دادن🥲
https://youtu.be/xslW5sQOkC8
🤯2👏1
The Annotated Transformer
Annotated version of the paper "Attention is All You Need" and line by line implementation in pytorch
https://nlp.seas.harvard.edu/annotated-transformer/
Annotated version of the paper "Attention is All You Need" and line by line implementation in pytorch
https://nlp.seas.harvard.edu/annotated-transformer/
👌5
MIT Researchers Introduce LiGO: A New Technique that Accelerates Training of Large Machine-Learning Models, Reducing the Monetary and Environmental Cost of Developing AI Applications
The transformer architecture has become a go-to choice for representing various domain structures. The empirical inductive biases of the transformer make it a good candidate for scaling. This paves the way for the periodic training and release of expanded versions of existing, smaller models. Although often a scaled-up version of their smaller counterparts, new instances of such models are normally trained from the start. Since even the smallest models need a significant amount of computational resources to train, the parameters of smaller pretrained models should be used to speed up the training of larger models.
When looking at this issue from the perspective of model growth, one strategy is to use the pretrained parameters of a smaller model to initialize some of the parameters of the larger model. Recent research has shown that training can be accelerated by copying a subset of the pretrained parameters to initialize the new parameters and then fine-tuning the entire network. This contrasts earlier works, which generally froze the parameters initialized from the pretrained model and only trained the new (randomly initialized) parameters.
The Computer Science and Artificial Intelligence Laboratory (CSAIL) suggests using pre-trained, smaller language models to boost the effectiveness of these training approaches at a reduced cost and time commitment. Their approach uses machine learning to “grow” a more complex model from a simpler one to encode the smaller model’s prior knowledge. This allows for the larger model to be trained more quickly. The team doesn’t just throw away old models but takes their best parts and uses them to create something new.
Project: https://vita-group.github.io/LiGO/
Blog: https://www.marktechpost.com/2023/03/24/mit-researchers-introduce-ligo-a-new-technique-that-accelerates-training-of-large-machine-learning-models-reducing-the-monetary-and-environmental-cost-of-developing-ai-applications/
The transformer architecture has become a go-to choice for representing various domain structures. The empirical inductive biases of the transformer make it a good candidate for scaling. This paves the way for the periodic training and release of expanded versions of existing, smaller models. Although often a scaled-up version of their smaller counterparts, new instances of such models are normally trained from the start. Since even the smallest models need a significant amount of computational resources to train, the parameters of smaller pretrained models should be used to speed up the training of larger models.
When looking at this issue from the perspective of model growth, one strategy is to use the pretrained parameters of a smaller model to initialize some of the parameters of the larger model. Recent research has shown that training can be accelerated by copying a subset of the pretrained parameters to initialize the new parameters and then fine-tuning the entire network. This contrasts earlier works, which generally froze the parameters initialized from the pretrained model and only trained the new (randomly initialized) parameters.
The Computer Science and Artificial Intelligence Laboratory (CSAIL) suggests using pre-trained, smaller language models to boost the effectiveness of these training approaches at a reduced cost and time commitment. Their approach uses machine learning to “grow” a more complex model from a simpler one to encode the smaller model’s prior knowledge. This allows for the larger model to be trained more quickly. The team doesn’t just throw away old models but takes their best parts and uses them to create something new.
Project: https://vita-group.github.io/LiGO/
Blog: https://www.marktechpost.com/2023/03/24/mit-researchers-introduce-ligo-a-new-technique-that-accelerates-training-of-large-machine-learning-models-reducing-the-monetary-and-environmental-cost-of-developing-ai-applications/
vita-group.github.io
Learning to Grow Pretrained Models for Efficient Transformer Training
Peihao Wang, Rameswar Panda, Lucas Torroba Hennigen, Philip Greengard, Leonid Karlinsky, Rogerio Feris, David Cox, Atlas Wang, Yoon Kim. Learning to Grow Pretrained Models for Efficient Transformer Training. In ICLR, 2023.