مدل بازشناسی گفتار wav2vec2 فارسی
دوستان اومدند مدل wav2vec2 چند زبانه رو برای فارسی روی یه بخشی از دیتاست شخصی که در اختیار داشتند فاین تیون کردند و مدل نهایی رو با سخاوت روی هاگینگ فیس گذاشتند. نتایجش از مدلهایی که قبلاً بوده بهتر شده.
میتونید روی هاگینگ فیس با هر صوتی که میخواید تستش کنید.
لینک گیتهاب:
https://github.com/Hamtech-ai/wav2vec2-fa
لینک هاگینگ فیس:
https://huggingface.co/masoudmzb/wav2vec2-xlsr-multilingual-53-fa
پ.ن. با تشکر از آقایان مسعود پرپنچی و سجاد ایوبی که این پست رو فرستادند که در کانال قرار بدیم. دوست داشتید بهشون استار بدید که لذتشو ببرند.
#irani
#link
@nlp_stuff
دوستان اومدند مدل wav2vec2 چند زبانه رو برای فارسی روی یه بخشی از دیتاست شخصی که در اختیار داشتند فاین تیون کردند و مدل نهایی رو با سخاوت روی هاگینگ فیس گذاشتند. نتایجش از مدلهایی که قبلاً بوده بهتر شده.
میتونید روی هاگینگ فیس با هر صوتی که میخواید تستش کنید.
لینک گیتهاب:
https://github.com/Hamtech-ai/wav2vec2-fa
لینک هاگینگ فیس:
https://huggingface.co/masoudmzb/wav2vec2-xlsr-multilingual-53-fa
پ.ن. با تشکر از آقایان مسعود پرپنچی و سجاد ایوبی که این پست رو فرستادند که در کانال قرار بدیم. دوست داشتید بهشون استار بدید که لذتشو ببرند.
#irani
#link
@nlp_stuff
GitHub
GitHub - Hamtech-ai/wav2vec2-fa: fine-tune Wav2vec2. an ASR model released by Facebook
fine-tune Wav2vec2. an ASR model released by Facebook - Hamtech-ai/wav2vec2-fa
داستان ترنسفورمرها (۵): سریع و سبک، گلابگیری از برت با دیستیلبرت
مدل برت با وجود تمام قدرتی که داره اما به خاطر سنگینبودنش در عمل سخت میشه ازش استفاده کرد و هم حافظه و هم زمان قابل توجهی رو میطلبه. در پنجمین پست از رشتهپست «داستان ترنسفورمرها»، سعی کردیم تکنیک distillation رو که یک راه حل ارائه شده برای فشردهسازی مدلهای بزرگ است بررسی کنیم و بعد هم مدل distilbert رو که حاصل از انجام این تکنیک بر روی مدل برت هست معرفی کنیم.
اگر پست خوبی داشتید خبر بدید که در انتشارات بگذاریم.
https://virgool.io/overfit/transformers5-distilbert-smwuod8mlb9p
#read
#blog
#overfit
@nlp_stuff
مدل برت با وجود تمام قدرتی که داره اما به خاطر سنگینبودنش در عمل سخت میشه ازش استفاده کرد و هم حافظه و هم زمان قابل توجهی رو میطلبه. در پنجمین پست از رشتهپست «داستان ترنسفورمرها»، سعی کردیم تکنیک distillation رو که یک راه حل ارائه شده برای فشردهسازی مدلهای بزرگ است بررسی کنیم و بعد هم مدل distilbert رو که حاصل از انجام این تکنیک بر روی مدل برت هست معرفی کنیم.
اگر پست خوبی داشتید خبر بدید که در انتشارات بگذاریم.
https://virgool.io/overfit/transformers5-distilbert-smwuod8mlb9p
#read
#blog
#overfit
@nlp_stuff
ویرگول
داستان ترنسفورمرها (۵): سریع و سبک، گلابگیری از برت با دیستیلبرت
در این پست میخوایم تکنیک distillation رو که برای فشرده سازی مدل های عصبی بزرگ به کار میره رو بررسی کنیم و بعد هم با مدل distilbert آشنا بشی…
دیتاست OCR ارشاسب
دیتاست ocr فارسی با نام اَرشاسب منتشر شد. این دیتاست (همچون نمونه در تصویر) شامل متنهای پیوستهای است که در آن، کلمات به همراه مختصات در تصویر برچسب زده شدهاند. ۷۰۰۰ صفحه از این دیتاست به صورت عمومی منتشر شده و همچنین نسخه کاملتر این دیتاست که شامل ۳۳ هزار صفحه است، توسط سازندگان آن برای اعضای کانال به صورت رایگان در دسترس قرار گرفته است.
لینک گیتهاب دیتاست (۷ هزار صفحه):
https://github.com/persiandataset/Arshasb
لینک کل دیتا (۳۳ هزار صفحه):
https://drive.google.com/file/d/1Ahw_y-ugnu6FFz_SRBm2VUxnaqmXfsvp
پ.ن. با تشکر از سازندهی این دیتاست که به کانال این پست را ارسال کردند. شما هم میتونید با استار دادن در گیتهاب از این پروژه حمایت کنید.
#dataset
#irani
@nlp_stuff
دیتاست ocr فارسی با نام اَرشاسب منتشر شد. این دیتاست (همچون نمونه در تصویر) شامل متنهای پیوستهای است که در آن، کلمات به همراه مختصات در تصویر برچسب زده شدهاند. ۷۰۰۰ صفحه از این دیتاست به صورت عمومی منتشر شده و همچنین نسخه کاملتر این دیتاست که شامل ۳۳ هزار صفحه است، توسط سازندگان آن برای اعضای کانال به صورت رایگان در دسترس قرار گرفته است.
لینک گیتهاب دیتاست (۷ هزار صفحه):
https://github.com/persiandataset/Arshasb
لینک کل دیتا (۳۳ هزار صفحه):
https://drive.google.com/file/d/1Ahw_y-ugnu6FFz_SRBm2VUxnaqmXfsvp
پ.ن. با تشکر از سازندهی این دیتاست که به کانال این پست را ارسال کردند. شما هم میتونید با استار دادن در گیتهاب از این پروژه حمایت کنید.
#dataset
#irani
@nlp_stuff
NLP stuff
خون اول. ParsTwiNER؛ دادگان عمومی توییتر فارسی برای NER از تیم اورفیت خوشبختانه مقاله ما در ورکشاپ WNUT کنفرانس EMNLP 2021 پذیرفته شد و ارائه شفاهی هم دادیم. این مقاله درباره named entity recognition در فضای فارسی غیررسمیه. در این مقاله یه دادگان خوب هم از…
خب خداروشکر کنفرانس EMNLP2021 هم به خوبی و خوشی تموم شد و مفتخریم بگیم که در کارگاه WNUT مقاله تیم اورفیت به عنوان runner-up (نایب قهرمان) انتخاب شد. امیدواریم از دیتاست تولید شده در این پژوهش حداکثر حظ و بهره رو ببرید و با یه استار زیبا ما رو هم حمایت کنید.
لینک مقاله:
https://aclanthology.org/2021.wnut-1.16/
لینک دادگان:
https://github.com/overfit-ir/parstwiner
@nlp_stuff
لینک مقاله:
https://aclanthology.org/2021.wnut-1.16/
لینک دادگان:
https://github.com/overfit-ir/parstwiner
@nlp_stuff
مروری بر هوش در ۲۰۲۱ و پیشبینی روند سال آینده
سال ۲۰۲۱ هم تمام شد و کلی مقاله و مدل و اتفاقات جدید در حوزه هوش مصنوعی رو شاهد بودیم. به همین مناسبت بررسی گزارش StateofAI که از ۲۰۱۸ به اینور در انتهای هر سال راجع به وضعیت و رخدادهای هوش خلاصهای رو ارائه میده، بسیار جذاب و سودمند میتونه باشه. در گزارش امسالشون هم چهار حوزه پیشرفتهای علمی، وضعیت عرضه و تقاضا و تمرکز استعدادهای انسانی، زمینههای کاربرد تجاری هوش مصنوعی و تاثیراتش بر کسب و کارها، رابطه هوش مصنوعی و مسائل سیاسی و ژئوپلتیک هوش مصنوعی رو بررسی کردند و در نهایت هم پیشبینی از رخدادهای سال آینده ارائه دادند. این گزارش شامل ۱۸۳ اسلاید بسیار غنی است. در زیر سعی شده تا خلاصهای از این خلاصه ارائه بشه:
- در حوزه پیشرفت علمی مهمترین مطالب این گزارش رو میشه رشد یادگیریهای کمتر نظارتی (مثل خودنظارتیها)، تصرف حوزههای مختلف هوش به دست معماری ترنسفورمری (تصویر و صوت)، ظهور معماری های نوین CNN و MLP برای به چالش کشیدن ترنسفورمرها (مثل MLP-Mixer)، پیشرفت قابل توجه دیپ مایند در حوزه بیولوژی و یادگیری تقویتی و به وجود اومدن مساله مهندسی prompt در مدلهای زبانی دانست. مدلهایی مثل DALL-E و CLIP و Codex هم که مدلهای پر سر و صدای امسال بودند.
- نکته جالب این گزارش در حوزه منابع انسانی حوزه هوش رو هم میشه در رشد سریع هند و به خصوص چین در تولید مقالات و تربیت نیروی انسانی دید. همچنین مطلب دیگه محدودتر شدن ارائه کارهای برجسته به تعداد اندکی دانشگاه و شرکتهای پولدار و مهاجرت وسیع اساتید از دانشگاهها به شرکتهاست.
- در حوزه تاثیرات تجاری هوش هم این گزارش به پیشرفت هوش در صنعت کشف دارو، گستردهشدن کاربردهای هوش (از تخمین مصرف برق در شبکه توزیع گرفته تا زمان مناسب لقاح مصنوعی گاو) و البته در نهایت مساله مهم MLOps و بهراهاندازی و استقرار و استفاده از مدلهای یادگیری ماشین اشاره کرده. مشکلات اخیر بر سر مساله خطیر تولید و تامین نیمههادیها از دیگر نکات مذکور این بخشه.
- در حوزه سیاست هم گزارش راجع به داغ شدن مباحث اخلاقی در کاربرد هوش و نیاز به تفسیرپذیری و قانونمندکردن هوش اشاره کرده. همچنین مواردی از رشد هوش در صنایع نظامی هم بحث شده.
- اما در بخش پیشبینی، این گزارش هشت پیشبینی داشته که از موارد فنیتر اونها میشه به جایگزینشدن RNNها با ترنسفورمرها در یادگیری تقویتی، پرچمداری مدلهای هیبریدی ترنسفورمری و CNN کوچک با تعداد پارامتر خیلی کمتر روی مساله دستهبندی تصویر، افزایش استفاده از JAX و کدهای منتشرشده و تولد یک شرکت تحقیقاتی با تمرکز روی AGI (هوش جامع مصنوعی) اشاره کرد.
این گزارش بسیار خوب و مختصر و موجز و مفید مقالات یکسال گذشته رو مرور کرده، از دست ندید.
لینک گزارش و اسلایدها:
https://www.stateof.ai/
#read
@nlp_stuff
سال ۲۰۲۱ هم تمام شد و کلی مقاله و مدل و اتفاقات جدید در حوزه هوش مصنوعی رو شاهد بودیم. به همین مناسبت بررسی گزارش StateofAI که از ۲۰۱۸ به اینور در انتهای هر سال راجع به وضعیت و رخدادهای هوش خلاصهای رو ارائه میده، بسیار جذاب و سودمند میتونه باشه. در گزارش امسالشون هم چهار حوزه پیشرفتهای علمی، وضعیت عرضه و تقاضا و تمرکز استعدادهای انسانی، زمینههای کاربرد تجاری هوش مصنوعی و تاثیراتش بر کسب و کارها، رابطه هوش مصنوعی و مسائل سیاسی و ژئوپلتیک هوش مصنوعی رو بررسی کردند و در نهایت هم پیشبینی از رخدادهای سال آینده ارائه دادند. این گزارش شامل ۱۸۳ اسلاید بسیار غنی است. در زیر سعی شده تا خلاصهای از این خلاصه ارائه بشه:
- در حوزه پیشرفت علمی مهمترین مطالب این گزارش رو میشه رشد یادگیریهای کمتر نظارتی (مثل خودنظارتیها)، تصرف حوزههای مختلف هوش به دست معماری ترنسفورمری (تصویر و صوت)، ظهور معماری های نوین CNN و MLP برای به چالش کشیدن ترنسفورمرها (مثل MLP-Mixer)، پیشرفت قابل توجه دیپ مایند در حوزه بیولوژی و یادگیری تقویتی و به وجود اومدن مساله مهندسی prompt در مدلهای زبانی دانست. مدلهایی مثل DALL-E و CLIP و Codex هم که مدلهای پر سر و صدای امسال بودند.
- نکته جالب این گزارش در حوزه منابع انسانی حوزه هوش رو هم میشه در رشد سریع هند و به خصوص چین در تولید مقالات و تربیت نیروی انسانی دید. همچنین مطلب دیگه محدودتر شدن ارائه کارهای برجسته به تعداد اندکی دانشگاه و شرکتهای پولدار و مهاجرت وسیع اساتید از دانشگاهها به شرکتهاست.
- در حوزه تاثیرات تجاری هوش هم این گزارش به پیشرفت هوش در صنعت کشف دارو، گستردهشدن کاربردهای هوش (از تخمین مصرف برق در شبکه توزیع گرفته تا زمان مناسب لقاح مصنوعی گاو) و البته در نهایت مساله مهم MLOps و بهراهاندازی و استقرار و استفاده از مدلهای یادگیری ماشین اشاره کرده. مشکلات اخیر بر سر مساله خطیر تولید و تامین نیمههادیها از دیگر نکات مذکور این بخشه.
- در حوزه سیاست هم گزارش راجع به داغ شدن مباحث اخلاقی در کاربرد هوش و نیاز به تفسیرپذیری و قانونمندکردن هوش اشاره کرده. همچنین مواردی از رشد هوش در صنایع نظامی هم بحث شده.
- اما در بخش پیشبینی، این گزارش هشت پیشبینی داشته که از موارد فنیتر اونها میشه به جایگزینشدن RNNها با ترنسفورمرها در یادگیری تقویتی، پرچمداری مدلهای هیبریدی ترنسفورمری و CNN کوچک با تعداد پارامتر خیلی کمتر روی مساله دستهبندی تصویر، افزایش استفاده از JAX و کدهای منتشرشده و تولد یک شرکت تحقیقاتی با تمرکز روی AGI (هوش جامع مصنوعی) اشاره کرد.
این گزارش بسیار خوب و مختصر و موجز و مفید مقالات یکسال گذشته رو مرور کرده، از دست ندید.
لینک گزارش و اسلایدها:
https://www.stateof.ai/
#read
@nlp_stuff
www.stateof.ai
State of AI Report 2024
The State of AI Report analyses the most interesting developments in AI. Read and download here.
مدل WebGPT؛ به GPT-3 اینترنت و مرورگر دادند!
چند وقت قبل شرکت OpenAI از مدل WebGPT رونمایی کرد که باعث شگفتی خیلیها شد و خیلی ترکوند.
شرکت OpenAI با یه تیم متشکل از یه نیسان آدم اومده GPT-3 رو فاینتیون کرده تا بتونه سوالهای دامنهباز رو با استفاده از یک مرورگر (browser) پاسخ بلند (در حد پاراگراف) بده! یعنی واقعا یه مرورگر تکستی درست کردند و دادند دست مدل GPT-3 که با بینگ (موتور جستجوی مایکروسافت) سرچ کنه و جواب سوال رو «تولید» کنه.
در این پست خلاصهای از نحوهی کار و نتایج این مدل رو بررسی کردیم. اگر به نظرتون خوب بود، لایک کنید و دست به دست کنید.
https://virgool.io/overfit/papers-webgpt-a0xvwzafrj2q
#overfit
#read
#blog
پ.ن. رسیدیم به دو کا. مبارکا. ممنون که به بقیه، اندک کانال خودتون رو معرفی میکنید. تشکرات!
@nlp_stuff
چند وقت قبل شرکت OpenAI از مدل WebGPT رونمایی کرد که باعث شگفتی خیلیها شد و خیلی ترکوند.
شرکت OpenAI با یه تیم متشکل از یه نیسان آدم اومده GPT-3 رو فاینتیون کرده تا بتونه سوالهای دامنهباز رو با استفاده از یک مرورگر (browser) پاسخ بلند (در حد پاراگراف) بده! یعنی واقعا یه مرورگر تکستی درست کردند و دادند دست مدل GPT-3 که با بینگ (موتور جستجوی مایکروسافت) سرچ کنه و جواب سوال رو «تولید» کنه.
در این پست خلاصهای از نحوهی کار و نتایج این مدل رو بررسی کردیم. اگر به نظرتون خوب بود، لایک کنید و دست به دست کنید.
https://virgool.io/overfit/papers-webgpt-a0xvwzafrj2q
#overfit
#read
#blog
پ.ن. رسیدیم به دو کا. مبارکا. ممنون که به بقیه، اندک کانال خودتون رو معرفی میکنید. تشکرات!
@nlp_stuff
خطکشی برای سنجش کیفیت document understanding
در این پست میخوایم به معرفی benchmark برای تسک document undestanding بپردازیم. این benchmark تسک document undestaning رو تبدیل به سه مساله اصلی کرده:
- تسک اول Document QA است که از روی layout داکیومنت میتونه سوال بپرسه و مدل باید جواب بده. در این حالت سوالها به صورت زبان طبیعی پرسیده میشه اما کانتکست درواقع یه داکیومنته که layout داره (متنی که استایل داره یعنی فونت یا سایزهای متفاوتی داره). مثلا از مدل میپرسند که دو نوع تاریخی که در این داکیومنت وجود داره چه چیزهایی هستند؟ و مدل هم باید مثلا بگه تاریخ فاکتور و تاریخ پرداخت.
- تسک دوم key information extraction است که شبیه تسک اوله با این تفاوت که دیگه query با زبان طبیعی مطرح نمیشه بلکه مدل اطلاعات کلیدی این داکیومنت رو باید بیرون بکشه. مثلا مجموع فاکتور برابر با ۲۰۰۰ دلاره.
- تسک سوم هم Table QA/NLI هست که کار QA و یا NLI رو بر روی جداول انجام میده. این تسک مشخصا بر روی جداول تمرکز داره و سعی میکنه برخی از عبارات رو با استفاده از جدول موجود در داکیومنت verify کنه. مثلا یه جمله ورودی میگیره که آیتم شماره ۱ به مقدار ۲۰۰ قلم فروخته شده و مدل باید بگه که این جمله درسته یا نه. البته میشه از روی جدول، سوال هم پرسید و مدل باید بتونه جواب بده.
یه صفحه هم در نظر گرفته شده که leaderboard است و امتیاز مدلهای مختلف رو گذاشته و حالت overall روی این سه تا تسک داره. اگه در این زمینه کار میکنید خوبه به این بنچمارک توجه کنید و نتایجتون رو با leaderboard مقایسه کنید. در تصویر مثالهای بهتری از هر یک از این سه تسک آورده شده که میتونید مشاهده کنید.
لینک benchmark:
https://duebenchmark.com/leaderboard
لینک github:
https://github.com/due-benchmark
لینک مقاله:
https://datasets-benchmarks-proceedings.neurips.cc/paper/2021/file/069059b7ef840f0c74a814ec9237b6ec-Paper-round2.pdf
#read
#paper
@nlp_stuff
در این پست میخوایم به معرفی benchmark برای تسک document undestanding بپردازیم. این benchmark تسک document undestaning رو تبدیل به سه مساله اصلی کرده:
- تسک اول Document QA است که از روی layout داکیومنت میتونه سوال بپرسه و مدل باید جواب بده. در این حالت سوالها به صورت زبان طبیعی پرسیده میشه اما کانتکست درواقع یه داکیومنته که layout داره (متنی که استایل داره یعنی فونت یا سایزهای متفاوتی داره). مثلا از مدل میپرسند که دو نوع تاریخی که در این داکیومنت وجود داره چه چیزهایی هستند؟ و مدل هم باید مثلا بگه تاریخ فاکتور و تاریخ پرداخت.
- تسک دوم key information extraction است که شبیه تسک اوله با این تفاوت که دیگه query با زبان طبیعی مطرح نمیشه بلکه مدل اطلاعات کلیدی این داکیومنت رو باید بیرون بکشه. مثلا مجموع فاکتور برابر با ۲۰۰۰ دلاره.
- تسک سوم هم Table QA/NLI هست که کار QA و یا NLI رو بر روی جداول انجام میده. این تسک مشخصا بر روی جداول تمرکز داره و سعی میکنه برخی از عبارات رو با استفاده از جدول موجود در داکیومنت verify کنه. مثلا یه جمله ورودی میگیره که آیتم شماره ۱ به مقدار ۲۰۰ قلم فروخته شده و مدل باید بگه که این جمله درسته یا نه. البته میشه از روی جدول، سوال هم پرسید و مدل باید بتونه جواب بده.
یه صفحه هم در نظر گرفته شده که leaderboard است و امتیاز مدلهای مختلف رو گذاشته و حالت overall روی این سه تا تسک داره. اگه در این زمینه کار میکنید خوبه به این بنچمارک توجه کنید و نتایجتون رو با leaderboard مقایسه کنید. در تصویر مثالهای بهتری از هر یک از این سه تسک آورده شده که میتونید مشاهده کنید.
لینک benchmark:
https://duebenchmark.com/leaderboard
لینک github:
https://github.com/due-benchmark
لینک مقاله:
https://datasets-benchmarks-proceedings.neurips.cc/paper/2021/file/069059b7ef840f0c74a814ec9237b6ec-Paper-round2.pdf
#read
#paper
@nlp_stuff
Telegram
stuff
مینیپستی برای استخراج patch
با رونقگرفتن معماری ترنسفورمر (که یک معماری به اصطلاح set2set است) در حوزه پردازش تصویر، برای ورودی دادن یک تصویر به ترنسفورمر، اول بایستی این تصویر رو به یکسری پچ و تکه تقسیم کنیم و بعد این مجموعه پچها رو به شبکه بدیم. راه حل ساده و البته ابلهانه اینه که از چند تا for برای این کار استفاده کنیم که قاعدتاً اسراف وقته. در این رشته توییت اما نشون داده و به صورت کامل توضیح داده که چطوری بدون هیچ حلقه ای و صرفا با استفاده از مکانیزمهای نامپایطور میشه عملیات استخراج پچ رو با کمترین زمان مصرفی و پیچیدگی کد، پیاده کرد.
از اونجایی که این جنس نیازمندی بسیار پرکاربرده و قطعا در آینده حداقل یکبار ممکنه گیرش بیافتید مطلب مفیدی میتونه باشه.
لینک رشته توییت:
https://mobile.twitter.com/MishaLaskin/status/1478500251376009220
#read
#tweet
#code
@nlp_stuff
با رونقگرفتن معماری ترنسفورمر (که یک معماری به اصطلاح set2set است) در حوزه پردازش تصویر، برای ورودی دادن یک تصویر به ترنسفورمر، اول بایستی این تصویر رو به یکسری پچ و تکه تقسیم کنیم و بعد این مجموعه پچها رو به شبکه بدیم. راه حل ساده و البته ابلهانه اینه که از چند تا for برای این کار استفاده کنیم که قاعدتاً اسراف وقته. در این رشته توییت اما نشون داده و به صورت کامل توضیح داده که چطوری بدون هیچ حلقه ای و صرفا با استفاده از مکانیزمهای نامپایطور میشه عملیات استخراج پچ رو با کمترین زمان مصرفی و پیچیدگی کد، پیاده کرد.
از اونجایی که این جنس نیازمندی بسیار پرکاربرده و قطعا در آینده حداقل یکبار ممکنه گیرش بیافتید مطلب مفیدی میتونه باشه.
لینک رشته توییت:
https://mobile.twitter.com/MishaLaskin/status/1478500251376009220
#read
#tweet
#code
@nlp_stuff
Twitter
Misha Laskin
Patch extraction is a fundamental operation in deep learning, especially for computer vision. By the end of this thread, you’ll know how to implement an efficient vectorized patch extractor (no for loops) in a few lines of code and learn about memory allocation…
گنج قارون! مجموعه مسالههای یادگیری عمیق برای مصاحبههای آکادمیک و یا شغلی
امروز کتابی رو براتون معرفی میکنیم که شامل مسالههای متنوعی در حوزه یادگیری ماشین و یادگیری عمیقه. این مسالهها عموما سوالاتی هستند که در مصاحبههای آکادمیک و یا شغلی پرسیده میشوند. حالا این کتاب به طرز نکویی این مسالهها رو به همراه جوابهاشون گردآوری کرده که میتونید برای افزایش توانمندیهاتون ازش استفاده کنید. سوالات این کتاب عموما یا سوالات مفهومی و پایهای حول اون حوزه هستند و یا سوالات کاربردی که هر کدوم چالشهای خاص خودش رو داره. مثلا در سوالاتی کاربردی ممکنه یه تیکه کد به PyTorch داده باشه و بخواد که شما بگید چی کار میکنه. فصلهای این کتاب به ترتیب از مباحث پایهای مثل logistic regression شروع میشه و به مفاهیم پیچیدهتر در حوزه شبکههای عمیق مثل CNNها و مسالههای مربوطه میرسه. توصیه میکنیم اول سوالها رو نگاه بندازید و بعد سعی کنید اونها رو حل کنید. اگه جوابی به ذهنتون نمیرسه به جای اینکه مستقیم سراغ بخش solutions برید سعی کنید در کتابهای دیگه در حوزه یادگیری ماشین و یادگیری عمیق جواب اون سوال رو پیدا کنید. مثلا یکی از سوالهاش اینه:
کدوم توزیع آماری بیشترین آنتروپی رو در یه بازه بسته داره؟ اول کمی فکر کنید و بعد جوابش رو در تصویر میتونید ببینید.
لینک کتاب:
https://arxiv.org/abs/2201.00650
#book
#read
@nlp_stuff
امروز کتابی رو براتون معرفی میکنیم که شامل مسالههای متنوعی در حوزه یادگیری ماشین و یادگیری عمیقه. این مسالهها عموما سوالاتی هستند که در مصاحبههای آکادمیک و یا شغلی پرسیده میشوند. حالا این کتاب به طرز نکویی این مسالهها رو به همراه جوابهاشون گردآوری کرده که میتونید برای افزایش توانمندیهاتون ازش استفاده کنید. سوالات این کتاب عموما یا سوالات مفهومی و پایهای حول اون حوزه هستند و یا سوالات کاربردی که هر کدوم چالشهای خاص خودش رو داره. مثلا در سوالاتی کاربردی ممکنه یه تیکه کد به PyTorch داده باشه و بخواد که شما بگید چی کار میکنه. فصلهای این کتاب به ترتیب از مباحث پایهای مثل logistic regression شروع میشه و به مفاهیم پیچیدهتر در حوزه شبکههای عمیق مثل CNNها و مسالههای مربوطه میرسه. توصیه میکنیم اول سوالها رو نگاه بندازید و بعد سعی کنید اونها رو حل کنید. اگه جوابی به ذهنتون نمیرسه به جای اینکه مستقیم سراغ بخش solutions برید سعی کنید در کتابهای دیگه در حوزه یادگیری ماشین و یادگیری عمیق جواب اون سوال رو پیدا کنید. مثلا یکی از سوالهاش اینه:
کدوم توزیع آماری بیشترین آنتروپی رو در یه بازه بسته داره؟ اول کمی فکر کنید و بعد جوابش رو در تصویر میتونید ببینید.
لینک کتاب:
https://arxiv.org/abs/2201.00650
#book
#read
@nlp_stuff
Telegram
stuff
در انتقال یادگیری از لایههای میانی غافل نشوید
در سناریو انتقال یادگیری و هنگامی که بخواهیم شبکه پیش آموزش دیده روی تسک مبدا را برای تسک مقصد استفاده کنیم، دو راه پیشروی خود داریم. راه اول این است که شبکه را به اصطلاح فریز کنیم و یک لایه خطی روی فیچرهای لایه آخر شبکه برای تسک مقصد استفاده کنیم. راه دوم هم این است که کل شبکه را مورد فاین تیون قرار بدهیم. حالا مقالهای اومده که نشون داده راه سومی هم جز این دو هست و این راه فریزکردن شبکه و در عین حال سوارکردن یک لایه خطی بر روی فیچرهای تمام لایههای میانی شبکه است (نه فقط فیچرهای لایه آخر). در واقع سوالی که منجر به این ایده شده این بوده که Fine-tuning با این که پیچیدگی و تعداد پارامتر بیشتری نسبت به حالت فریزکردن مدل داره چرا بهتر عمل میکنه؟ نکنه در سناریو Fine-tuning صرفا فیچرهای میانی شبکه دارند به آخر شبکه پاس داده میشوند؟؟)
این مقاله ابتدا اومده imagenet رو به عنوان تسک مبدا در نظر گرفته و ۱۹ دیتاست دیگه مثل Cifar100 و Clevr و Pets و ... رو به عنوان تسک مقصد در نظر گرفته. سپس یک مقداری تحت عنوان domain affinity محاسبه کرده که نشون میده هر کدوم از این ۱۹ تسک مقصد چه قدر به imagenet نزدیک هستند. حالا اومدند و برای هر کدوم از این دیتاستها سه سناریو دستهبند خطی روی شبکه مبدا فریزشده (Linear)، فاین تیونکردن شبکه مبدا (Fine-tuning) و اموزش دادن از اول (Scratch) و نتایج این روشها رو تو عکس figure2 ای که مشاهده میکنید گذاشتند. در این نمودار دیتاست های سمت چپ دارای affinity کمتر و دیتاستهای سمت راست دارای affinity بیشتری هستند. نمودار نشون میده که برای دیتاستهای چپ سناریو Scratch جواببهتری از بقیه میده و برای دیتاستهای راست هم سناریو Linear جواب خوبی میده ( که منطقی هم هست).
در گام بعدی مقاله اومده و مدل خودش یعنی Head2Toe رو مطرح کرده. در این مدل ابتدا شبکه مبدا (همون پیش آموزش دیدهه روی imagent) فریز میشه و سپس تمامی فیچرهای میانی شبکه انتخاب میشوند. از اونجایی که سایز اینها خب زیاده فیچرهای هر لایه توسط یک مکانیزم pooling ابعادشون کاهش پیدا میکنه. در نهایت تمامی این فیچرهای کاهش بعد داده شده تمامی لایهها با هم کانکت میشوند و یک بردار ویژگی بزرگ به دست میاد (اسمش رو h_all بذارید). از اونجایی که این h_all هم بزرگه و آموزش دادن کلاسیفایر خطی روش ممکنه منجر به اورفیت بشه، مقاله اومده از رگولاریزیشن Group lasso برای آموزش یک دستهبند خطی روی این بردار بزرگ استفاده کرده تا وزنهایی که به دست میان اسپارس باشن و هم به نوعی عمل فیچر سلکشن رو روی h_all انجام داده. در نهایت هم اومدن head2Toe رو روی اون ۱۹ دیتاست مختلف اجرا کردند و نشون دادند که در میانگین روششون بهتر از سناریوهای دیگه نظیر Linear و حتی Fine-tune داره عمل میکنه!
لینک مقاله:
https://arxiv.org/abs/2201.03529
#read
#paper
@nlp_stuff
در سناریو انتقال یادگیری و هنگامی که بخواهیم شبکه پیش آموزش دیده روی تسک مبدا را برای تسک مقصد استفاده کنیم، دو راه پیشروی خود داریم. راه اول این است که شبکه را به اصطلاح فریز کنیم و یک لایه خطی روی فیچرهای لایه آخر شبکه برای تسک مقصد استفاده کنیم. راه دوم هم این است که کل شبکه را مورد فاین تیون قرار بدهیم. حالا مقالهای اومده که نشون داده راه سومی هم جز این دو هست و این راه فریزکردن شبکه و در عین حال سوارکردن یک لایه خطی بر روی فیچرهای تمام لایههای میانی شبکه است (نه فقط فیچرهای لایه آخر). در واقع سوالی که منجر به این ایده شده این بوده که Fine-tuning با این که پیچیدگی و تعداد پارامتر بیشتری نسبت به حالت فریزکردن مدل داره چرا بهتر عمل میکنه؟ نکنه در سناریو Fine-tuning صرفا فیچرهای میانی شبکه دارند به آخر شبکه پاس داده میشوند؟؟)
این مقاله ابتدا اومده imagenet رو به عنوان تسک مبدا در نظر گرفته و ۱۹ دیتاست دیگه مثل Cifar100 و Clevr و Pets و ... رو به عنوان تسک مقصد در نظر گرفته. سپس یک مقداری تحت عنوان domain affinity محاسبه کرده که نشون میده هر کدوم از این ۱۹ تسک مقصد چه قدر به imagenet نزدیک هستند. حالا اومدند و برای هر کدوم از این دیتاستها سه سناریو دستهبند خطی روی شبکه مبدا فریزشده (Linear)، فاین تیونکردن شبکه مبدا (Fine-tuning) و اموزش دادن از اول (Scratch) و نتایج این روشها رو تو عکس figure2 ای که مشاهده میکنید گذاشتند. در این نمودار دیتاست های سمت چپ دارای affinity کمتر و دیتاستهای سمت راست دارای affinity بیشتری هستند. نمودار نشون میده که برای دیتاستهای چپ سناریو Scratch جواببهتری از بقیه میده و برای دیتاستهای راست هم سناریو Linear جواب خوبی میده ( که منطقی هم هست).
در گام بعدی مقاله اومده و مدل خودش یعنی Head2Toe رو مطرح کرده. در این مدل ابتدا شبکه مبدا (همون پیش آموزش دیدهه روی imagent) فریز میشه و سپس تمامی فیچرهای میانی شبکه انتخاب میشوند. از اونجایی که سایز اینها خب زیاده فیچرهای هر لایه توسط یک مکانیزم pooling ابعادشون کاهش پیدا میکنه. در نهایت تمامی این فیچرهای کاهش بعد داده شده تمامی لایهها با هم کانکت میشوند و یک بردار ویژگی بزرگ به دست میاد (اسمش رو h_all بذارید). از اونجایی که این h_all هم بزرگه و آموزش دادن کلاسیفایر خطی روش ممکنه منجر به اورفیت بشه، مقاله اومده از رگولاریزیشن Group lasso برای آموزش یک دستهبند خطی روی این بردار بزرگ استفاده کرده تا وزنهایی که به دست میان اسپارس باشن و هم به نوعی عمل فیچر سلکشن رو روی h_all انجام داده. در نهایت هم اومدن head2Toe رو روی اون ۱۹ دیتاست مختلف اجرا کردند و نشون دادند که در میانگین روششون بهتر از سناریوهای دیگه نظیر Linear و حتی Fine-tune داره عمل میکنه!
لینک مقاله:
https://arxiv.org/abs/2201.03529
#read
#paper
@nlp_stuff
Telegram
stuff
مدل رترو؛ ترکیب مدل زبانی و دیتابیس!
شرکت دیپمایند مدلی به نام رترو داده که با ۷.۵ میلیارد پارامتر با مدلهایی مثل GPT-3 با ۲۵ برابر پارامتر در تسکهای بر پایهی اطلاعات (مثل پرسش و پاسخ) برابری میکند.
همونطور که میدونید مدلهای زبانی برای پیشبینی احتمال یک کلمه با توجه به کلمات قبل و بعد ساخته شدهاند. این پیشبینی گاهی نیاز به دانش زبانی مانند گرامر و درک معنا داره و گاهی نیز نیاز به اطلاعات دانش عمومی داره. مثلا در جملهی «علی کاپوت ماشین را … زد.» مدل باید با دانش زبانی بگه: «بالا» و مثلا در جملهی «کارگردان فیلم یک تکه نان … است» باید مدل با اطلاعات و دانش، جای خالی رو با «کمال تبریزی» پر کنه (البته طبیعتا نباید این موضوع را قبلا در دادهی آموزش دیده باشه).
مدلهای زبانی غولآسا مثل جیپیتی تمام اطلاعات را در پارامترهای مدلشون ذخیره میکنند. برای دانش زبانی شاید این روش جواب بده اما برای دانش عمومی قطعا کارا نیست چون شونصد تا فکت وجود داره. حالا تیم دیپ مایند مدلی به نام RETRO (Retrieval Enhanced TRansfOrmers) ارائه کرده که از یک مدل زبانی خیلی کوچکتر از جیپیتی برای دانشهای زبانی و یه دیتابیس بزرگ از اطلاعات عمومی داره استفاده میکنه. حالا این روش چند تا فایده بزرگ داره: اول اینکه مدل زبانی میتونه خیلی کوچیکتر باشه و فقط روی بحثهای زبانی تمرکز کنه که این یعنی سریعتره و استفاده و دیپلویش هم راحتتر میشه. دوم. واسه اینکه سوالها و دادههای جدید (مثلا سوال: «ماتریکس (۴) در چه سالی ساخته شد؟») را هم مدل پاسخ بده لازم نیست دیگه دوباره آموزش داده بشه و کافیه که دیتابیس بهروز بشه. در پست webgpt شرکت OpenAI قسمت بازیابی رو روی دوش اینترنت انداخته بود و توصیه میکنیم حتما اون پست را هم بخونید.
حالا مدل retro مثل مدل T5 در حقیقت یک انکودر-دیکودره و از یک دیتابیس استفاده میکنه. دیتابیس به صورت key-value دادهها رو ذخیره کرده. مقدار دو بخش داره: neighbor که یک متنه و امبدینگ برتش میشه کلید و بخش دوم به نام completion که ادامهی متن neighbor است. این دیتابیس ۲ تریلیون توکن داره!!
نحوه آموزش بدین شکله که ورودی اول میره داخل برت و با استفاده از میانگینگیری از امبدینگهای کلمات، امبدینگ جمله ساخته میشه. با این بردار، به دیتابیس کوئری زده میشه و نزدیکترین همسایهها با الگوریتم scann پیدا میشه. حالا این متنها (همسایهها و ادامهشون) با متن ورودی اصلی، میشن ورودی به رترو تا آموزش ببینه که پاسخ رو تولید بکنه. یعنی اینجوری مدل یاد میگیره با دیتابیس و نه فقط با پارامترهاش جواب رو تولید کنه. معماری کلی مدل در مقاله توضیح داده شده و مفصلش رو نگاهش کنید؛ دو استک انکودر و دیکودر داره که استک انکودر ۳۲ تا بلوک انکودر ترنسفورمری عادی داره و استک دیکودر از بلوکهای دیکودر ترنسفورمری و یک سری بلوک بلوک دیکودر رترو ساخته شده. این معماری دیکودر رترو هم یه بخش اضافه به نام chunked cross-attention داره. مدل را در تسکهایی مثل تسک مدل زبانی و تسک پرسش و پاسخ و … هم امتحان کردند و نتایجش را در مقاله ببینید.
تصاویری از خلاصه معماری و نحوه عملکرد مدل رو هم میتونید در ضمیمه مشاهده کنید.
لینک مقاله:
https://arxiv.org/abs/2112.04426
لینک رشته توئیت خلاصه مقاله:
https://threadreaderapp.com/thread/1474702607444815873.html
#read
#paper
@nlp_stuff
شرکت دیپمایند مدلی به نام رترو داده که با ۷.۵ میلیارد پارامتر با مدلهایی مثل GPT-3 با ۲۵ برابر پارامتر در تسکهای بر پایهی اطلاعات (مثل پرسش و پاسخ) برابری میکند.
همونطور که میدونید مدلهای زبانی برای پیشبینی احتمال یک کلمه با توجه به کلمات قبل و بعد ساخته شدهاند. این پیشبینی گاهی نیاز به دانش زبانی مانند گرامر و درک معنا داره و گاهی نیز نیاز به اطلاعات دانش عمومی داره. مثلا در جملهی «علی کاپوت ماشین را … زد.» مدل باید با دانش زبانی بگه: «بالا» و مثلا در جملهی «کارگردان فیلم یک تکه نان … است» باید مدل با اطلاعات و دانش، جای خالی رو با «کمال تبریزی» پر کنه (البته طبیعتا نباید این موضوع را قبلا در دادهی آموزش دیده باشه).
مدلهای زبانی غولآسا مثل جیپیتی تمام اطلاعات را در پارامترهای مدلشون ذخیره میکنند. برای دانش زبانی شاید این روش جواب بده اما برای دانش عمومی قطعا کارا نیست چون شونصد تا فکت وجود داره. حالا تیم دیپ مایند مدلی به نام RETRO (Retrieval Enhanced TRansfOrmers) ارائه کرده که از یک مدل زبانی خیلی کوچکتر از جیپیتی برای دانشهای زبانی و یه دیتابیس بزرگ از اطلاعات عمومی داره استفاده میکنه. حالا این روش چند تا فایده بزرگ داره: اول اینکه مدل زبانی میتونه خیلی کوچیکتر باشه و فقط روی بحثهای زبانی تمرکز کنه که این یعنی سریعتره و استفاده و دیپلویش هم راحتتر میشه. دوم. واسه اینکه سوالها و دادههای جدید (مثلا سوال: «ماتریکس (۴) در چه سالی ساخته شد؟») را هم مدل پاسخ بده لازم نیست دیگه دوباره آموزش داده بشه و کافیه که دیتابیس بهروز بشه. در پست webgpt شرکت OpenAI قسمت بازیابی رو روی دوش اینترنت انداخته بود و توصیه میکنیم حتما اون پست را هم بخونید.
حالا مدل retro مثل مدل T5 در حقیقت یک انکودر-دیکودره و از یک دیتابیس استفاده میکنه. دیتابیس به صورت key-value دادهها رو ذخیره کرده. مقدار دو بخش داره: neighbor که یک متنه و امبدینگ برتش میشه کلید و بخش دوم به نام completion که ادامهی متن neighbor است. این دیتابیس ۲ تریلیون توکن داره!!
نحوه آموزش بدین شکله که ورودی اول میره داخل برت و با استفاده از میانگینگیری از امبدینگهای کلمات، امبدینگ جمله ساخته میشه. با این بردار، به دیتابیس کوئری زده میشه و نزدیکترین همسایهها با الگوریتم scann پیدا میشه. حالا این متنها (همسایهها و ادامهشون) با متن ورودی اصلی، میشن ورودی به رترو تا آموزش ببینه که پاسخ رو تولید بکنه. یعنی اینجوری مدل یاد میگیره با دیتابیس و نه فقط با پارامترهاش جواب رو تولید کنه. معماری کلی مدل در مقاله توضیح داده شده و مفصلش رو نگاهش کنید؛ دو استک انکودر و دیکودر داره که استک انکودر ۳۲ تا بلوک انکودر ترنسفورمری عادی داره و استک دیکودر از بلوکهای دیکودر ترنسفورمری و یک سری بلوک بلوک دیکودر رترو ساخته شده. این معماری دیکودر رترو هم یه بخش اضافه به نام chunked cross-attention داره. مدل را در تسکهایی مثل تسک مدل زبانی و تسک پرسش و پاسخ و … هم امتحان کردند و نتایجش را در مقاله ببینید.
تصاویری از خلاصه معماری و نحوه عملکرد مدل رو هم میتونید در ضمیمه مشاهده کنید.
لینک مقاله:
https://arxiv.org/abs/2112.04426
لینک رشته توئیت خلاصه مقاله:
https://threadreaderapp.com/thread/1474702607444815873.html
#read
#paper
@nlp_stuff
Telegram
stuff
کورس CS224U: فهم مدل زبانی
کورس Natural Language Understanding دانشگاه استنفورد حالا روی یوتیوبه. یه نگاهی به لیست ویدیوهاش بندازید متوجه میشید چه کورس خوف و خفنیه. از مباحث پایه ترنسفورمرها مثل برت و رابرتا تا بازیابی اطلاعات برپایه شبکه عصبی را توی لیستش میتونید پیدا کنید. ویدیوها رو هم با زمان کم درست کرده که راحت ببینید کدها رو ههم روی صفحه کورس به اشتراک گذاشته.
لینک صفحه کورس:
https://web.stanford.edu/class/cs224u/
لینک یوتیوب کورس:
https://www.youtube.com/playlist?list=PLoROMvodv4rPt5D0zs3YhbWSZA8Q_DyiJ
پ.ن. با تشکر از آقای صدرا صبوری که این کورس رو بهمون فرستادند که در کانال قرار بدیم. شما هم مطلب مفیدی بود بفرستید.
#coach
#course
@nlp_stuff
کورس Natural Language Understanding دانشگاه استنفورد حالا روی یوتیوبه. یه نگاهی به لیست ویدیوهاش بندازید متوجه میشید چه کورس خوف و خفنیه. از مباحث پایه ترنسفورمرها مثل برت و رابرتا تا بازیابی اطلاعات برپایه شبکه عصبی را توی لیستش میتونید پیدا کنید. ویدیوها رو هم با زمان کم درست کرده که راحت ببینید کدها رو ههم روی صفحه کورس به اشتراک گذاشته.
لینک صفحه کورس:
https://web.stanford.edu/class/cs224u/
لینک یوتیوب کورس:
https://www.youtube.com/playlist?list=PLoROMvodv4rPt5D0zs3YhbWSZA8Q_DyiJ
پ.ن. با تشکر از آقای صدرا صبوری که این کورس رو بهمون فرستادند که در کانال قرار بدیم. شما هم مطلب مفیدی بود بفرستید.
#coach
#course
@nlp_stuff
با کدام جنس از مطالب زیر بیشتر حال میکنید؟
Anonymous Poll
27%
معرفی کورسها و منابع و لینکهای آموزشی تخصصی
43%
ارائه خلاصه مقالات و مدلهای روز
20%
توضیح موشکافانه مقالات و مدلهای مهم در ویرگول
10%
معرفی ابزارها و مدلهای کاربردی
لیبل استودیو؛ ابزاری که باید پر شال هر دیتاساینتیست باشد!
طبیعتا گام اول و تقریبا مهمترین گام در هر پروژه مدلسازی، جمعآوری دیتا و بهخصوص دیتای لیبلخورده است. حتما میدونید که این کار چقدر مشقتباره و زمان زیادی رو از تیم اشغال میکنه. حالا در این پست میخوایم یه ابزاری رو معرفی کنیم که خیلی راحت میتونید راهاندازیش کنید و خیلی راحت استفاده کنید. بله؛ label studio. این ابزار به راحتی با یه دستور pip نصب میشه و روی پورت موردنظر بالا میاد. سپس میتونید بهمقصود پروژههای مختلف در حوزه تکست، ویژن، ویدیو، صوت، دیتای ساختاریافته و خیلی چیزای دیگه پروژه بسازید و از تمپلیتهای آماده اون استفاده کنید. بعد به راحتی دیتاتون رو لیبل بزنید و به فرمتهای خروجی معتبر خروجی بگیرید. مثلا برای تسک named entity recognition میتونید به فرمت معتبر CoNLL خروجی بگیرید. البته این ابزار برای زبان فارسی چون پشتیبانی RTL نداره یه مقدار اذیتکننده است که در اون صورت میتونید از ریپوی معرفی شده ابزار رو clone کنید و به صورت local نصب کنید.
لینک ابزار:
https://labelstud.io
لینک ریپوی ساپورت RTL:
https://github.com/mmaghajani/label-studio
لینک ریپوی اصلی:
https://github.com/heartexlabs/label-studio
#tool
@nlp_stuff
طبیعتا گام اول و تقریبا مهمترین گام در هر پروژه مدلسازی، جمعآوری دیتا و بهخصوص دیتای لیبلخورده است. حتما میدونید که این کار چقدر مشقتباره و زمان زیادی رو از تیم اشغال میکنه. حالا در این پست میخوایم یه ابزاری رو معرفی کنیم که خیلی راحت میتونید راهاندازیش کنید و خیلی راحت استفاده کنید. بله؛ label studio. این ابزار به راحتی با یه دستور pip نصب میشه و روی پورت موردنظر بالا میاد. سپس میتونید بهمقصود پروژههای مختلف در حوزه تکست، ویژن، ویدیو، صوت، دیتای ساختاریافته و خیلی چیزای دیگه پروژه بسازید و از تمپلیتهای آماده اون استفاده کنید. بعد به راحتی دیتاتون رو لیبل بزنید و به فرمتهای خروجی معتبر خروجی بگیرید. مثلا برای تسک named entity recognition میتونید به فرمت معتبر CoNLL خروجی بگیرید. البته این ابزار برای زبان فارسی چون پشتیبانی RTL نداره یه مقدار اذیتکننده است که در اون صورت میتونید از ریپوی معرفی شده ابزار رو clone کنید و به صورت local نصب کنید.
لینک ابزار:
https://labelstud.io
لینک ریپوی ساپورت RTL:
https://github.com/mmaghajani/label-studio
لینک ریپوی اصلی:
https://github.com/heartexlabs/label-studio
#tool
@nlp_stuff
Telegram
stuff
داستان ترنسفورمرها (۶): داستان XLNet
در ششمین قسمت از سریال «داستان ترنسفورمرها»، رفتیم سراغ داستان شبکه XLNet که از خانواده مدلهای autoregressive است. این مدل به نوعی در برابر BERT قد علم کرده و میراثدار نبرد تاریخی بین مدلهای autoregressive و autoencoder است. برای اینکه این نبرد رو بشناسید و با XLNet هم آشنا بشید این پست ویرگول رو از دست ندید.
پ.ن.۱: کمکاری نکنید. نظر بدید و با بقیه به اشتراک بذارید.
پ.ن.۲: اگر پست خوبی داشتید خبر بدید که در انتشارات بذاریم.
لینک پست ویرگول:
https://virgool.io/overfit/transformers6-xlnet-ufgmgu9rl8rs
#read
#blog
#overfit
@nlp_stuff
در ششمین قسمت از سریال «داستان ترنسفورمرها»، رفتیم سراغ داستان شبکه XLNet که از خانواده مدلهای autoregressive است. این مدل به نوعی در برابر BERT قد علم کرده و میراثدار نبرد تاریخی بین مدلهای autoregressive و autoencoder است. برای اینکه این نبرد رو بشناسید و با XLNet هم آشنا بشید این پست ویرگول رو از دست ندید.
پ.ن.۱: کمکاری نکنید. نظر بدید و با بقیه به اشتراک بذارید.
پ.ن.۲: اگر پست خوبی داشتید خبر بدید که در انتشارات بذاریم.
لینک پست ویرگول:
https://virgool.io/overfit/transformers6-xlnet-ufgmgu9rl8rs
#read
#blog
#overfit
@nlp_stuff
ویرگول
داستان ترنسفورمرها (۶): داستان XLNet
اگر علاقهمند هستید که درباره XLNet و علل برتریش بر BERT بیشتر بدونید، این پست رو از دست ندید
گلچین ۲۰۲۱ رودر
آقای رودر به رسم هر ساله اومده خلاصهای از مقالات ۲۰۲۱ در زمینه ML و NLP رو منتشر کرده. این خلاصه رو در ۱۵ بخش کاملا متنوع که در تصویر میبینید تقسیم کرده. نیم ساعت بذارید کلشو مرور میکنید و یهو میبینید که انگار دوپینگ کردید.
لینک پست:
https://ruder.io/ml-highlights-2021
#read
#blog
@nlp_stuff
آقای رودر به رسم هر ساله اومده خلاصهای از مقالات ۲۰۲۱ در زمینه ML و NLP رو منتشر کرده. این خلاصه رو در ۱۵ بخش کاملا متنوع که در تصویر میبینید تقسیم کرده. نیم ساعت بذارید کلشو مرور میکنید و یهو میبینید که انگار دوپینگ کردید.
لینک پست:
https://ruder.io/ml-highlights-2021
#read
#blog
@nlp_stuff
تشخیص خارج از توزیع با تولید داده پرت ساختگی
تشخیص خارج از توزیع یا out of distribution یکی از مسائل مورد توجه و مهم در شبکه های عصبیه. سناریویی رو در نظر بگیرید که شما مدل تشخیص اشیاتون رو برای یک ماشین خودران روی کلاس های مختلف آموزشش داد و حالا در وقت اجرا ناگهان با گوزنی مواجه میشید که در کلاس های آموزشیتون نداشتید. در اینجا مدل چون بالاخره بایستی جوابی تولید کنه در نهایت لیبلی اشتباه به این گوزن میزنه و ممکنه باعث مشکلات بعدی بشه. راهکارهای زیادی برای ood اعلام شده که البته هر کدام مشکلات خاص خودشون رو دارند. حالا پیپری اومده و روشی به نام vos ارائه کرده که جالبه.
اولین ایده ای که برای ood میتونه به ذهن بیاد اینه که یکسری داده ورودی (تصویر) خارج از توزیع بسازیم و با اونها مدل رو آموزش بدیم تا ood انجام بده. اما از اونجایی که خود تولید نمونه ورودی مساله سخت و پیچیده تریه پیپر vos پیشنهاد کرده تا دادگان پرت رو در سطح لایه قبل از لایه دسته بند بسازیم. منظور از این لایه در واقع آخرین لایه در شبکه است که مدل، لایه نهایی دسته بند رو بر روی ویژگی و بازنمایی های استخراج شده از این لایه قرار میده (اسم این لایه رو بازنمایی نهایی در نظر بگیرید). اما چطور داده پرت (outlier) بسازیم؟ کاری که vos میکنه اینه که میاد یک توزیع مخلوط گاوسی روی بازنماییهای نهایی کلاس های مختلف تخمین میزنه و سپس برای ساخت داده پرت میاد و به نحوی از این توزیع ها سمپل میگیره که احتمال این سمپل به شرط توزیعها خیلی خیلی کم باشه. حالا تعدادی بازنمایی نهایی پرت داریم. در مرحله بعد، این بازنماییهای نهایی پرت به همراه بازنمایی های غیرپرت به لایه آخر دسته بند داده میشن و برای همشون logit یا امتیاز روی کلاس های مختلف به دست میاد. حالا vos میاد و یک تابع هزینه ای پیشنهاد میده که طبق این تابع هزینه، logit های داده های غیرپرت تشویق به قطعیت و logit های داده های پرت هم تشویق به عدم قطعیت میشوند. حالا مدل در طی آموزش علاوه بر این که روی لاس اصلی مساله خودش آموزش میبینه روی این لاس هم آموزش میبینه. در هنگام تست هم در صورتی که logit های یک نمونه از یک حدی عدم قطعیتشون بیشتر باشه اون نمونه به عنوان داده پرت فرض میشه. این مدل روی وظیفه تشخیص شی ارائه شده اما در واقع یک فریمورک است و میتونه روی وظایف دیگه انجام بشه.
لینک مقاله:
https://arxiv.org/abs/2202.01197
لینک ویدئو کیلچر در توضیح این مقاله:
youtu.be/i-J4T3uLC9M
#paper
#read
#watch
@nlp_stuff
تشخیص خارج از توزیع یا out of distribution یکی از مسائل مورد توجه و مهم در شبکه های عصبیه. سناریویی رو در نظر بگیرید که شما مدل تشخیص اشیاتون رو برای یک ماشین خودران روی کلاس های مختلف آموزشش داد و حالا در وقت اجرا ناگهان با گوزنی مواجه میشید که در کلاس های آموزشیتون نداشتید. در اینجا مدل چون بالاخره بایستی جوابی تولید کنه در نهایت لیبلی اشتباه به این گوزن میزنه و ممکنه باعث مشکلات بعدی بشه. راهکارهای زیادی برای ood اعلام شده که البته هر کدام مشکلات خاص خودشون رو دارند. حالا پیپری اومده و روشی به نام vos ارائه کرده که جالبه.
اولین ایده ای که برای ood میتونه به ذهن بیاد اینه که یکسری داده ورودی (تصویر) خارج از توزیع بسازیم و با اونها مدل رو آموزش بدیم تا ood انجام بده. اما از اونجایی که خود تولید نمونه ورودی مساله سخت و پیچیده تریه پیپر vos پیشنهاد کرده تا دادگان پرت رو در سطح لایه قبل از لایه دسته بند بسازیم. منظور از این لایه در واقع آخرین لایه در شبکه است که مدل، لایه نهایی دسته بند رو بر روی ویژگی و بازنمایی های استخراج شده از این لایه قرار میده (اسم این لایه رو بازنمایی نهایی در نظر بگیرید). اما چطور داده پرت (outlier) بسازیم؟ کاری که vos میکنه اینه که میاد یک توزیع مخلوط گاوسی روی بازنماییهای نهایی کلاس های مختلف تخمین میزنه و سپس برای ساخت داده پرت میاد و به نحوی از این توزیع ها سمپل میگیره که احتمال این سمپل به شرط توزیعها خیلی خیلی کم باشه. حالا تعدادی بازنمایی نهایی پرت داریم. در مرحله بعد، این بازنماییهای نهایی پرت به همراه بازنمایی های غیرپرت به لایه آخر دسته بند داده میشن و برای همشون logit یا امتیاز روی کلاس های مختلف به دست میاد. حالا vos میاد و یک تابع هزینه ای پیشنهاد میده که طبق این تابع هزینه، logit های داده های غیرپرت تشویق به قطعیت و logit های داده های پرت هم تشویق به عدم قطعیت میشوند. حالا مدل در طی آموزش علاوه بر این که روی لاس اصلی مساله خودش آموزش میبینه روی این لاس هم آموزش میبینه. در هنگام تست هم در صورتی که logit های یک نمونه از یک حدی عدم قطعیتشون بیشتر باشه اون نمونه به عنوان داده پرت فرض میشه. این مدل روی وظیفه تشخیص شی ارائه شده اما در واقع یک فریمورک است و میتونه روی وظایف دیگه انجام بشه.
لینک مقاله:
https://arxiv.org/abs/2202.01197
لینک ویدئو کیلچر در توضیح این مقاله:
youtu.be/i-J4T3uLC9M
#paper
#read
#watch
@nlp_stuff
Telegram
stuff
معرفی کانال ارزشی MLST
اول از همه انشاءالله که سال و قرن خوبی داشته باشید.
به عنوان اولین پست قرن نو میخوایم یک کانال یوتیوبی فاخر و ارزشی در زمینه یادگیری ماشین رو معرفی کنیم. اسم این کانال Machine Learning Street Talk است. محتوای این کانال شامل مصاحبههای هر از چند گاهی با متفکران پیشرو هوش مصنوعی (نظیر بنجیو و لکان و شوله و مارکوس و ...) و بحث با اونها در مورد آینده هوش مصنوعی و شهودشون در مورد راه آینده در زمینه های مختلف است. ذکر این نکته لازمه که محتوای این مصاحبهها و بحثها خیلی خیلی فنیه و به جای این که به بحث در مورد مقالات مختلف در کاربردهای مختلف بپردازند (مثل کاری که کیلچر میکنه). موضوع، مباحثه کردن روی درک از فیل هوش مصنوعی در اتاق تاریک عصر فعلیه. اگر یک نگاه به ویدئوهای این کانال بیاندازید میبینید که طیف زیادی از موضوعات از زبانشناسی و مباحث تکنیکی خود یادگیری ماشین مثل یادگیری نیمه نظارتی و حملات خصمانه گرفته تا علوم اعصاب و علوم شناختی در این کانال با طراحی بسیار زیبا و شیوا مورد بحث و بیان قرار گرفته.
لینک کانال یوتیوب:
youtube.com/MachineLearningStreetTalk
#watch
#link
@nlp_stuff
اول از همه انشاءالله که سال و قرن خوبی داشته باشید.
به عنوان اولین پست قرن نو میخوایم یک کانال یوتیوبی فاخر و ارزشی در زمینه یادگیری ماشین رو معرفی کنیم. اسم این کانال Machine Learning Street Talk است. محتوای این کانال شامل مصاحبههای هر از چند گاهی با متفکران پیشرو هوش مصنوعی (نظیر بنجیو و لکان و شوله و مارکوس و ...) و بحث با اونها در مورد آینده هوش مصنوعی و شهودشون در مورد راه آینده در زمینه های مختلف است. ذکر این نکته لازمه که محتوای این مصاحبهها و بحثها خیلی خیلی فنیه و به جای این که به بحث در مورد مقالات مختلف در کاربردهای مختلف بپردازند (مثل کاری که کیلچر میکنه). موضوع، مباحثه کردن روی درک از فیل هوش مصنوعی در اتاق تاریک عصر فعلیه. اگر یک نگاه به ویدئوهای این کانال بیاندازید میبینید که طیف زیادی از موضوعات از زبانشناسی و مباحث تکنیکی خود یادگیری ماشین مثل یادگیری نیمه نظارتی و حملات خصمانه گرفته تا علوم اعصاب و علوم شناختی در این کانال با طراحی بسیار زیبا و شیوا مورد بحث و بیان قرار گرفته.
لینک کانال یوتیوب:
youtube.com/MachineLearningStreetTalk
#watch
#link
@nlp_stuff
دادن اطلاعات از شما، نوشتن متن با You
Hello,
If you're an artificial intelligence enthusiast, then you should definitely reshare posts from the nlp_stuff channel. nlp_stuff is a Telegram channel that's dedicated to AI news and advances. The subscribers of this channel can stay up to date with the latest in AI technology. However, some other channels do not comply with copyright law and copy posts from nlp_stuff into their own channels. This is unfair to the creators of nlp_stuff, and it also diminishes the quality of information that's available to AI enthusiasts. By resharing posts from the nLP_Stuff channel, you can help keep this information accessible and high-quality. Thanks for your support!
متنی که بالا دیدید رو هوش مصنوعی YOU نوشته (ما صرفا بهش توضیح بولتوار اندکی دادیم و این رو جنریت کرده). در سالهای اخیر محصولاتی نظیر grammarly و wordtune با استفاده از هوش مصنوعی و پردازش زبان تونسته اند محصولاتی رو جهت کمک به کاربران در زمینه اصلاح و ویرایش متون انگلیسی ارائه کنند. حالا در آخرین مورد، شرکت YOU (که در اصل یک موتور جستجوگر هست که برخی میگویند در سال های آینده امکان داره شانه به شانه گوگل بزنه) اومده و یک سرویس برای رایتینگ در زبان انگلیسی ارایه داده. شما میتونید یک توضیح مختصر راجع به چیزی که میخواید بنویسید و بعد انتخاب کنید که چه نوع خروجی میخواید. آیا میخواهید یک متن میل مناسب خروجی بگیرید یا یک متن بلاگ طور یا یک انشا. سپس You یک متن برای این مشخصات تعیینشده توسط شما جنریت میکنه.
ما اندکی با این دمو ور رفتیم و مثالهایی رو پیوست کردیم. فهمیدیم که این سرویس میتونه حتی با ورودی گرفتن یک عبارت کوتاه، متنی مستند و منطقی تولید کنید (به مثالی که راجع به تولید دانش بنیان در ایران تولید کرده دقت کنید).
محصولاتی مثل Grammarly و Wordtune و You Write نشون میدن که میشه با پردازش زبان هم محصول واقعی تولید کرد.
لینک برای امتحان کردن:
You.com/write
#link
#tool
@nlp_stuff
Hello,
If you're an artificial intelligence enthusiast, then you should definitely reshare posts from the nlp_stuff channel. nlp_stuff is a Telegram channel that's dedicated to AI news and advances. The subscribers of this channel can stay up to date with the latest in AI technology. However, some other channels do not comply with copyright law and copy posts from nlp_stuff into their own channels. This is unfair to the creators of nlp_stuff, and it also diminishes the quality of information that's available to AI enthusiasts. By resharing posts from the nLP_Stuff channel, you can help keep this information accessible and high-quality. Thanks for your support!
متنی که بالا دیدید رو هوش مصنوعی YOU نوشته (ما صرفا بهش توضیح بولتوار اندکی دادیم و این رو جنریت کرده). در سالهای اخیر محصولاتی نظیر grammarly و wordtune با استفاده از هوش مصنوعی و پردازش زبان تونسته اند محصولاتی رو جهت کمک به کاربران در زمینه اصلاح و ویرایش متون انگلیسی ارائه کنند. حالا در آخرین مورد، شرکت YOU (که در اصل یک موتور جستجوگر هست که برخی میگویند در سال های آینده امکان داره شانه به شانه گوگل بزنه) اومده و یک سرویس برای رایتینگ در زبان انگلیسی ارایه داده. شما میتونید یک توضیح مختصر راجع به چیزی که میخواید بنویسید و بعد انتخاب کنید که چه نوع خروجی میخواید. آیا میخواهید یک متن میل مناسب خروجی بگیرید یا یک متن بلاگ طور یا یک انشا. سپس You یک متن برای این مشخصات تعیینشده توسط شما جنریت میکنه.
ما اندکی با این دمو ور رفتیم و مثالهایی رو پیوست کردیم. فهمیدیم که این سرویس میتونه حتی با ورودی گرفتن یک عبارت کوتاه، متنی مستند و منطقی تولید کنید (به مثالی که راجع به تولید دانش بنیان در ایران تولید کرده دقت کنید).
محصولاتی مثل Grammarly و Wordtune و You Write نشون میدن که میشه با پردازش زبان هم محصول واقعی تولید کرد.
لینک برای امتحان کردن:
You.com/write
#link
#tool
@nlp_stuff
Telegram
stuff
ریزش برگ درختان با رونمایی از DALL-E 2
ساعاتی پیش شرکت Open AI از نسخه جدید مدل تولید تصویر DALL-E رونمایی کرد. این مدل نسبت به نسخه اول DALL-E که در ژانویه ۲۰۲۱ رونمایی شد (این جا قبلا پستش رو رفتیم: https://t.iss.one/nlp_stuff/114) بسیار واقعیتر، دقیقتره و البته رزولوشن تصاویر تولیدیاش هم نسبت به مدل قبلی چهار برابر شده. به طور خلاصه متدلوژی این مدل از دو قسمت تشکیل شده. قسمت اول از مدل clip برای تولید امبدینگ از روی caption استفاده میکنه و بعد قسمت دیکودر میاد و یک تصویر رو مشروط بر امبدینگ مرحله قبل تولید میکنه. طبق معمول هم یانیک کیلچر در همان اوقات اولیه دست یک ویدئو در توضیح این مدل ضبط کرده که لینکش رو این زیر گذاشتیم. حقیقتا کیفیت تصاویر تولیدی این مدل عجیبه.
لینک دمو برای وررفتن:
https://openai.com/dall-e-2/
لینک مقاله:
https://cdn.openai.com/papers/dall-e-2.pdf
لینک بررسی کیلچر:
https://www.youtube.com/watch?v=gGPv_SYVDC8
پ.ن.:در ضمن میتونید اطلاعاتتون رو در لیست انتظار وارد کنید و اگر خدا بخواد و شانستون خوب باشه به این مدل دسترسی پیدا کنید:
https://labs.openai.com/waitlist
#paper
#link
#read
#watch
@nlp_stuff
ساعاتی پیش شرکت Open AI از نسخه جدید مدل تولید تصویر DALL-E رونمایی کرد. این مدل نسبت به نسخه اول DALL-E که در ژانویه ۲۰۲۱ رونمایی شد (این جا قبلا پستش رو رفتیم: https://t.iss.one/nlp_stuff/114) بسیار واقعیتر، دقیقتره و البته رزولوشن تصاویر تولیدیاش هم نسبت به مدل قبلی چهار برابر شده. به طور خلاصه متدلوژی این مدل از دو قسمت تشکیل شده. قسمت اول از مدل clip برای تولید امبدینگ از روی caption استفاده میکنه و بعد قسمت دیکودر میاد و یک تصویر رو مشروط بر امبدینگ مرحله قبل تولید میکنه. طبق معمول هم یانیک کیلچر در همان اوقات اولیه دست یک ویدئو در توضیح این مدل ضبط کرده که لینکش رو این زیر گذاشتیم. حقیقتا کیفیت تصاویر تولیدی این مدل عجیبه.
لینک دمو برای وررفتن:
https://openai.com/dall-e-2/
لینک مقاله:
https://cdn.openai.com/papers/dall-e-2.pdf
لینک بررسی کیلچر:
https://www.youtube.com/watch?v=gGPv_SYVDC8
پ.ن.:در ضمن میتونید اطلاعاتتون رو در لیست انتظار وارد کنید و اگر خدا بخواد و شانستون خوب باشه به این مدل دسترسی پیدا کنید:
https://labs.openai.com/waitlist
#paper
#link
#read
#watch
@nlp_stuff
Telegram
stuff