NLP stuff
4.06K subscribers
147 photos
1 video
2 files
277 links
مطالب خوب و به‌دردبخور در حوزه‌ی هوش مصنوعی و پردازش زبان طبیعی!

شکرشکن شوند همه طوطیان هند
زین قند پارسی که به بنگاله می‌رود

اگر انتقاد، پیشنهاد و یا مطلب مفیدی (لینک، پست و ...) داشتید:
@AliAkbarBadri
@mmsamiei
@MmahdiAghajani
Download Telegram
مدل بازشناسی گفتار wav2vec2 فارسی

دوستان اومدند مدل wav2vec2 چند زبانه رو برای فارسی روی یه بخشی از دیتاست شخصی که در اختیار داشتند فاین تیون کردند و مدل نهایی رو با سخاوت روی هاگینگ فیس گذاشتند. نتایجش از مدل‌هایی که قبلاً بوده بهتر شده.
می‌تونید روی هاگینگ فیس با هر صوتی که میخواید تستش کنید.

لینک گیت‌هاب:
https://github.com/Hamtech-ai/wav2vec2-fa

لینک هاگینگ فیس:
https://huggingface.co/masoudmzb/wav2vec2-xlsr-multilingual-53-fa

پ.ن. با تشکر از آقایان مسعود پرپنچی و سجاد ایوبی که این پست رو فرستادند که در کانال قرار بدیم. دوست داشتید بهشون استار بدید که لذتشو ببرند.

#irani
#link

@nlp_stuff
داستان ترنسفورمرها (۵): سریع و سبک، گلاب‌گیری از برت با دیستیل‌برت

مدل برت با وجود تمام قدرتی که داره اما به خاطر سنگین‌بودنش در عمل سخت میشه ازش استفاده کرد و هم حافظه و هم زمان قابل توجهی رو می‌طلبه. در پنجمین پست از رشته‌‌پست‌ «داستان ترنسفورمرها»، سعی کردیم تکنیک distillation رو که یک راه حل ارائه شده برای فشرده‌سازی مدل‌های بزرگ است بررسی کنیم و بعد هم مدل distilbert رو که حاصل از انجام این تکنیک بر روی مدل برت هست معرفی کنیم.

اگر پست خوبی داشتید خبر بدید که در انتشارات بگذاریم.

https://virgool.io/overfit/transformers5-distilbert-smwuod8mlb9p

#read
#blog
#overfit

@nlp_stuff
دیتاست OCR ارشاسب

دیتاست ocr فارسی با نام اَرشاسب منتشر شد. این دیتاست (همچون نمونه در تصویر) شامل متن‌های پیوسته‌ای است که در آن، کلمات به همراه مختصات در تصویر برچسب زده شده‌اند. ۷۰۰۰ صفحه از این دیتاست به صورت عمومی منتشر شده و همچنین نسخه کامل‌تر این دیتاست که شامل ۳۳ هزار صفحه است، توسط سازندگان آن برای اعضای کانال به صورت رایگان در دسترس قرار گرفته است.

لینک گیت‌هاب دیتاست (۷ هزار صفحه):
https://github.com/persiandataset/Arshasb

لینک کل دیتا (۳۳ هزار صفحه):
https://drive.google.com/file/d/1Ahw_y-ugnu6FFz_SRBm2VUxnaqmXfsvp

پ.ن. با تشکر از سازنده‌ی این دیتاست که به کانال این پست را ارسال کردند. شما هم می‌تونید با استار دادن در گیت‌هاب از این پروژه حمایت کنید.

#dataset
#irani

@nlp_stuff
NLP stuff
خون اول. ParsTwiNER؛ دادگان عمومی توییتر فارسی برای NER از تیم اورفیت خوشبختانه مقاله ما در ورکشاپ WNUT کنفرانس EMNLP 2021 پذیرفته شد و ارائه شفاهی هم دادیم. این مقاله درباره named entity recognition در فضای فارسی غیررسمیه. در این مقاله یه دادگان خوب هم از…
خب خداروشکر کنفرانس EMNLP2021 هم به خوبی و خوشی تموم شد و مفتخریم بگیم که در کارگاه WNUT مقاله تیم اورفیت به عنوان runner-up (نایب قهرمان) انتخاب شد. امیدواریم از دیتاست تولید شده در این پژوهش حداکثر حظ و بهره رو ببرید و با یه استار زیبا ما رو هم حمایت کنید.

لینک مقاله:
https://aclanthology.org/2021.wnut-1.16/

لینک دادگان:
https://github.com/overfit-ir/parstwiner

@nlp_stuff
مروری بر هوش در ۲۰۲۱ و پیش‌بینی روند سال آینده

سال ۲۰۲۱ هم تمام شد و کلی مقاله و مدل و اتفاقات جدید در حوزه هوش مصنوعی رو شاهد بودیم. به همین مناسبت بررسی گزارش StateofAI که از ۲۰۱۸ به اینور در انتهای هر سال راجع به وضعیت و رخداد‌های هوش خلاصه‌ای رو ارائه میده، بسیار جذاب و سودمند میتونه باشه. در گزارش امسالشون هم چهار حوزه پیشرفت‌های علمی، وضعیت عرضه و تقاضا و تمرکز استعدادهای انسانی، زمینه‌های کاربرد تجاری هوش مصنوعی و تاثیراتش بر کسب و کار‌ها، رابطه هوش مصنوعی و مسائل سیاسی و ژئوپلتیک هوش مصنوعی رو بررسی کردند و در نهایت هم پیش‌بینی از رخداد‌های سال آینده ارائه دادند. این گزارش شامل ۱۸۳ اسلاید بسیار غنی است. در زیر سعی شده تا خلاصه‌ای از این خلاصه ارائه بشه:

- در حوزه پیشرفت علمی مهمترین مطالب این گزارش رو میشه رشد یادگیری‌های کمتر نظارتی (مثل خودنظارتی‌ها)، تصرف حوزه‌های مختلف هوش به دست معماری ترنسفورمری (تصویر و صوت)، ظهور معماری های نوین CNN و MLP برای به چالش کشیدن ترنسفورمر‌ها (مثل MLP-Mixer)، پیشرفت قابل توجه دیپ مایند در حوزه بیولوژی و یادگیری تقویتی و به وجود اومدن مساله مهندسی prompt در مدل‌های زبانی دانست. مدل‌هایی مثل DALL-E و CLIP و Codex هم که مدل‌های پر سر و صدای امسال بودند.
- نکته جالب این گزارش در حوزه منابع انسانی حوزه هوش رو هم میشه در رشد سریع هند و به خصوص چین در تولید مقالات و تربیت نیروی انسانی دید. همچنین مطلب دیگه محدودتر شدن ارائه کارهای برجسته به تعداد اندکی دانشگاه‌ و شرکت‌های پولدار و مهاجرت وسیع اساتید از دانشگاه‌ها به شرکت‌هاست.
- در حوزه تاثیرات تجاری هوش هم این گزارش به پیشرفت هوش در صنعت کشف دارو، گسترده‌شدن کاربردهای هوش (از تخمین مصرف برق در شبکه توزیع گرفته تا زمان مناسب لقاح مصنوعی گاو) و البته در نهایت مساله مهم MLOps و به‌راه‌اندازی و استقرار و استفاده از مدل‌های یادگیری ماشین اشاره کرده. مشکلات اخیر بر سر مساله خطیر تولید و تامین نیمه‌هادی‌ها از دیگر نکات مذکور این بخشه.
- در حوزه سیاست هم گزارش راجع به داغ شدن مباحث اخلاقی در کاربرد هوش و نیاز به تفسیرپذیری و قانونمند‌کردن هوش اشاره کرده. همچنین مواردی از رشد هوش در صنایع نظامی هم بحث شده.
- اما در بخش پیش‌بینی، این گزارش هشت پیش‌بینی داشته که از موارد فنی‌تر اونها میشه به جایگزین‌شدن RNN‌ها با ترنسفورمر‌ها در یادگیری تقویتی، پرچمداری مدل‌های هیبریدی ترنسفورمری و CNN کوچک با تعداد پارامتر خیلی کمتر روی مساله دسته‌بندی تصویر، افزایش استفاده از JAX و کد‌های منتشرشده و تولد یک شرکت تحقیقاتی با تمرکز روی AGI (هوش جامع مصنوعی) اشاره کرد.

این گزارش بسیار خوب و مختصر و موجز و مفید مقالات یکسال گذشته رو مرور کرده، از دست ندید.

لینک گزارش و اسلاید‌ها:
https://www.stateof.ai/

#read

@nlp_stuff
مدل WebGPT؛ به GPT-3 اینترنت و مرورگر دادند!

چند وقت قبل شرکت OpenAI از مدل WebGPT رونمایی کرد که باعث شگفتی خیلی‌ها شد و خیلی ترکوند.

شرکت OpenAI با یه تیم متشکل از یه نیسان آدم اومده GPT-3 رو فاین‌تیون کرده تا بتونه سوال‌های دامنه‌باز رو با استفاده از یک مرورگر (browser) پاسخ بلند (در حد پاراگراف) بده! یعنی واقعا یه مرورگر تکستی درست کردند و دادند دست مدل GPT-3 که با بینگ (موتور جستجوی مایکروسافت) سرچ کنه و جواب سوال رو «تولید» کنه.

در این پست خلاصه‌ای از نحوه‌ی کار و نتایج این مدل رو بررسی کردیم. اگر به نظرتون خوب بود، لایک کنید و دست به دست کنید.

https://virgool.io/overfit/papers-webgpt-a0xvwzafrj2q

#overfit
#read
#blog

پ.ن. رسیدیم به دو کا. مبارکا. ممنون که به بقیه، اندک کانال خودتون رو معرفی می‌کنید. تشکرات!

@nlp_stuff
خط‌کشی برای سنجش کیفیت document understanding

در این پست می‌خوایم به معرفی benchmark برای تسک document undestanding بپردازیم. این benchmark تسک document undestaning رو تبدیل به سه مساله اصلی کرده:

- تسک اول Document QA است که از روی layout داکیومنت می‌تونه سوال بپرسه و مدل باید جواب بده. در این حالت سوال‌ها به صورت زبان طبیعی پرسیده میشه اما کانتکست درواقع یه داکیومنته که layout داره (متنی که استایل داره یعنی فونت یا سایزهای متفاوتی داره). مثلا از مدل می‌پرسند که دو نوع تاریخی که در این داکیومنت وجود داره چه چیزهایی هستند؟ و مدل هم باید مثلا بگه تاریخ فاکتور و تاریخ پرداخت.

- تسک دوم key information extraction است که شبیه تسک اوله با این تفاوت که دیگه query با زبان طبیعی مطرح نمیشه بلکه مدل اطلاعات کلیدی این داکیومنت رو باید بیرون بکشه. مثلا مجموع فاکتور برابر با ۲۰۰۰ دلاره.

- تسک سوم هم Table QA/NLI هست که کار QA و یا NLI رو بر روی جداول انجام می‌ده. این تسک مشخصا بر روی جداول تمرکز داره و سعی می‌کنه برخی از عبارات رو با استفاده از جدول موجود در داکیومنت verify کنه. مثلا یه جمله ورودی می‌گیره که آیتم شماره ۱ به مقدار ۲۰۰ قلم فروخته شده و مدل باید بگه که این جمله درسته یا نه. البته میشه از روی جدول، سوال هم پرسید و مدل باید بتونه جواب بده.

یه صفحه هم در نظر گرفته شده که leaderboard است و امتیاز مدل‌های مختلف رو گذاشته و حالت overall روی این سه تا تسک داره. اگه در این زمینه کار می‌کنید خوبه به این بنچ‌مارک توجه کنید و نتایج‌تون رو با leaderboard مقایسه کنید. در تصویر مثال‌های بهتری از هر یک از این سه تسک آورده شده که می‌تونید مشاهده کنید.

لینک benchmark:
https://duebenchmark.com/leaderboard

لینک github:
https://github.com/due-benchmark

لینک مقاله:
https://datasets-benchmarks-proceedings.neurips.cc/paper/2021/file/069059b7ef840f0c74a814ec9237b6ec-Paper-round2.pdf

#read
#paper

@nlp_stuff
مینی‌پستی برای استخراج patch

با رونق‌گرفتن معماری ترنسفورمر (که یک معماری به اصطلاح set2set است) در حوزه پردازش تصویر، برای ورودی دادن یک تصویر به ترنسفورمر، اول بایستی این تصویر رو به یکسری پچ‌ و تکه تقسیم کنیم و بعد این مجموعه پچ‌ها رو به شبکه بدیم. راه حل ساده و البته ابلهانه اینه که از چند تا for برای این کار استفاده کنیم که قاعدتاً اسراف وقته. در این رشته توییت اما نشون داده و به صورت کامل توضیح داده که چطوری بدون هیچ حلقه ای و صرفا با استفاده از مکانیزم‌های نامپای‌طور میشه عملیات استخراج پچ رو با کمترین زمان مصرفی و پیچیدگی کد، پیاده کرد.
از اونجایی که این جنس نیازمندی بسیار پرکاربرده و قطعا در آینده حداقل یکبار ممکنه گیرش بیافتید مطلب مفیدی می‌تونه باشه.

لینک رشته توییت:
https://mobile.twitter.com/MishaLaskin/status/1478500251376009220

#read
#tweet
#code

@nlp_stuff
گنج قارون! مجموعه مساله‌های یادگیری عمیق برای مصاحبه‌های آکادمیک و یا شغلی

امروز کتابی رو براتون معرفی می‌کنیم که شامل مساله‌های متنوعی در حوزه یادگیری ماشین و یادگیری عمیقه. این مساله‌ها عموما سوالاتی هستند که در مصاحبه‌های آکادمیک و یا شغلی پرسیده می‌شوند. حالا این کتاب به طرز نکویی این مساله‌ها رو به همراه جواب‌هاشون گردآوری کرده که می‌تونید برای افزایش توانمندی‌هاتون ازش استفاده کنید. سوالات این کتاب عموما یا سوالات مفهومی و پایه‌ای حول اون حوزه هستند و یا سوالات کاربردی که هر کدوم چالش‌های خاص خودش رو داره. مثلا در سوالاتی کاربردی ممکنه یه تیکه کد به PyTorch داده باشه و بخواد که شما بگید چی کار می‌کنه. فصل‌های این کتاب به ترتیب از مباحث پایه‌ای مثل logistic regression شروع میشه و به مفاهیم پیچیده‌تر در حوزه شبکه‌های عمیق مثل CNNها و مساله‌های مربوطه می‌رسه. توصیه می‌کنیم اول سوال‌ها رو نگاه بندازید و بعد سعی کنید اون‌ها رو حل کنید. اگه جوابی به ذهن‌تون نمیرسه به جای اینکه مستقیم سراغ بخش solutions برید سعی کنید در کتاب‌های دیگه در حوزه یادگیری ماشین و یادگیری عمیق جواب اون سوال رو پیدا کنید. مثلا یکی از سوال‌هاش اینه:
کدوم توزیع آماری بیشترین آنتروپی رو در یه بازه بسته داره؟ اول کمی فکر کنید و بعد جوابش رو در تصویر می‌تونید ببینید.

لینک کتاب:
https://arxiv.org/abs/2201.00650

#book
#read

@nlp_stuff
در انتقال یادگیری از لایه‌های میانی غافل نشوید

در سناریو انتقال یادگیری و هنگامی که بخواهیم شبکه پیش آموزش دیده روی تسک مبدا را برای تسک مقصد استفاده کنیم، دو راه پیش‌روی خود داریم. راه اول این است که شبکه را به اصطلاح فریز کنیم و یک لایه خطی روی فیچر‌های لایه آخر شبکه برای تسک مقصد استفاده کنیم. راه دوم هم این است که کل شبکه را مورد فاین تیون قرار بدهیم. حالا مقاله‌ای اومده که نشون داده راه سومی هم جز این دو هست و این راه فریزکردن شبکه و در عین حال سوارکردن یک لایه خطی بر روی فیچرهای تمام لایه‌های میانی شبکه است (نه فقط فیچرهای لایه آخر). در واقع سوالی که منجر به این ایده شده این بوده که Fine-tuning با این که پیچیدگی و تعداد پارامتر بیشتری نسبت به حالت فریزکردن مدل داره چرا بهتر عمل میکنه؟ نکنه در سناریو Fine-tuning صرفا فیچرهای میانی شبکه دارند به آخر شبکه پاس داده می‌شوند؟؟)

این مقاله ابتدا اومده imagenet رو به عنوان تسک مبدا در نظر گرفته و ۱۹ دیتاست دیگه مثل Cifar100 و Clevr و Pets و ... رو به عنوان تسک مقصد در نظر گرفته. سپس یک مقداری تحت عنوان domain affinity محاسبه کرده که نشون میده هر کدوم از این ۱۹ تسک مقصد چه قدر به imagenet نزدیک هستند. حالا اومدند و برای هر کدوم از این دیتاست‌ها سه سناریو دسته‌بند خطی روی شبکه مبدا فریزشده (Linear)، فاین تیون‌کردن شبکه مبدا (Fine-tuning) و اموزش دادن از اول (Scratch) و نتایج این روشها رو تو عکس figure2 ای که مشاهده میکنید گذاشتند. در این نمودار دیتاست های سمت چپ دارای affinity کمتر و دیتاست‌های سمت راست دارای affinity بیشتری هستند. نمودار نشون میده که برای دیتاست‌های چپ سناریو Scratch جواب‌بهتری از بقیه میده و برای دیتاست‌های راست هم سناریو Linear جواب خوبی میده ( که منطقی هم هست).

در گام بعدی مقاله اومده و مدل خودش یعنی Head2Toe رو مطرح کرده. در این مدل ابتدا شبکه مبدا (همون پیش آموزش دیدهه روی imagent) فریز میشه و سپس تمامی فیچر‌های میانی شبکه انتخاب می‌شوند. از اونجایی که سایز اینها خب زیاده فیچرهای هر لایه توسط یک مکانیزم pooling ابعادشون کاهش پیدا میکنه. در نهایت تمامی این فیچرهای کاهش بعد داده شده تمامی لایه‌ها با هم کانکت می‌شوند و یک بردار ویژگی بزرگ به دست میاد (اسمش رو h_all بذارید). از اونجایی که این h_all هم بزرگه و آموزش دادن کلاسیفایر خطی روش ممکنه منجر به اورفیت بشه، مقاله اومده از رگولاریزیشن Group lasso برای آموزش یک دسته‌بند خطی روی این بردار بزرگ استفاده کرده تا وزن‌هایی که به دست میان اسپارس باشن و هم به نوعی عمل فیچر سلکشن رو روی h_all انجام داده. در نهایت هم اومدن head2Toe رو روی اون ۱۹ دیتاست مختلف اجرا کردند و نشون دادند که در میانگین روششون بهتر از سناریو‌های دیگه نظیر Linear و حتی Fine-tune داره عمل میکنه!

لینک مقاله:
https://arxiv.org/abs/2201.03529

#read
#paper

@nlp_stuff
مدل رترو؛ ترکیب مدل زبانی و دیتابیس!

شرکت دیپ‌مایند مدلی به نام رترو داده که با ۷.۵ میلیارد پارامتر با مدل‌هایی مثل GPT-3 با ۲۵ برابر پارامتر در تسک‌های بر پایه‌ی اطلاعات (مثل پرسش و پاسخ) برابری می‌کند.
همونطور که می‌دونید مدل‌های زبانی برای پیش‌بینی احتمال یک کلمه با توجه به کلمات قبل و بعد ساخته شده‌اند. این پیش‌بینی گاهی نیاز به دانش زبانی مانند گرامر و درک معنا داره و گاهی نیز نیاز به اطلاعات دانش عمومی داره. مثلا در جمله‌ی «علی کاپوت ماشین را … زد.» مدل باید با دانش زبانی بگه: «بالا» و مثلا در جمله‌ی «کارگردان فیلم یک تکه نان … است» باید مدل با اطلاعات و دانش، جای خالی رو با «کمال تبریزی» پر کنه (البته طبیعتا نباید این موضوع را قبلا در داده‌ی آموزش دیده باشه).

مدل‌های زبانی غول‌آسا مثل جی‌پی‌تی تمام اطلاعات را در پارامترهای مدلشون ذخیره می‌کنند. برای دانش زبانی شاید این روش جواب بده اما برای دانش عمومی قطعا کارا نیست چون شونصد تا فکت وجود داره. حالا تیم دیپ مایند مدلی به نام RETRO (Retrieval Enhanced TRansfOrmers) ارائه کرده که از یک مدل زبانی خیلی کوچکتر از جی‌پی‌تی برای دانش‌های زبانی و یه دیتابیس بزرگ از اطلاعات عمومی داره استفاده می‌کنه. حالا این روش چند تا فایده بزرگ داره: اول اینکه مدل زبانی میتونه خیلی کوچیکتر باشه و فقط روی بحث‌های زبانی تمرکز کنه که این یعنی سریعتره و استفاده و دیپلویش هم راحت‌تر میشه. دوم. واسه اینکه سوال‌ها و داده‌های جدید (مثلا سوال: «ماتریکس (۴) در چه سالی ساخته شد؟») را هم مدل پاسخ بده لازم نیست دیگه دوباره آموزش داده بشه و کافیه که دیتابیس به‌روز بشه. در پست webgpt شرکت OpenAI قسمت بازیابی رو روی دوش اینترنت انداخته بود و توصیه می‌کنیم حتما اون پست را هم بخونید.

حالا مدل retro مثل مدل T5 در حقیقت یک انکودر-دیکودره و از یک دیتابیس استفاده می‌کنه. دیتابیس به صورت key-value داده‌ها رو ذخیره کرده. مقدار دو بخش داره: neighbor که یک متنه و امبدینگ برتش میشه کلید و بخش دوم به نام completion که ادامه‌ی متن neighbor است. این دیتابیس ۲ تریلیون توکن داره!!
نحوه آموزش بدین شکله که ورودی اول میره داخل برت و با استفاده از میانگین‌گیری از امبدینگ‌های کلمات، امبدینگ جمله ساخته میشه. با این بردار، به دیتابیس کوئری زده میشه و نزدیکترین همسایه‌ها با الگوریتم scann پیدا میشه. حالا این متن‌ها (همسایه‌ها و ادامه‌شون) با متن ورودی اصلی، میشن ورودی به رترو تا آموزش ببینه که پاسخ رو تولید بکنه. یعنی اینجوری مدل یاد میگیره با دیتابیس و نه فقط با پارامترهاش جواب رو تولید کنه. معماری کلی مدل در مقاله توضیح داده شده و مفصلش رو نگاهش کنید؛ دو استک انکودر و دیکودر داره که استک انکودر ۳۲ تا بلوک انکودر ترنسفورمری عادی داره و استک دیکودر از بلوک‌های دیکودر ترنسفورمری و یک سری بلوک بلوک دیکودر رترو ساخته شده. این معماری دیکودر رترو هم یه بخش اضافه به نام chunked cross-attention داره. مدل را در تسک‌هایی مثل تسک مدل زبانی و تسک پرسش و پاسخ و … هم امتحان کردند و نتایجش را در مقاله ببینید.

تصاویری از خلاصه معماری و نحوه عملکرد مدل رو هم می‌تونید در ضمیمه مشاهده کنید.

لینک مقاله:
https://arxiv.org/abs/2112.04426

لینک رشته توئیت خلاصه مقاله:
https://threadreaderapp.com/thread/1474702607444815873.html

#read
#paper

@nlp_stuff
کورس CS224U: فهم مدل زبانی

کورس Natural Language Understanding دانشگاه استنفورد حالا روی یوتیوبه. یه نگاهی به لیست ویدیوهاش بندازید متوجه میشید چه کورس خوف و خفنیه. از مباحث پایه ترنسفورمرها مثل برت و رابرتا تا بازیابی اطلاعات برپایه شبکه عصبی را توی لیستش می‌تونید پیدا کنید. ویدیوها رو هم با زمان کم درست کرده که راحت ببینید کدها رو ههم روی صفحه کورس به اشتراک گذاشته.

لینک صفحه کورس:
https://web.stanford.edu/class/cs224u/

لینک یوتیوب کورس:
https://www.youtube.com/playlist?list=PLoROMvodv4rPt5D0zs3YhbWSZA8Q_DyiJ


پ.ن. با تشکر از آقای صدرا صبوری که این کورس رو بهمون فرستادند که در کانال قرار بدیم. شما هم مطلب مفیدی بود بفرستید.

#coach
#course


@nlp_stuff
لیبل استودیو؛ ابزاری که باید پر شال هر دیتاساینتیست باشد!

طبیعتا گام اول و تقریبا مهم‌ترین گام در هر پروژه مدل‌سازی، جمع‌آوری دیتا و به‌خصوص دیتای لیبل‌خورده است. حتما می‌دونید که این کار چقدر مشقت‌باره و زمان زیادی رو از تیم اشغال می‌کنه. حالا در این پست می‌خوایم یه ابزاری رو معرفی کنیم که خیلی راحت می‌تونید راه‌اندازی‌ش کنید و خیلی راحت استفاده کنید. بله؛ label studio. این ابزار به راحتی با یه دستور pip نصب میشه و روی پورت موردنظر بالا میاد. سپس می‌تونید به‌مقصود پروژه‌های مختلف در حوزه تکست، ویژن، ویدیو، صوت، دیتای ساختاریافته و خیلی چیزای دیگه پروژه بسازید و از تمپلیت‌های آماده اون استفاده کنید. بعد به راحتی دیتاتون رو لیبل بزنید و به فرمت‌های خروجی معتبر خروجی بگیرید. مثلا برای تسک named entity recognition می‌تونید به فرمت معتبر CoNLL خروجی بگیرید. البته این ابزار برای زبان فارسی چون پشتیبانی RTL نداره یه مقدار اذیت‌کننده است که در اون صورت می‌تونید از ریپوی معرفی شده ابزار رو clone کنید و به صورت local نصب کنید.

لینک ابزار:
https://labelstud.io

لینک ریپوی ساپورت RTL:
https://github.com/mmaghajani/label-studio

لینک ریپوی اصلی:
https://github.com/heartexlabs/label-studio

#tool
@nlp_stuff
داستان ترنسفورمرها (۶): داستان XLNet

در ششمین قسمت از سریال «داستان ترنسفورمرها»، رفتیم سراغ داستان شبکه XLNet که از خانواده مدل‌های autoregressive است. این مدل به نوعی در برابر BERT قد علم کرده و میراث‌دار نبرد تاریخی بین مدل‌های autoregressive و autoencoder است. برای اینکه این نبرد رو بشناسید و با XLNet هم آشنا بشید این پست ویرگول رو از دست ندید.

پ.ن.۱: کم‌کاری نکنید. نظر بدید و با بقیه به اشتراک بذارید.
پ.ن.۲: اگر پست خوبی داشتید خبر بدید که در انتشارات بذاریم.

لینک پست ویرگول:
https://virgool.io/overfit/transformers6-xlnet-ufgmgu9rl8rs

#read
#blog
#overfit

@nlp_stuff
گلچین ۲۰۲۱ رودر

آقای رودر به رسم هر ساله اومده خلاصه‌ای از مقالات ۲۰۲۱ در زمینه ML و NLP رو منتشر کرده. این خلاصه رو در ۱۵ بخش کاملا متنوع که در تصویر می‌بینید تقسیم کرده. نیم ساعت بذارید کلشو مرور می‌کنید و یهو می‌بینید که انگار دوپینگ کردید.


لینک پست:
https://ruder.io/ml-highlights-2021

#read
#blog

@nlp_stuff
تشخیص خارج از توزیع با تولید داده پرت ساختگی

تشخیص خارج از توزیع یا out of distribution یکی از مسائل مورد توجه و مهم در شبکه های عصبیه. سناریویی رو در نظر بگیرید که شما مدل تشخیص اشیاتون رو برای یک ماشین خودران روی کلاس های مختلف آموزشش داد و حالا در وقت اجرا ناگهان با گوزنی مواجه میشید که در کلاس های آموزشیتون نداشتید. در اینجا مدل چون بالاخره بایستی جوابی تولید کنه در نهایت لیبلی اشتباه به این گوزن میزنه و ممکنه باعث مشکلات بعدی بشه. راهکارهای زیادی برای ood اعلام شده که البته هر کدام مشکلات خاص خودشون رو دارند. حالا پیپری اومده و روشی به نام vos ارائه کرده که جالبه.

اولین ایده ای که برای ood میتونه به ذهن بیاد اینه که یکسری داده ورودی (تصویر) خارج از توزیع بسازیم و با اونها مدل رو آموزش بدیم تا ood انجام بده. اما از اونجایی که خود تولید نمونه ورودی مساله سخت و پیچیده تریه پیپر vos پیشنهاد کرده تا دادگان پرت رو در سطح لایه قبل از لایه دسته بند بسازیم. منظور از این لایه در واقع آخرین لایه در شبکه است که مدل، لایه نهایی دسته بند رو بر روی ویژگی و بازنمایی های استخراج شده از این لایه قرار میده (اسم این لایه رو بازنمایی نهایی در نظر بگیرید). اما چطور داده پرت (outlier) بسازیم؟ کاری که vos میکنه اینه که میاد یک توزیع مخلوط گاوسی روی بازنمایی‌های نهایی کلاس های مختلف تخمین میزنه و سپس برای ساخت داده پرت میاد و به نحوی از این توزیع ها سمپل می‌گیره که احتمال این سمپل به شرط توزیع‌ها خیلی خیلی کم باشه. حالا تعدادی بازنمایی نهایی پرت داریم. در مرحله بعد، این بازنمایی‌های نهایی پرت به همراه بازنمایی های غیرپرت به لایه آخر دسته بند داده میشن و برای همشون logit یا امتیاز روی کلاس های مختلف به دست میاد. حالا vos میاد و یک تابع هزینه ای پیشنهاد میده که طبق این تابع هزینه، logit های داده های غیرپرت تشویق به قطعیت و logit های داده های پرت هم تشویق به عدم قطعیت می‌شوند. حالا مدل در طی آموزش علاوه بر این که روی لاس اصلی مساله خودش آموزش میبینه روی این لاس هم آموزش میبینه. در هنگام تست هم در صورتی که logit های یک نمونه از یک حدی عدم قطعیتشون بیشتر باشه اون نمونه به عنوان داده پرت فرض میشه. این مدل روی وظیفه تشخیص شی ارائه شده اما در واقع یک فریمورک است و میتونه روی وظایف دیگه انجام بشه.

لینک مقاله:
https://arxiv.org/abs/2202.01197

لینک ویدئو کیلچر در توضیح این مقاله:
youtu.be/i-J4T3uLC9M

#paper
#read
#watch

@nlp_stuff
معرفی کانال ارزشی MLST

اول از همه انشاءالله که سال و قرن خوبی داشته باشید.
به عنوان اولین پست قرن نو می‌خوایم یک کانال یوتیوبی فاخر و ارزشی در زمینه یادگیری ماشین رو معرفی کنیم. اسم این کانال Machine Learning Street Talk است. محتوای این کانال شامل مصاحبه‌های هر از چند گاهی با متفکران پیشرو هوش مصنوعی (نظیر بنجیو و لکان و شوله و مارکوس و ...) و بحث با اونها در مورد آینده هوش مصنوعی و شهودشون در مورد راه آینده در زمینه های مختلف است. ذکر این نکته لازمه که محتوای این مصاحبه‌ها و بحث‌ها خیلی خیلی فنیه و به جای این که به بحث در مورد مقالات مختلف در کاربردهای مختلف بپردازند (مثل کاری که کیلچر میکنه). موضوع، مباحثه کردن روی درک از فیل هوش مصنوعی در اتاق تاریک عصر فعلیه. اگر یک نگاه به ویدئوهای این کانال بیاندازید می‌بینید که طیف زیادی از موضوعات از زبانشناسی و مباحث تکنیکی خود یادگیری ماشین مثل یادگیری نیمه نظارتی و حملات خصمانه گرفته تا علوم اعصاب و علوم شناختی در این کانال با طراحی بسیار زیبا و شیوا مورد بحث و بیان قرار گرفته.

لینک کانال یوتیوب:
youtube.com/MachineLearningStreetTalk

#watch
#link

@nlp_stuff
دادن اطلاعات از شما، نوشتن متن با You

Hello,

If you're an artificial intelligence enthusiast, then you should definitely reshare posts from the nlp_stuff channel. nlp_stuff is a Telegram channel that's dedicated to AI news and advances. The subscribers of this channel can stay up to date with the latest in AI technology. However, some other channels do not comply with copyright law and copy posts from nlp_stuff into their own channels. This is unfair to the creators of nlp_stuff, and it also diminishes the quality of information that's available to AI enthusiasts. By resharing posts from the nLP_Stuff channel, you can help keep this information accessible and high-quality. Thanks for your support!

متنی که بالا دیدید رو هوش مصنوعی YOU نوشته (ما صرفا بهش توضیح بولتوار اندکی دادیم و این رو جنریت کرده). در سال‌های اخیر محصولاتی نظیر grammarly و wordtune با استفاده از هوش مصنوعی و پردازش زبان تونسته اند محصولاتی رو جهت کمک به کاربران در زمینه اصلاح و ویرایش متون انگلیسی ارائه کنند. حالا در آخرین مورد، شرکت YOU (که در اصل یک موتور جستجوگر هست که برخی میگویند در سال های آینده امکان داره شانه به شانه گوگل بزنه) اومده و یک سرویس برای رایتینگ در زبان انگلیسی ارایه داده. شما می‌تونید یک توضیح مختصر راجع به چیزی که میخواید بنویسید و بعد انتخاب کنید که چه نوع خروجی میخواید. آیا می‌خواهید یک متن میل مناسب خروجی بگیرید یا یک متن بلاگ طور یا یک انشا. سپس You یک متن برای این مشخصات تعیین‌شده توسط شما جنریت می‌کنه.
ما اندکی با این دمو ور رفتیم و مثال‌هایی رو پیوست کردیم. فهمیدیم که این سرویس می‌تونه حتی با ورودی گرفتن یک عبارت کوتاه، متنی مستند و منطقی تولید کنید (به مثالی که راجع به تولید دانش بنیان در ایران تولید کرده دقت کنید).
محصولاتی مثل Grammarly و Wordtune و You Write نشون میدن که میشه با پردازش زبان هم محصول واقعی تولید کرد.

لینک برای امتحان کردن:
You.com/write

#link
#tool

@nlp_stuff
ریزش برگ درختان با رونمایی از DALL-E 2

ساعاتی پیش شرکت Open AI از نسخه جدید مدل تولید تصویر DALL-E رونمایی کرد. این مدل نسبت به نسخه اول DALL-E که در ژانویه ۲۰۲۱ رونمایی شد (این جا قبلا پستش رو رفتیم: https://t.iss.one/nlp_stuff/114) بسیار واقعی‌تر، دقیق‌تره و البته رزولوشن تصاویر تولیدی‌اش هم نسبت به مدل قبلی چهار برابر شده. به طور خلاصه متدلوژی این مدل از دو قسمت تشکیل شده. قسمت اول از مدل clip برای تولید امبدینگ از روی caption استفاده میکنه و بعد قسمت دیکودر میاد و یک تصویر رو مشروط بر امبدینگ مرحله قبل تولید میکنه. طبق معمول هم یانیک کیلچر در همان اوقات اولیه دست یک ویدئو در توضیح این مدل ضبط کرده که لینکش رو این زیر گذاشتیم. حقیقتا کیفیت تصاویر تولیدی این مدل عجیبه.

لینک دمو برای وررفتن:
https://openai.com/dall-e-2/
لینک مقاله:
https://cdn.openai.com/papers/dall-e-2.pdf
لینک بررسی کیلچر:
https://www.youtube.com/watch?v=gGPv_SYVDC8

پ.ن.:در ضمن میتونید اطلاعاتتون رو در لیست انتظار وارد کنید و اگر خدا بخواد و شانس‌تون خوب باشه به این مدل دسترسی پیدا کنید:
https://labs.openai.com/waitlist

#paper
#link
#read
#watch

@nlp_stuff