NLP stuff
4.06K subscribers
147 photos
1 video
2 files
277 links
مطالب خوب و به‌دردبخور در حوزه‌ی هوش مصنوعی و پردازش زبان طبیعی!

شکرشکن شوند همه طوطیان هند
زین قند پارسی که به بنگاله می‌رود

اگر انتقاد، پیشنهاد و یا مطلب مفیدی (لینک، پست و ...) داشتید:
@AliAkbarBadri
@mmsamiei
@MmahdiAghajani
Download Telegram
این لینک یک مبحث بسیار جذاب به اسم zero shot classification را توضیح داده.
یعنی شما مدلی رو روی تسک دیگه‌ای مثل تشخیص قطبیت یا مدل زبانی آموزش بدید و بعدش بدون هیچ تغییری (حتی فاین تیون) ازش برای یک تسک دیگه مثل کلاسیفیکیشن جواب بگیری!! شاید به نظرتون این حرف کاملا غلط بیاد ولی در کمال ناباوری داره جواب می‌گیره!
ایده‌هایی که توضیح داده خیلی قشنگند حقیقتا.

https://amitness.com/2020/05/zero-shot-text-classification/

از این داداشمون قبلا هم پست گذاشتیم:
https://t.iss.one/nlp_stuff/5

بلاگ یا توییترش (https://twitter.com/amitness) را دنبال کنید. خیلی خوبه.

#read
#blog

@nlp_stuff
اگر دنبال یک نقطه شروع خوب برای مسیر یادگیری ماشین لرنینگ یا دیپ لرنینگ هستید، شدیداً ویرایش دوم این کتاب را توصیه می‌کنیم.

هم متن روان و خوبی داره و هم نمونه کدهای زیادی داره و هم مفاهیم را به صورت خوبی توضیح داده. نه فصل اولش ماشین لرنینگ یاد میده و ده فصل بعدی دیپ لرنینگ.

اگر هم مفاهیم ماشین لرنینگ و الگوریتم‌هاش را بلدید، برای پردازش زبان طبیعی این فصل‌ها از کتاب، شما را خیلی سریع وارد بازی می‌کنند:
۱۰, ۱۱, ۱۲, ۱۳, ۱۵, ۱۶

هر چند توصیه خود نویسنده‌ی کتاب هم اینه که از ابتدای کتاب شروع کنید و کدهاش رو حتما حداقل یک بار خودتون بزنید.

پ.ن. تشکر فراوان از دکتر پی‌براه و مهندس سینا شیخ‌الاسلامی که چند سال پیش این کتاب را بهمون معرفی کردند.

https://www.amazon.com/Hands-Machine-Learning-Scikit-Learn-TensorFlow/dp/1492032646


#coach
#book

@nlp_stuff
NLP stuff
اولین برت فارسی بالاخره آمد! https://twitter.com/hooshvare/status/1265644110838407169?s=20 https://github.com/hooshvare/parsbert https://arxiv.org/pdf/2005.12515.pdf #fresh #irani @nlp_stuff
برید به لینک زیر و با پارس‌برت از تیم هوشواره کیف کنید. عملکرد خیلی خوبی داره.

یک دموی خیلی خوب از چهار تا تسک NER, Sentiment Analysis, Text classification, Text Generation به صورت گرافیکی موجوده. طبیعتا با زدن دکمه Analyze بر روی متنی که در کادر کپی شده اجرا میشه.

دمشون گرم. حتما در کانالشون (@HooshvareTeam) عضو بشید که از مطالب خوبشون استفاده کنید.

https://lab.hooshvare.com

#link

@nlp_stuff
خلاصه‌ی تمام مدل‌هایی که در کتابخانه ترنسفورمر موجوده در لینک زیر اومده. واسه شروع آشنایی با این کتابخونه‌ی خفن می‌تونه راه خوبی باشه.

سعی کنید یک دور هر جوری شده کل این لینک را مطالعه کنید. اگر هم حجم کلمات و مفاهیم ناآشنای متن براتون زیاده، نگران نباشید.
قصد داریم خرد خرد شروع کنیم و برای بعضی از مدل‌هاش مطلب بگذاریم.

https://huggingface.co/docs/transformers/main/en/model_summary

در توییتر(https://twitter.com/huggingface) دنبالشون کنید. خیلی چیزها یاد می‌گیرید.

#read
#blog

@nlp_stuff
برید به این لینک و آمار و ارقام کنفرانس ACL2020 را ببینید.
این کنفرانس یکی از معتبرترین کنفرانس‌های پردازش زبان طبیعیه.

اینجا میتونید برید ببینید برای هر کدوم از زیر شاخه‌ها چند تا مقاله فرستاده شده و چند تا قبول شده.

یکی از فایده‌های دنبال کردن این کنفرانس‌ها خبردار شدن از ترندهای روز دنیا در هر کدام از زمینه‌هاست.

https://acl2020.org/blog/general-conference-statistics/

#link

@nlp_stuff
ما در ویرگول یه انتشارات به نام overfit ساختیم و دوست داریم فعلا مطالب در حوزه‌ی پردازش زبان طبیعی را منتشر کنیم. اگر پست خوبی داشتید خبر بدید.

به عنوان اولین پست، یکی از معیارهای سنجش مدل‌های زبانی به اسم perplexity (سرگشتگی) را توضیح دادیم.
لطفا نظر فراموش نشه.

https://virgool.io/overfit/معیار-سرگشتگی-perplexity-obyc9zkvwli2

#read
#blog
#overfit

@nlp_stuff
یک کورس خیلی خوب و به‌روز که هنوز هم داره تکمیل میشه و تمام منابعش کاملا سخاوت‌مندانه در دسترس هستند:
Deep Learning (with PyTorch)

استاد این درس Yann LeCun (یکی از اسطوره‌های دیپ لرنینگ! می‌شناسیدش دیگه؟) و تدریسیارش Alfredo Canziani است:

https://atcold.github.io/pytorch-Deep-Learning/

https://www.youtube.com/playlist?list=PLLHTzKZzVU9eaEyErdV26ikyolxOsz6mq


#coach
#course

@nlp_stuff
هر چه قدر فکر کردیم دلمون نیومد از این توییت جالب علمی تخیلی هینتون (یکی دیگه از اسطوره‌ها) بگذریم.

می‌گه که اگر بخوایم بر اساس عملکرد GPT3 تخمین بزنیم، احتمالا برای درست کردن یک مدل که بتونه به ما در مورد زندگی و جهان و کلا همه سوالاتمون پاسخ بده نیاز به مدلی با سایز ۴۳۹۸ میلیارد پارامتر داریم. (سایز GPT3 حدود ۱۷۵ میلیارد پارامتر است)

#twitter

@nlp_stuff
به عنوان یه نیم‌پست:
آمار و ارقام و مقاله‌های کنفرانس ICML 2020 که یکی از بهترین کنفرانس‌های ماشین لرنینگه در لینک زیر به زیبایی آورده شده.
سعی کنید حتما یه نگاهی بندازید.

https://conference-viz.now.sh/ICML

#link

@nlp_stuff
در این ویدیو تحقیقات و پیشرفت‌های تا سال ۲۰۲۰ در حوزه دیپ لرنینگ و یادگیری تقویتی (که لیستش در عکس آورده شده) به صورت خیلی جمع و جور مرور شدند.

ویدیو مال شش ماه پیشه ولی بخاطر بررسی گسترده و متنوعی که داره می‌تونه یک مرور و معرفی سریع از زمینه‌های مختلف براتون داشته باشه.

https://www.youtube.com/watch?v=0VH1Lim8gL8

#link

@nlp_stuff
در این پست از انتشارات overfit، یک رشته‌پست‌ به نام «داستان ترنسفورمرها» را شروع کردیم که به امید خدا قصد داریم داستان لزوم، پیدایش و حیات ترنسفورمرها را شرح بدیم. این اولیشه.
نظر فراموش نشه!

اگر پست خوبی داشتید خبر بدید که در انتشارات بگذاریم.


https://virgool.io/overfit/transformers1-b31wtfstlwvc

#read
#blog
#overfit

@nlp_stuff
یک دوره آموزشی جدید و به‌روز در مورد شبکه عصبی برای پردازش زبان طبیعی (CMU Neural Nets for NLP 2020).
حتما حداقل یک نگاه به لیست موضوعاتش در دو تصویر بالا بندازید.

https://www.youtube.com/playlist?list=PL8PYTP1V4I8CJ7nMxMC8aXv8WqKYwj-aJ

#coach
#course

@nlp_stuff
یک مدل قوی و سرراست بر اساس ترنسفورمر برای تصحیح دیکته‌ (spell checker) زبان انگلیسی در این ریپو ارائه شده.

https://github.com/mhagiwara/xfspell

#tool

@nlp_stuff
دوره آموزشی زیاد معرفی کردیم که دارن روی طاقچه‌ی کانال خاک می‌خورن؛ ولی این یکی را هم چون به نظر خوب و کامله، داشته باشید:
شرکت دکتر اندرو انگ (کلمه‌ی ng، ان‌جی خونده نمی‌شه بلکه یه جورایی مثل eng تلفظ می‌شه‌‌) و شرکا یه کورس جدید برای پردازش زبان طبیعی روی کوسرا گذاشتند که شامل چهار بخشه و تا الان دو بخشش آماده شده و در دسترسه.
در این عکس‌ها می‌تونید تیتر مطالبش را ببینید.


https://www.coursera.org/specializations/natural-language-processing

#coach
#course

@nlp_stuff
با این اکستنشن کروم می‌‌تونید از گوگل اسکولار مستقیم برید به پیاده‌سازی مقاله در سایت وزین paperswithcode.com.

https://twitter.com/paperswithcode/status/1276125432899911686?s=20

#twitter

@nlp_stuff
این پست جدید داداشمون راجع به گوگل کولب در حد یه نگاه سه دقیقه و هفده ثانیه‌ای ارزش داره.
مثلا همین موردی که توی عکسه جالبه.

https://amitness.com/2020/06/google-colaboratory-tips/

#read
#blog

@nlp_stuff
قابل توجه علاقه مندان به حوزه چت‌بات‌ها و دیالوگ سیستم‌ها، parl ai یک پلتفرم ارائه شده توسط فیسبوکه که از اون میشه برای کارکردهایی نظیر آموزش و ارزیابی و به اشتراک‌گذاری و استفاده از مدل‌های مکالمه‌ای آموزش دیده شده توسط دیگران استفاده کرد. در ضمن بالای ۱۰۰ تا دیتاست متنوع دیالوگ رو هم تو خودش جا داده، میتونین کیفش رو ببرید.
کار کردن باهاش و تعریف تسک و مدل توش یه کم پیچیده‌ست ولی دستتون که راه بیفته متوجه میشین که چه روش جالبی رو برای مدل کردن کلی مسأله دیالوگ انتخاب کردن.
با توجه به تلاش‌های Facebook research در سال‌های اخیر میشه این حدس رو داشت که تمرکز اصلی اونها در جبهه nlp روی حوزه چت‌بات‌هاست.

#tool

@nlp_stuff