NLP stuff
4.06K subscribers
147 photos
1 video
2 files
277 links
مطالب خوب و به‌دردبخور در حوزه‌ی هوش مصنوعی و پردازش زبان طبیعی!

شکرشکن شوند همه طوطیان هند
زین قند پارسی که به بنگاله می‌رود

اگر انتقاد، پیشنهاد و یا مطلب مفیدی (لینک، پست و ...) داشتید:
@AliAkbarBadri
@mmsamiei
@MmahdiAghajani
Download Telegram
Channel created
بسم الله الرحمن الرحیم

اینجا قصد داریم مطالب و لینک‌های به‌دردبخور برای هوش مصنوعی و پردازش زبان طبیعی را منتشر کنیم.

شکرشکن شوند همه طوطیان هند
زین قند پارسی که به بنگاله می‌رود

@nlp_stuff
اگر دنبال یک نقشه‌ی راه و چک‌لیست هستید، این لینک می‌تونه خیلی کمک‌کننده باشه.

https://github.com/amitness/learning

#coach
#course
#book

@nlp_stuff
در این لینک روش‌های تولید و تقویت دیتا(data augmentation) در حوزه پردازش زبان طبیعی آورده شده.
لینک خیلی خوبیه.

https://amitness.com/2020/05/data-augmentation-for-nlp/

#read
#blog

@nlp_stuff
یکی از مراحل پیش‌پردازش متن Subword Tokenization است که مشکل پردازش و امبدینگ کلمات ناآشنا (که در پیکره نبودند) را که در Tokenization وجود دارد حل می‌کند.
یکی از بهترین الگوریتم‌ها برای این کار BPE(Byte Pair Encoding) است که در بهترین مدل‌های زبانی امروزی مثل GPT2 و LASER هم استفاده شده.
لینک پایین این الگوریتم را به خوبی توضیح داده و کد هم براش آورده:


https://towardsdatascience.com/byte-pair-encoding-the-dark-horse-of-modern-nlp-eb36c7df4f10

#read
#blog

@nlp_stuff
این لینک به صورت خیلی خوب و خلاصه اکثر روش‌های امبدینگ متن را یکجا آورده. شدیدا ارزش خوندن داره.


https://towardsdatascience.com/document-embedding-techniques-fed3e7a6a25d

#read
#blog

@nlp_stuff
این لینک مدل word2vec skip-gram را به صورت خیلی خوب و مختصر توضیح می‌ده. این مدل یکی از معروف‌ترین روش‌های تبدیل واژه به برداره (embedding).


https://mccormickml.com/2016/04/19/word2vec-tutorial-the-skip-gram-model/

#read
#blog

@nlp_stuff
برادرمون اومده مدل زبانی GPT2 رو روی کتاب تاملات مارکوس آئورلیوس آموزش داده، نتیجه این شده که مدل شروع به تولید متن‌های فلسفی تاریخی میکنه. می‌تونید از هاب هاگینگ فیس دانلودش کنین لذت ببرید.

https://mobile.twitter.com/mrm8488/status/1263519187496054788

#read
#twitter

@nlp_stuff
بالاخره huggingface 🤗 مدل reformer رو هم به مدل‌های تحت پشتیبانی‌اش اضافه کرد! به طور مختصر و مفید reformer یک نوع transformer ای هستش که توش یک سری تکنیک زدن که شما می‌تونید حتی رشته‌هایی به طول ۱۰۰ هزار توکن رو هم بدون ترس از کم آوردن حافظه پردازش کنید (مطلبی که نقطه ضعف transformer های عادی بود )

https://twitter.com/huggingface/status/1263850138595987457

#link
#fresh

@nlp_stuff
سایت paperwithcode جایی هستش که شما می‌تونید هم از آخرین پیپر‌های trend روز پژوهش‌های زمینه یادگیری ماشین مطلع بشین و هم این که کلی تسک رو براتون آورده و می‌تونید به تمیزی ببنید که واسه هر تسکی چه پیپر‌هایی ارائه شده و عملکردهر کدوم در مقایسه با هم چه شکلی بوده

https://paperswithcode.com/
https://paperswithcode.com/area/natural-language-processing

#link

@nlp_stuff