NLP stuff
4.06K subscribers
147 photos
1 video
2 files
277 links
مطالب خوب و به‌دردبخور در حوزه‌ی هوش مصنوعی و پردازش زبان طبیعی!

شکرشکن شوند همه طوطیان هند
زین قند پارسی که به بنگاله می‌رود

اگر انتقاد، پیشنهاد و یا مطلب مفیدی (لینک، پست و ...) داشتید:
@AliAkbarBadri
@mmsamiei
@MmahdiAghajani
Download Telegram
Channel created
بسم الله الرحمن الرحیم

اینجا قصد داریم مطالب و لینک‌های به‌دردبخور برای هوش مصنوعی و پردازش زبان طبیعی را منتشر کنیم.

شکرشکن شوند همه طوطیان هند
زین قند پارسی که به بنگاله می‌رود

@nlp_stuff
اگر دنبال یک نقشه‌ی راه و چک‌لیست هستید، این لینک می‌تونه خیلی کمک‌کننده باشه.

https://github.com/amitness/learning

#coach
#course
#book

@nlp_stuff
در این لینک روش‌های تولید و تقویت دیتا(data augmentation) در حوزه پردازش زبان طبیعی آورده شده.
لینک خیلی خوبیه.

https://amitness.com/2020/05/data-augmentation-for-nlp/

#read
#blog

@nlp_stuff
یکی از مراحل پیش‌پردازش متن Subword Tokenization است که مشکل پردازش و امبدینگ کلمات ناآشنا (که در پیکره نبودند) را که در Tokenization وجود دارد حل می‌کند.
یکی از بهترین الگوریتم‌ها برای این کار BPE(Byte Pair Encoding) است که در بهترین مدل‌های زبانی امروزی مثل GPT2 و LASER هم استفاده شده.
لینک پایین این الگوریتم را به خوبی توضیح داده و کد هم براش آورده:


https://towardsdatascience.com/byte-pair-encoding-the-dark-horse-of-modern-nlp-eb36c7df4f10

#read
#blog

@nlp_stuff
این لینک به صورت خیلی خوب و خلاصه اکثر روش‌های امبدینگ متن را یکجا آورده. شدیدا ارزش خوندن داره.


https://towardsdatascience.com/document-embedding-techniques-fed3e7a6a25d

#read
#blog

@nlp_stuff
این لینک مدل word2vec skip-gram را به صورت خیلی خوب و مختصر توضیح می‌ده. این مدل یکی از معروف‌ترین روش‌های تبدیل واژه به برداره (embedding).


https://mccormickml.com/2016/04/19/word2vec-tutorial-the-skip-gram-model/

#read
#blog

@nlp_stuff