NLP stuff
4.06K subscribers
147 photos
1 video
2 files
277 links
مطالب خوب و به‌دردبخور در حوزه‌ی هوش مصنوعی و پردازش زبان طبیعی!

شکرشکن شوند همه طوطیان هند
زین قند پارسی که به بنگاله می‌رود

اگر انتقاد، پیشنهاد و یا مطلب مفیدی (لینک، پست و ...) داشتید:
@AliAkbarBadri
@mmsamiei
@MmahdiAghajani
Download Telegram
کتابخونه nlpaug خیلی‌ به‌دردبخوره. باهاش میتونید نویز رو در سطح کاراکتر و کلمه به دیتاست وارد کنید و به شکل نیکویی data augmentation کنید. چند تا از کارای باحالش:
- حروف را حروف کنارش در کیبورد (QWERTY) و یا رندوم جایگزین می‌کنه.
- کلمه‌ها را با کلمه‌های مشابه با استفاده از wordnet، word2vec، GloVe، fasttext ،BERT و یا به صورت رندم با کلمه‌های دیگه جایگزین می‌کنه.

خلاصه خیلی خوبه. لینک بلاگ و گیتش را در ادامه آوردیم.


https://towardsdatascience.com/data-augmentation-library-for-text-9661736b13ff

https://github.com/makcedward/nlpaug

اگر با data augmentation آشنا نیستید این دو تا پست را ببینید:
https://t.iss.one/nlp_stuff/5
https://t.iss.one/nlp_stuff/71


#read
#blog
#tool

@nlp_stuff
این دو تا پلی‌لیست یوتیوب خیلی خوبن.
مدل‌ها و مقاله‌های حوزه‌ی NLP را به شکل نیکویی توضیح میدن. از دست ندید.

https://www.youtube.com/playlist?list=PL75e0qA87dlG-za8eLI6t0_Pbxafk-cxb

https://www.youtube.com/playlist?list=PL75e0qA87dlFJiNMeKltWImhQxfFwaxvv

#coach
#course

@nlp_stuff
گراف‌های دانش پایگاه‌های دانشی هستند که علی رغم جذابیت و صحت اطلاعاتی بالاشون، اما جمع آوری و یا درست کردن اتوماتیکشون کار سختیه و نیازمند روش های supervisd یا حداکثر semisupervised هستش. حدود دو هفته پیش اما پیپری ارائه شد که روشی رو برای ساختن گراف های دانش از مدل‌های زبانی نظیر Bert و GPT پیشنهاد کرد (روشی حتی بدون فاین تیون کردن این مدل‌های زبانی)
حالا چند روز پیش یک ویدئوی خوبی در توضیح این پیپر منتشر شده. ببینیدش.

https://arxiv.org/abs/2010.11967

https://youtu.be/NAJOZTNkhlI

#paper
#read

@nlp_stuff
این ویدیو و نوت‌بوک بهتون یاد میده که چجوری با استفاده ماژول pipline از کتابخونه‌ی huggingface با چند خط کد مثل آب خوردن یک multilabel classifier داشته باشید.


https://www.youtube.com/watch?v=J6D-S9gfgwk&ab_channel=BhaveshBhatt

https://github.com/bhattbhavesh91/zero-shot-huggingface-demo/blob/main/zero-shot-classification-notebook.ipynb

#coach
#video

@nlp_stuff
این پست جدید از هاگینگ فیس را بنگرید!
حدود یکسال پیش بچه‌های هاگینگ‌فیس طی این پست در مدیوم پیشنهاد کردند که برای شبکه های seq2seq بیایم و از انکودرهای از پیش آموزش دیده شده نظیر برت به عنوان نقطه شروع شبکه‌های انکودر و دیکودر استفاده کنیم ( مثالش اینه که فکر کنید یک تسک تبدیل متن انگلیسی به sql داشته باشیم و بیایم روی متن انگلیسی و متن‌های sql دو تا شبکه برت آموزش بدیم و بعد این برت ها را به عنوان انکودر و دیکودر شبکه دنباله به دنباله بکاریم و حالا روش شروع به آموزش کنیم و فاین تیون کنیم)
حال پس از گذشت یک سال، هاگینگ فیس امکان استفاده از این قابلیت را تا حد خوبی پیاده‌سازی کرده و در این پست از بلاگش اون رو به خوبی تشریح کرده. الان دیگه به زیبایی میتونید بیاید از مدل‌های جالبی مثل Bert2Bert یا Bert2GPT برای تسک‌های دنباله‌ به دنباله نظیر خلاصه‌سازی و ترجمه‌ماشینی و دیالوگ و هر چی تسک دنباله به دنباله عجیبی که به ذهنتون می‌تونه برسه، استفاده کنید.
مرسی آقای هاگینگ فیس 🤗

https://huggingface.co/blog/warm-starting-encoder-decoder


#read
#blog

@nlp_stuff
فوقع ما وقع

این دوستمون Jax را یادتونه؟ حالا بالاخره اولین گام‌های عملی در این زمینه برداشته شده و هاگینگ فیس با همکاری تیم Flax، برت و روبرتا پیاده‌شده روی Jax را ارائه داده.
پایتورچ و تنسرفلو آماده باشن که Jax داره میاد!

https://twitter.com/avitaloliver/status/1326986383983063058

پ.ن. اگر اولین باره که اسم Jax را می‌شنوین به این پست از کانال نگاه بندازین.
#twitter

@nlp_stuff
گلچین EMNLP و ICLR به روایت رودر

آقای Sebastian Ruder در شماره‌ی ۵۴ از NLP News سایتش، مقاله‌هایی را که به نظرش در EMNLP و ICLR امسال قشنگ هستند و همینطور کارهای اخیر در موضوع toxicity detection و data augmentation آورده. بعضی از مقاله‌ها و بلاگ‌هایی که گفته قبلا در کانال بحث کردیم. دنبالش کنید که چیزای خوبی یاد می‌گیرید.

https://newsletter.ruder.io/issues/emnlp-iclr-2020-toxicity-detection-data-augmentation-and-adversarial-examples-285207

#read
#blog

@nlp_stuff
تولد موازی‌سازی مدل‌ها روی هاگینگ فیس

بدانید و آگاه باشید که هفته قبل هاگینگ‌فیس طی حرکت بسیار خفنی، موازی‌سازی مدل‌ها روی جی‌پی‌یو را اضافه کرده و فعلا برای GPT-2 و T5 هم پیاده شده.
نمی‌دونیم می‌تونید یا نه؛ ولی اگر می‌تونید (یعنی چند تا جی‌پی‌یو دارید)، حالشو ببرید.


https://twitter.com/LysandreJik/status/1330964117243441153?s=20

#twitter

@nlp_stuff
گلچین شاد EMNLP2020

ایشون اومده ۱۳ تا از مقاله‌های EMNLP2020 را گلچین کرده. مقاله‌های خیلی خوبی هستند، یه نگاه بهشون (حداقل عنوان‌شون!) بندازید خوبه.
ما هم به شرط حیات چندتاشو به زودی خلاصه می‌کنیم و براتون تعریف می‌کنیم که کی کیو زده.

https://twitter.com/sjmielke/status/1332069329416892418?s=20

#twitter

@nlp_stuff
مهدی‌مون در کنفرانس WSS 2020 ارائه‌ای با موضوع Transfer Learning in NLP with Huggingface داره و قراره مرور کاملی روی مباحث انتقال یادگیری در پردازش زبان طبیعی و استفاده از کتابخانه‌ی هاگینگ‌فیس داشته باشه.
سعی کنید به هیچ وجه از دستش ندید و لطفا دست به دست کنید.

زمان ارائه: ۱۰ دی (۳۰ دسامبر)

https://sharif-wss.ir/workshop/26

#coach
#overfit

@WSS_SUT

@nlp_stuff
دیتاست NLU فارسی

این نوزده نفر اومدند زحمت کشیدند و دیتاست NLU فارسی درست کردند که برای اولین بار بتونیم یک بنچ‌مارک در این زمینه داشته باشیم و مدل‌ها را مقایسه کنیم. سایز بعضی از قسمت‌هاش مثل پرسش و پاسخ کمه (۵۷۵ تا) اما واقعا شروع خیلی خوبیه. روش مدل خودشون را هم ارائه کردند. این دیتاست شامل ایناست:

Textual Entailment
Query Paraphrasing
Reading Comprehension
Multiple-Choice QA
Machine Translation
Sentiment Analysis

بعضی از ایده‌ها و منابعشون خیلی خیلی قشنگ بود. وقت و انرژی گذاشتند و لیبل زدند. دمشون گرم.
لینک مقاله و گیت‌شون در ادامه آوردیم. استار بدید حتما:

https://github.com/persiannlp/parsinlu
https://arxiv.org/pdf/2012.06154.pdf

پ.ن. اگر می‌خواهید اسمتون بمونه، شروع کنید دیتاست متنی فارسی درست کنید.

#irani
#read
#paper
#dataset

@nlp_stuff
This media is not supported in your browser
VIEW IN TELEGRAM
توضیح ترنسفورمرها

آقای العمار در این دو پست برامون نحوه کارکرد مدل‌های ترنسفورمر را به صورت کامل و تصویری توضیح داده. در پست اول خود نحوه‌ی کارکرد ترنسفورمر را توضیح داده که ما هم در یک پست (https://t.iss.one/nlp_stuff/78) قبلا توضیح دادیم. در پست دوم روی ترنسفورمرهای مولد مثل جی‌پی‌تی-۲ تمرکز کرده.
بلاگشو دنبالش کنید! ازش یاد می‌گیرید.

https://jalammar.github.io/illustrated-transformer/

https://jalammar.github.io/explaining-transformers/

#read
#blog

@nlp_stuff
پردازش زبان طبیعی به کجا می‌رود؟

در روزگاری که شاهد به‌به و چه‌چه همگان از مدل‌هایی همچون برت و جی‌پی‌تی-۳ هستیم، این مقاله‌ی درخشان از کنفرانس EMNLP 2020 پا را فراتر گذاشته و نقشه‌ی راه متفاوتی برای زمینه‌ی «یادگیری زبان» ارائه داده است.
مقاله تحقق یادگیری زبان را مشروط به فتح پنج قلمرو می‌داند:

1. Corpora and Representations
2. The Written World
3. The World of Sights and Sounds
4. Embodiment and Action
5. The Social World

قلمرو اول را مانند یادگیری زبان از روی دیکشنری توصیف می‌کند.
قلمرو دوم (که تحت فرمانروایی جی‌پی‌تی-۳ و برت است) همچون یادگیری زبان از روی رادیو می‌داند و راه رسیدن به درک عمیق‌تر را گذر از داده‌ی متنی صرف معرفی می‌کند و پیشنهاد می‌کند تا در قلمرو سوم، یادگیری زبان توام با ادراک داده‌های غیرمتنی همچون تصویر و صدا شود.
قلمرو چهارم شامل تعامل با محیط، انجام عمل و دریافت عواقب آن است.
و در قلمرو پنجم، شکل‌گیری شخصیت و منظومه‌ی فکری عامل هوشمند مصنوعی را در گرو تعامل اجتماعی به حساب می‌آورد.

https://www.aclweb.org/anthology/2020.emnlp-main.703/

#read
#paper

@nlp_stuff
جی‌پی‌تی-۲ فارسی آمد!

یادتونه که چند وقت پیش تو این پست (https://t.iss.one/nlp_stuff/56) بهتون بلبل زبان را نشون دادیم؟ حالا به لطف توسعه‌دهنده این مدل، می‌تونید اون رو به صورت اوپن سورس استفاده کنید! برید حالش رو ببرید!

https://huggingface.co/bolbolzaban/gpt2-persian

ضمنا در این پست، می‌تونید توضیحات جالبی رو راجع به این مدل بخونید.

https://medium.com/@khashei/a-not-so-dangerous-ai-in-the-persian-language-39172a641c84

#fresh
#irani
#read
#blog

@nlp_stuff
گلچینشاد NeurIPS2020

ده تا از بهترین مقاله‌های مرتبط با پردازش زبان طبیعی که در کنفرانس NeurIPS2020 ارائه شدند، در این پست آورده شده. حداقل یه نگاهی بهشون بندازید خوبه.

https://www.topbots.com/neurips-2020-nlp-research-papers/

#read
#blog

@nlp_stuff
حمله‌ی OpenAI به قلمرو MultiModal

شرکت OpenAI (اگر نمی‌شناسیدش، مدل‌های جی‌پی‌تی را این شرکت داده) سه‌شنبه شب از دو مدل CLIP و DALL-E رونمایی کرد.
به صورت ساده و مختصر؛ مدل CLIP یک عکس و چند کلاس می‌گیرد و به صورت zero shot تشخیص می‌دهد عکس متعلق به کدام کلاس است.
و مدل DALL-E یک ترنسفورمر با ۱۲ میلیارد پارامتر است که یک متن (کپشن) می‌گیرد و تصویری متناسب با متن را تولید می‌کند.
این دو بلاگ و ویدیو توضیحاتی راجع به این مدل‌ها دادند. درون بلاگ می‌توانید نمونه‌هایی از خروجی‌ها را ببینید.
قبلا در این پست (https://t.iss.one/nlp_stuff/108) مقاله‌ای را توضیح داده بودیم که گفته بود یکی از ترندهای بعدی، حوزه‌ی مولتی مودال (ترکیبی از حوزه‌های مختلف مثل تصویر و متن) خواهد بود.
نتایج حیرت‌انگیز و زبان قاصر از توصیف است!

https://openai.com/blog/clip/

https://openai.com/blog/dall-e/

https://www.youtube.com/watch?v=j4xgkjWlfL4

#fresh
#blog
#read

@nlp_stuff
یکی از تسک‌های اولیه و مهم در پردازش زبان طبیعی، تشخیص اسامی خاص یا همون NER است که یک مرحله مقدماتی برای خیلی از تسک‌های دیگه‌ست.
محمدمهدی برامون در این پست ویرگول، به صورت کامل از ابتدا تا انتهای این تسک (تعریف، مدل‌ها، دیتاست‌ها و ...) را توضیح داده. حتی اگر هیچ آشنایی با این موضوع نداشته باشید، این نوشتار براتون مباحث را به شکل نیکویی روشن می‌کنه. لطفا نظر بدید و با بقیه هم به اشتراک بذارید.

پ.ن. شما هم اگر پست خوبی در زمینه‌ی هوش مصنوعی و پردازش زبان دارید، به ما خبر بدید که در انتشارات اورفیت منتشر کنیم.

https://vrgl.ir/OvlJR

#read
#blog
#overfit

@nlp_stuff