NLP stuff

مدل NLLB-200 از متا؛ ترجمه ماشینی ۲۰۰ زبانه

فرض کنید دیگه زبان یه محدودیت برای استفاده از سایت‌های مختلف و مکالمه با افرادی در زبان‌های دیگه نباشه. هدف ترجمه ماشینی همینه.
حالا گروه هوش فیس‌بوک یا همون Meta AI اومده یه گام بلند برداشته و اسم این گام رو No Language Left Behind (NLLB) گذاشته که این گام شامل دو تا پروژه‌ست:
اول. ترجمه ماشینی بین ۲۰۰ زبان! اما نه فقط برای زبان‌های معروف بلک حتی برای زبان‌های با منابع کم مثل اردو و اتریشی).
دوم. ترجمه صدا (speech) برای زبان‌های مختلف که برای همه زبان‌ها من جمله زبان‌هایی که ساختار نوشتاری استانداردی ندارند قابل استفاده‌ست.

این مدل نسبت به Google Translate یک مقدار محصوصا در زبان‌های کم‌منبع بهتر شده اما نکته مهم‌تر اینه که این مدل اوپن سورسه که ملت راه رو ادامه بدن. همین کافیه تا ببینید چقدر این کارشون ارزشمنده و بازی‌عوض‌کنه. این به کجا ختم میشه؟ به اونجا که شما مثلا میتونید توی متاورس با ملت از هر جای جهان تعامل داشته باشید و مثلا با هم بشینید جلسه کتابخوانی راه بندازید و هر کس به زبون خودش حرف بزنه. اونجا که کتاب‌ها به همه زبان‌ها ترجمه بشن مخصوصا از زبان‌های گمنام‌تر به زبان‌های پرطرفدارتر که در لینک اول پایین می‌تونید نمونه‌هاشو ببینید. جالب نیست؟
شروع این حرکت از معماری LASER در سال ۲۰۱۸ اتفاق افتاد که اون موقع از ۵۰ زبان پشتیبانی می‌کرد و واقعا مدل کارایی بود؛ قبلا هم از این مدل در کانال اسم آوردیم. چند مدل و دیتای دیگه داده شد تا رسید به LASER2 با پشتیبانی از ۱۰۰ زبان. بعد هم NLLB-200 که امسال دادند برای ترجمه‌ای ۲۰۰ زبانه و بعد دیتای NLLB-Data-200 و در نهایت LASER3 که وظیفه‌اش اینه که امبدینگ‌هایی بسازه که جملاتی که در ۲۰۰ زبان مختلف یک معنی میدن راحت پیدا بشن.
تا اینجا رو داشته باشید و یه سر به لینک‌ها بزنید تا در موعدی اگر عمر و وقت بیشتر بود مفصل مدلش رو هم شرح بدیم.

لینک دمو:
https://nllb.metademolab.com

لینک بلاگ کلی:
https://ai.facebook.com/research/no-language-left-behind/

لینک بلاگ جزئی‌تر:
https://ai.facebook.com/blog/nllb-200-high-quality-machine-translation/

لینک مقاله:
https://research.facebook.com/publications/no-language-left-behind/

لینگ ریپو (مدل، دیتا و…)
https://github.com/facebookresearch/fairseq/tree/nllb/

#read
#paper
#blog

@nlp_stuff

1:00

stuff

3.17K views17:16