کارگروه کلان‌داده - دانشگاه صنعتی شریف

📊 میزان (MIZAN): جامع‌ترین لیدربورد ارزیابی مدل‌های زبانی بزرگ (LLM) در زبان فارسی

پس از عرضه بنچمارک FaMTEB برای ارزیابی مدل‌های Text Embedding، این‌بار دستاوردی تازه‌ در پردازش زبان طبیعی فارسی

✅ برخی ویژگی های میزان:
- مقایسه جامع مدل‌های روز: ارزیابی دقیق مدل‌های متن‌باز و بسته با هدف ایجاد یک مرجع معتبر برای فارسی‌زبانان
- پوشش ۶ بنچمارک تخصصی: سنجش عملکرد مدل‌ها در چت، پیروی از دستورالعمل، NLU، NLG، استدلال منطقی و دانش عمومی
- تنوع کاربردی بالا: سناریوهای واقعی فارسی مانند گفت‌وگوی چندمرحله‌ای، RAG، تولید محتوا و پاسخ‌گویی منطقی

🏆 بنچمارک‌های کلیدی میزان:
Persian MT-Bench: ارزیابی چت چندمرحله‌ای و کاربرد در سیستم‌های RAG
Persian IFEval: بررسی توانایی مدل‌ها در پیروی از دستورالعمل‌ها
PerCoR: اولین بنچمارک استدلال منطقی در زبان فارسی
PerMMLU: سنجش دانش عمومی و تخصصی مدل‌ها در موضوعات متنوع در زبان فارسی
Persian NLU: ارزیابی درک زبان طبیعی فارسی
Persian NLG: ارزیابی تولید زبان طبیعی فارسی

🔗 لینک لیدربورد میزان

📖 مقاله معرفی میزان

🔗 بنچمارک FaMTEB

@irandeeplearning

262 views19:17

About

Blog

Apps

Platform