کارگروه کلان‌داده - دانشگاه صنعتی شریف
1.44K subscribers
223 photos
5 videos
3 files
113 links
در این کارگروه درس‌های آنلاین مرتبط با BigData و Deep learning را مورد مطالعه و ارائه قرار می‌دهیم.

کانال:
https://telegram.me/BigDataWorkGroup

لینک گروه:
https://t.iss.one/joinchat/PzCe2KokZ_0j1EDz
Download Telegram
Forwarded from Deep learning channel
📊 میزان (MIZAN): جامع‌ترین لیدربورد ارزیابی مدل‌های زبانی بزرگ (LLM) در زبان فارسی

پس از عرضه بنچمارک FaMTEB برای ارزیابی مدل‌های Text Embedding، این‌بار دستاوردی تازه‌ در پردازش زبان طبیعی فارسی

برخی ویژگی های میزان:
- مقایسه جامع مدل‌های روز: ارزیابی دقیق مدل‌های متن‌باز و بسته با هدف ایجاد یک مرجع معتبر برای فارسی‌زبانان
- پوشش ۶ بنچمارک تخصصی: سنجش عملکرد مدل‌ها در چت، پیروی از دستورالعمل، NLU، NLG، استدلال منطقی و دانش عمومی
- تنوع کاربردی بالا: سناریوهای واقعی فارسی مانند گفت‌وگوی چندمرحله‌ای، RAG، تولید محتوا و پاسخ‌گویی منطقی


🏆 بنچمارک‌های کلیدی میزان:
Persian MT-Bench: ارزیابی چت چندمرحله‌ای و کاربرد در سیستم‌های RAG
Persian IFEval: بررسی توانایی مدل‌ها در پیروی از دستورالعمل‌ها
PerCoR: اولین بنچمارک استدلال منطقی در زبان فارسی
PerMMLU: سنجش دانش عمومی و تخصصی مدل‌ها در موضوعات متنوع در زبان فارسی
Persian NLU: ارزیابی درک زبان طبیعی فارسی
Persian NLG: ارزیابی تولید زبان طبیعی فارسی

🔗 لینک لیدربورد میزان

📖 مقاله معرفی میزان

🔗 بنچمارک FaMTEB

@irandeeplearning