VIRSUN
7.16K subscribers
1.45K photos
819 videos
5 files
908 links
📥 در کانال @rss_ai_ir هر روز: 🔹 جدیدترین خبرهای AI و فناوری
🗯اولویت ما هوش مصنوعی در صنعت میباشد اما نیم نگاهی به موارد دیگر در این زمینه داریم

ارتباط با ادمین 1:
@Ad1_rss_ai_ir

آدرس گروه
https://t.iss.one/rss_ai_ir_group
Download Telegram
دیدن، شنیدن و فهمیدن همزمان انسان‌ها با هوش مصنوعی 🎧👀🧠

یک بنچمارک جدید به نام AV-SpeakerBench معرفی شده که توانایی مدل‌های چندوجهی زبانی (MLLM) را در درک گفتار انسان به‌صورت صوتی-تصویری ارزیابی می‌کند.

🧪 این بنچمارک شامل ۳٬۲۱۲ سؤال تخصصی است که با دقت بالا طراحی شده‌اند و تمرکز آن‌ها روی:

♻️تشخیص دقیق گوینده

♻️تطبیق صدا با چهره

♻️استدلال همزمان بر اساس تصویر و صوت
می‌باشد.


🏆 نتایج نشان می‌دهد مدل‌های Gemini در این حوزه عملکرد بهتری نسبت به مدل‌های متن‌باز دارند، به‌ویژه در فیوژن واقعی صدا و تصویر؛ جایی که بسیاری از مدل‌ها هنوز دچار ضعف هستند.

📄 لینک‌ها:
🔹 arXiv: https://arxiv.org/abs/2512.02231
🔹 PDF:
https://arxiv.org/pdf/2512.02231
🔹 Project Page:
https://plnguyen2908.github.io/AV-SpeakerBench-project-page/
🔹 GitHub:
https://github.com/plnguyen2908/AV-SpeakerBench
🔹 Dataset:
https://huggingface.co/datasets/plnguyen2908/AV-SpeakerBench

📌 این بنچمارک یک قدم مهم به‌سمت ساخت مدل‌هایی است که واقعاً مثل انسان ببینند، بشنوند و بفهمند.

@rss_ai_ir

#AI #MultimodalAI #MLLM #AudioVisual #SpeechUnderstanding #Research
👍87😁7🎉6👏4🔥3🥰2