VIRSUN

✨ دیدن، شنیدن و فهمیدن همزمان انسان‌ها با هوش مصنوعی 🎧👀🧠

یک بنچمارک جدید به نام AV-SpeakerBench معرفی شده که توانایی مدل‌های چندوجهی زبانی (MLLM) را در درک گفتار انسان به‌صورت صوتی-تصویری ارزیابی می‌کند.

🧪 این بنچمارک شامل ۳٬۲۱۲ سؤال تخصصی است که با دقت بالا طراحی شده‌اند و تمرکز آن‌ها روی:

♻️تشخیص دقیق گوینده

♻️تطبیق صدا با چهره

♻️استدلال همزمان بر اساس تصویر و صوت
می‌باشد.

🏆 نتایج نشان می‌دهد مدل‌های Gemini در این حوزه عملکرد بهتری نسبت به مدل‌های متن‌باز دارند، به‌ویژه در فیوژن واقعی صدا و تصویر؛ جایی که بسیاری از مدل‌ها هنوز دچار ضعف هستند.

📄 لینک‌ها:
🔹 arXiv: https://arxiv.org/abs/2512.02231
🔹 PDF:
https://arxiv.org/pdf/2512.02231
🔹 Project Page:
https://plnguyen2908.github.io/AV-SpeakerBench-project-page/
🔹 GitHub:
https://github.com/plnguyen2908/AV-SpeakerBench
🔹 Dataset:
https://huggingface.co/datasets/plnguyen2908/AV-SpeakerBench

📌 این بنچمارک یک قدم مهم به‌سمت ساخت مدل‌هایی است که واقعاً مثل انسان ببینند، بشنوند و بفهمند.

@rss_ai_ir

#AI #MultimodalAI #MLLM #AudioVisual #SpeechUnderstanding #Research

👍8❤7😁7🎉6👏4🔥3🥰2

226 viewsedited 07:51

About

Blog

Apps

Platform