✨ دیدن، شنیدن و فهمیدن همزمان انسانها با هوش مصنوعی 🎧👀🧠
یک بنچمارک جدید به نام AV-SpeakerBench معرفی شده که توانایی مدلهای چندوجهی زبانی (MLLM) را در درک گفتار انسان بهصورت صوتی-تصویری ارزیابی میکند.
🧪 این بنچمارک شامل ۳٬۲۱۲ سؤال تخصصی است که با دقت بالا طراحی شدهاند و تمرکز آنها روی:
♻️تشخیص دقیق گوینده
♻️تطبیق صدا با چهره
♻️استدلال همزمان بر اساس تصویر و صوت
میباشد.
🏆 نتایج نشان میدهد مدلهای Gemini در این حوزه عملکرد بهتری نسبت به مدلهای متنباز دارند، بهویژه در فیوژن واقعی صدا و تصویر؛ جایی که بسیاری از مدلها هنوز دچار ضعف هستند.
📄 لینکها:
🔹 arXiv: https://arxiv.org/abs/2512.02231
🔹 PDF:
https://arxiv.org/pdf/2512.02231
🔹 Project Page:
https://plnguyen2908.github.io/AV-SpeakerBench-project-page/
🔹 GitHub:
https://github.com/plnguyen2908/AV-SpeakerBench
🔹 Dataset:
https://huggingface.co/datasets/plnguyen2908/AV-SpeakerBench
📌 این بنچمارک یک قدم مهم بهسمت ساخت مدلهایی است که واقعاً مثل انسان ببینند، بشنوند و بفهمند.
@rss_ai_ir
#AI #MultimodalAI #MLLM #AudioVisual #SpeechUnderstanding #Research
یک بنچمارک جدید به نام AV-SpeakerBench معرفی شده که توانایی مدلهای چندوجهی زبانی (MLLM) را در درک گفتار انسان بهصورت صوتی-تصویری ارزیابی میکند.
🧪 این بنچمارک شامل ۳٬۲۱۲ سؤال تخصصی است که با دقت بالا طراحی شدهاند و تمرکز آنها روی:
♻️تشخیص دقیق گوینده
♻️تطبیق صدا با چهره
♻️استدلال همزمان بر اساس تصویر و صوت
میباشد.
🏆 نتایج نشان میدهد مدلهای Gemini در این حوزه عملکرد بهتری نسبت به مدلهای متنباز دارند، بهویژه در فیوژن واقعی صدا و تصویر؛ جایی که بسیاری از مدلها هنوز دچار ضعف هستند.
📄 لینکها:
🔹 arXiv: https://arxiv.org/abs/2512.02231
🔹 PDF:
https://arxiv.org/pdf/2512.02231
🔹 Project Page:
https://plnguyen2908.github.io/AV-SpeakerBench-project-page/
🔹 GitHub:
https://github.com/plnguyen2908/AV-SpeakerBench
🔹 Dataset:
https://huggingface.co/datasets/plnguyen2908/AV-SpeakerBench
📌 این بنچمارک یک قدم مهم بهسمت ساخت مدلهایی است که واقعاً مثل انسان ببینند، بشنوند و بفهمند.
@rss_ai_ir
#AI #MultimodalAI #MLLM #AudioVisual #SpeechUnderstanding #Research
👍8❤7😁7🎉6👏4🔥3🥰2