This media is not supported in your browser
VIEW IN TELEGRAM
🧱 یک رویکرد تازه برای رندر حجمی پیکسلآرت! 🧱
مدل Voxify3D یک چارچوب دومرحلهای و تفاضلی ارائه میدهد که بین بهینهسازی مش سهبعدی و نظارت تصویری پیکسلآرت دوبعدی پل میزند.
هدفش این است که بتوان از تصاویر پیکسلآرت کلاسیک، رندرهای سهبعدی قابلکنترل و باکیفیت ساخت — بدون نیاز به دیتاستهای عظیم.
🔗 لینکها:
👉 Paper — https://lnkd.in/du5ikJGN
👉 Project — https://lnkd.in/dpiAjj5m
👉 Repo — TBA
@rss_ai_ir
#PixelArt #3DRendering #Voxify3D #AI #ComputerGraphics #DeepLearning
مدل Voxify3D یک چارچوب دومرحلهای و تفاضلی ارائه میدهد که بین بهینهسازی مش سهبعدی و نظارت تصویری پیکسلآرت دوبعدی پل میزند.
هدفش این است که بتوان از تصاویر پیکسلآرت کلاسیک، رندرهای سهبعدی قابلکنترل و باکیفیت ساخت — بدون نیاز به دیتاستهای عظیم.
🔗 لینکها:
👉 Paper — https://lnkd.in/du5ikJGN
👉 Project — https://lnkd.in/dpiAjj5m
👉 Repo — TBA
@rss_ai_ir
#PixelArt #3DRendering #Voxify3D #AI #ComputerGraphics #DeepLearning
🚫شرکت Nvidia تکذیب میکند: هیچ مدرکی از ورود مخفیانه چیپهای Blackwell به چین وجود ندارد
شرکت Nvidia گزارشهای رسانهای درباره قاچاق هزاران چیپ Blackwell — که صادرات آنها به چین ممنوع است — برای استفاده در مدل جدید DeepSeek را رد کرد.
برخی رسانهها ادعا کرده بودند که این GPUها ابتدا در دیتاسنترهای صوری در جنوبشرقی آسیا نصب و تست شدهاند، سپس باز شده، با عنوان تجهیزات دیگر دوباره اظهار شده و در نهایت در چین مونتاژ شدهاند تا محدودیتهای آمریکا دور زده شود.
اما Nvidia چند نکته کلیدی را شفاف اعلام کرد:
🔹 هیچ شواهد یا سیگنال قابل اعتمادی مبنی بر ورود غیرقانونی Blackwell به چین وجود ندارد.
🔹 شرکت تمام گزارشهای مربوط به قاچاق احتمالی را بررسی میکند و تاکنون مورد تأییدشدهای پیدا نشده است.
🔹 همچنین Nvidia این داستان را بسیار غیرواقعی و از نظر اجرایی «تقریباً ناممکن» توصیف کرده است.
در نتیجه، فعلاً روایت قاچاق گسترده GPUهای Blackwell به چین، از نظر انویدیا فاقد اعتبار است.
منبع: CNBC
#AI #Nvidia #DeepSeek #Blackwell #TechNews 🚀
شرکت Nvidia گزارشهای رسانهای درباره قاچاق هزاران چیپ Blackwell — که صادرات آنها به چین ممنوع است — برای استفاده در مدل جدید DeepSeek را رد کرد.
برخی رسانهها ادعا کرده بودند که این GPUها ابتدا در دیتاسنترهای صوری در جنوبشرقی آسیا نصب و تست شدهاند، سپس باز شده، با عنوان تجهیزات دیگر دوباره اظهار شده و در نهایت در چین مونتاژ شدهاند تا محدودیتهای آمریکا دور زده شود.
اما Nvidia چند نکته کلیدی را شفاف اعلام کرد:
🔹 هیچ شواهد یا سیگنال قابل اعتمادی مبنی بر ورود غیرقانونی Blackwell به چین وجود ندارد.
🔹 شرکت تمام گزارشهای مربوط به قاچاق احتمالی را بررسی میکند و تاکنون مورد تأییدشدهای پیدا نشده است.
🔹 همچنین Nvidia این داستان را بسیار غیرواقعی و از نظر اجرایی «تقریباً ناممکن» توصیف کرده است.
در نتیجه، فعلاً روایت قاچاق گسترده GPUهای Blackwell به چین، از نظر انویدیا فاقد اعتبار است.
منبع: CNBC
#AI #Nvidia #DeepSeek #Blackwell #TechNews 🚀
😁1
This media is not supported in your browser
VIEW IN TELEGRAM
گولِ دُپْل؛ ابزار جدید گوگل برای عوضکردن استایل و نابودکردن استارتاپها در حوزه فشن 👗📱🔥
گوگل هنوز دست از سر استارتاپها برنداشته و با Doppl قدم بعدی را برداشت؛ همون «پِریودیوِتور» معروف که قبلاً دربارهاش نوشته بودم.
شرکت با خیال راحت و با نانابانانا زیر سرش، مستقیم وارد صحنه B2C شده و فعلاً فقط اپلیکیشن موبایل منتشر کرده (اونم فقط برای کاربران آمریکا).
چند قابلیت مهم Doppl:
✨ Fashion Discovery Feed —
یک فید شخصیسازیشده برای دیدن و نمایش لباسها و استایلها
🛒 لینک خرید مستقیم — بهترین بخش! لباسها را میبینی و مستقیم میتونی بخری
📁 بخش Collections — برای ذخیرهکردن استایلها و ترکیبهای مورد علاقه برای استفادههای بعدی
با وجود چنین غولی، واقعاً برای خیلی از استارتاپهای فشن و try-on «غسل میّت» خوانده میشود.
گوگل کاملاً جدی وارد میدان شده و هدفش مشخص است: تسلط بر فشنتک B2C.
🔗 labs.google/doppl
@rss_ai_ir
#فشن #گوگل #AI #Doppl #استارتاپ #فناوری 👗🤖🔥
گوگل هنوز دست از سر استارتاپها برنداشته و با Doppl قدم بعدی را برداشت؛ همون «پِریودیوِتور» معروف که قبلاً دربارهاش نوشته بودم.
شرکت با خیال راحت و با نانابانانا زیر سرش، مستقیم وارد صحنه B2C شده و فعلاً فقط اپلیکیشن موبایل منتشر کرده (اونم فقط برای کاربران آمریکا).
چند قابلیت مهم Doppl:
✨ Fashion Discovery Feed —
یک فید شخصیسازیشده برای دیدن و نمایش لباسها و استایلها
🛒 لینک خرید مستقیم — بهترین بخش! لباسها را میبینی و مستقیم میتونی بخری
📁 بخش Collections — برای ذخیرهکردن استایلها و ترکیبهای مورد علاقه برای استفادههای بعدی
با وجود چنین غولی، واقعاً برای خیلی از استارتاپهای فشن و try-on «غسل میّت» خوانده میشود.
گوگل کاملاً جدی وارد میدان شده و هدفش مشخص است: تسلط بر فشنتک B2C.
🔗 labs.google/doppl
@rss_ai_ir
#فشن #گوگل #AI #Doppl #استارتاپ #فناوری 👗🤖🔥
This media is not supported in your browser
VIEW IN TELEGRAM
🦾 شرکت ژاپنی Tsubame Industries از ربات غولپیکر و قابلهدایت ARCHAX رونمایی کرد
ربات ARCHAX یک ابرماشین نسل جدید است؛ ارتفاعش ۴٫۵ متر است و با ۲۶ درجه آزادی میتواند کارهایی با دقت میلیمتری تا جابجایی بارهای سنگین را انجام دهد. این ربات برای محیطهای خطرناک و عملیات فوقسخت طراحی شده است.
✨ ویژگیهای برجسته ARCHAX
🎮 هدایتپذیر با دو حالت:
هم میتوان داخل کابین پیشرفتهٔ ربات نشست و با بازخورد نیرویی کنترلش کرد، هم از راه دور آن را هدایت کرد.
🔋 خودمختاری بالا:
یک شارژ کامل برای یک روز کاری کافی است.
🚀 تحرک مناسب:
در حالت حملونقل تا سرعت ۱۰ کیلومتر بر ساعت حرکت میکند.
👁️ دید پانورامیک و کنترل دقیق دستها برای کار در محیطهای حساس.
💡 کاربردها
♻️عملیات امداد و آواربرداری
♻️محیطهای با تشعشع بالا
♻️تخریب و عملیات مهندسی سنگین
♻️آزمایشهای میدانی برای پروژههای فضایی و ماهنشینی
این ربات نشان میدهد آیندهٔ رباتهای صنعتی در حال نزدیک شدن به دنیای رباتهای علمی-تخیلی است.
#ربات #ژاپن #رباتیک #فناوری #مهندسی #AI #Robotics #Mecha #TsubameIndustries #ARCHAX
ربات ARCHAX یک ابرماشین نسل جدید است؛ ارتفاعش ۴٫۵ متر است و با ۲۶ درجه آزادی میتواند کارهایی با دقت میلیمتری تا جابجایی بارهای سنگین را انجام دهد. این ربات برای محیطهای خطرناک و عملیات فوقسخت طراحی شده است.
✨ ویژگیهای برجسته ARCHAX
🎮 هدایتپذیر با دو حالت:
هم میتوان داخل کابین پیشرفتهٔ ربات نشست و با بازخورد نیرویی کنترلش کرد، هم از راه دور آن را هدایت کرد.
🔋 خودمختاری بالا:
یک شارژ کامل برای یک روز کاری کافی است.
🚀 تحرک مناسب:
در حالت حملونقل تا سرعت ۱۰ کیلومتر بر ساعت حرکت میکند.
👁️ دید پانورامیک و کنترل دقیق دستها برای کار در محیطهای حساس.
💡 کاربردها
♻️عملیات امداد و آواربرداری
♻️محیطهای با تشعشع بالا
♻️تخریب و عملیات مهندسی سنگین
♻️آزمایشهای میدانی برای پروژههای فضایی و ماهنشینی
این ربات نشان میدهد آیندهٔ رباتهای صنعتی در حال نزدیک شدن به دنیای رباتهای علمی-تخیلی است.
#ربات #ژاپن #رباتیک #فناوری #مهندسی #AI #Robotics #Mecha #TsubameIndustries #ARCHAX
👍1🔥1😁1
🚨 شرکت Integral AI در توکیو ادعا میکند نخستین هوش مصنوعیِ همگانی (AGI) را ساخته است
♻️شرکت Integral AI اعلام کرده مدلی ایجاد کرده که تواناییهای استدلالی آن فراتر از مرزهای معمول هوش مصنوعی محدود است؛ بهگونهای که میتواند مسائل عمومی را حل کند، مفاهیم را بفهمد و خودش را با شرایط جدید تطبیق دهد.
♻️این شرکت میگوید در آزمایشهای رباتیکی، رباتها با استفاده از این سیستم توانستهاند بدون هیچ نظارت انسانی، مهارتهای جدیدی را یاد بگیرند.
♻️ادعای مهمتر: ساختار مدل شباهت زیادی به نئوکورتکس چندلایهی مغز انسان دارد؛ بخشی که مسئول تفکر آگاهانه، ادراک و زبان است.
♻️اگر این ادعا درست باشد، نقطهی عطفی در تاریخ هوش مصنوعی خواهد بود—اما جامعه علمی همچنان منتظر جزئیات فنی و شواهد مستقل است.
https://interestingengineering.com/ai-robotics/worlds-first-agi-model
@rss_ai_ir
#هوش_مصنوعی #AGI #ژاپن #رباتیک #تکنولوژی #پیشرفت_علمی #AI
♻️شرکت Integral AI اعلام کرده مدلی ایجاد کرده که تواناییهای استدلالی آن فراتر از مرزهای معمول هوش مصنوعی محدود است؛ بهگونهای که میتواند مسائل عمومی را حل کند، مفاهیم را بفهمد و خودش را با شرایط جدید تطبیق دهد.
♻️این شرکت میگوید در آزمایشهای رباتیکی، رباتها با استفاده از این سیستم توانستهاند بدون هیچ نظارت انسانی، مهارتهای جدیدی را یاد بگیرند.
♻️ادعای مهمتر: ساختار مدل شباهت زیادی به نئوکورتکس چندلایهی مغز انسان دارد؛ بخشی که مسئول تفکر آگاهانه، ادراک و زبان است.
♻️اگر این ادعا درست باشد، نقطهی عطفی در تاریخ هوش مصنوعی خواهد بود—اما جامعه علمی همچنان منتظر جزئیات فنی و شواهد مستقل است.
https://interestingengineering.com/ai-robotics/worlds-first-agi-model
@rss_ai_ir
#هوش_مصنوعی #AGI #ژاپن #رباتیک #تکنولوژی #پیشرفت_علمی #AI
🔥1
🔋 گوگل و شرکت NextEra Energy وارد یک همکاری بزرگ برای ساخت کمپوسهای عظیم دیتاسنتر در آمریکا شدهاند؛ زیرساختی چند گیگاواتی مخصوص پردازشهای هوش مصنوعی.
این همکاری شامل ایجاد سایتهای بزرگ با برق اختصاصی برای پاسخ به تقاضای انفجاری AI است.
سه سایت اول همین حالا در حال توسعهاند و مجموعاً حدود ۳.۵ گیگاوات ظرفیت عملیاتی یا قراردادشده دارند—عددی که نشان میدهد موج داده و مدلهای غولپیکر چطور در حال تغییر نقشه انرژی جهان هستند.
این پروژهها نهتنها توان محاسباتی لازم برای نسل بعدی مدلهای چندمیلیاردپارامتری را تأمین میکنند، بلکه معماری آینده دیتاسنترها را نیز بازطراحی خواهند کرد؛ جایی که انرژی پاک، مقیاسپذیری و تحملپذیری به مؤلفههای اساسی تبدیل میشوند.
⚡️ هوش مصنوعی فقط نیازمند GPU نیست؛ زیرساخت برق، زمین و شبکه هم باید با همان سرعت رشد کند—و این همکاری دقیقاً نشانه همین تغییر عصر است.
@rss_ai_ir
#هوش_مصنوعی ⚙️ #دیتاسنتر 🏭 #گوگل 🌐 #زیرساخت ⚡️ #انرژی #AI
این همکاری شامل ایجاد سایتهای بزرگ با برق اختصاصی برای پاسخ به تقاضای انفجاری AI است.
سه سایت اول همین حالا در حال توسعهاند و مجموعاً حدود ۳.۵ گیگاوات ظرفیت عملیاتی یا قراردادشده دارند—عددی که نشان میدهد موج داده و مدلهای غولپیکر چطور در حال تغییر نقشه انرژی جهان هستند.
این پروژهها نهتنها توان محاسباتی لازم برای نسل بعدی مدلهای چندمیلیاردپارامتری را تأمین میکنند، بلکه معماری آینده دیتاسنترها را نیز بازطراحی خواهند کرد؛ جایی که انرژی پاک، مقیاسپذیری و تحملپذیری به مؤلفههای اساسی تبدیل میشوند.
⚡️ هوش مصنوعی فقط نیازمند GPU نیست؛ زیرساخت برق، زمین و شبکه هم باید با همان سرعت رشد کند—و این همکاری دقیقاً نشانه همین تغییر عصر است.
@rss_ai_ir
#هوش_مصنوعی ⚙️ #دیتاسنتر 🏭 #گوگل 🌐 #زیرساخت ⚡️ #انرژی #AI
✨ بنچمارک IF-Bench: بنچمارک جدید برای ارزیابی مدلهای چندوجهی روی تصاویر مادونقرمز
📝 خلاصه:
مقاله IF-Bench اولین بنچمارک جامع برای ارزیابی مدلهای بزرگ چندوجهی (MLLMs) روی تصاویر مادونقرمز (Infrared) است.
این مجموعه شامل انواع تصاویر IR و مجموعهای گسترده از پرسش–پاسخهاست که عملکرد بیش از ۴۰ مدل را درک عمیق، استدلال، و تولید بهبودیافته میسنجد.
این کار علاوهبر بنچمارک، روشی جدید به نام GenViP معرفی میکند که یک Visual Prompting مولد است و به مدلها کمک میکند بدون فاینتون سنگین، درک بهتری از تصاویر IR کسب کنند.
🔹 تاریخ انتشار: ۱۰ دسامبر ۲۰۲۵
🔗 لینکهای مقاله:
• arXiv Page: https://arxiv.org/abs/2512.09663
• PDF:
https://arxiv.org/pdf/2512.09663
📌 مدلهای مرتبط:
• https://huggingface.co/casiatao/Qwen-Edit-2509-FT
📌 دیتاست مرتبط:
• https://huggingface.co/datasets/casiatao/IF-Bench
==================================
#AI #InfraredImaging #MLLM #Benchmark #DeepLearning #Research
@rss_ai_ir 🔍🤖
📝 خلاصه:
مقاله IF-Bench اولین بنچمارک جامع برای ارزیابی مدلهای بزرگ چندوجهی (MLLMs) روی تصاویر مادونقرمز (Infrared) است.
این مجموعه شامل انواع تصاویر IR و مجموعهای گسترده از پرسش–پاسخهاست که عملکرد بیش از ۴۰ مدل را درک عمیق، استدلال، و تولید بهبودیافته میسنجد.
این کار علاوهبر بنچمارک، روشی جدید به نام GenViP معرفی میکند که یک Visual Prompting مولد است و به مدلها کمک میکند بدون فاینتون سنگین، درک بهتری از تصاویر IR کسب کنند.
🔹 تاریخ انتشار: ۱۰ دسامبر ۲۰۲۵
🔗 لینکهای مقاله:
• arXiv Page: https://arxiv.org/abs/2512.09663
• PDF:
https://arxiv.org/pdf/2512.09663
📌 مدلهای مرتبط:
• https://huggingface.co/casiatao/Qwen-Edit-2509-FT
📌 دیتاست مرتبط:
• https://huggingface.co/datasets/casiatao/IF-Bench
==================================
#AI #InfraredImaging #MLLM #Benchmark #DeepLearning #Research
@rss_ai_ir 🔍🤖
👍1🔥1👏1
⚡️ مدل GPT-5.2 منتشر شد
– این مدل بهطور محسوسی در کدنویسی، ریاضیات، کار با کانتکستهای طولانی و پردازش تصاویر تقویت شده است.
در آزمون AIME 25 حالا به ۱۰۰٪ رسیده (در حالی که GPT-5.1 امتیاز ۹۴٪ داشت) و در SWE-bench Verified به ۸۰٪ رسیده (در مقایسه با ۷۶٫۳٪ در نسخه ۵٫۱).
– در بنچمارکها، OpenAI طبق معمول فقط مدل جدید را با نسخههای قبلی خودش مقایسه کرده و رقبا را نادیده گرفته است، اما از نظر سطح عملکرد، حتی کمی بهتر از Gemini 3 Pro به نظر میرسد.
– در ChatGPT، نسخههای GPT-5.2 Instant، Thinking و Pro از امروز بهتدریج در دسترس قرار میگیرند و API هم باز شده است. قیمتها نسبت به نسخههای ۵ و ۵٫۱ کمی افزایش یافتهاند (طبق اسکرینشات آخر).
در مجموع، به نظر میرسد OpenAI این بار واقعاً تلاش بیشتری کرده است.
این است قدرت رقابت! 🚀
🔗 https://openai.com/index/introducing-gpt-5-2/
– این مدل بهطور محسوسی در کدنویسی، ریاضیات، کار با کانتکستهای طولانی و پردازش تصاویر تقویت شده است.
در آزمون AIME 25 حالا به ۱۰۰٪ رسیده (در حالی که GPT-5.1 امتیاز ۹۴٪ داشت) و در SWE-bench Verified به ۸۰٪ رسیده (در مقایسه با ۷۶٫۳٪ در نسخه ۵٫۱).
– در بنچمارکها، OpenAI طبق معمول فقط مدل جدید را با نسخههای قبلی خودش مقایسه کرده و رقبا را نادیده گرفته است، اما از نظر سطح عملکرد، حتی کمی بهتر از Gemini 3 Pro به نظر میرسد.
– در ChatGPT، نسخههای GPT-5.2 Instant، Thinking و Pro از امروز بهتدریج در دسترس قرار میگیرند و API هم باز شده است. قیمتها نسبت به نسخههای ۵ و ۵٫۱ کمی افزایش یافتهاند (طبق اسکرینشات آخر).
در مجموع، به نظر میرسد OpenAI این بار واقعاً تلاش بیشتری کرده است.
این است قدرت رقابت! 🚀
🔗 https://openai.com/index/introducing-gpt-5-2/
❤2🔥2👏2
Media is too big
VIEW IN TELEGRAM
♨️گذری بر 25 سال تجربه استفاده از هوش مصنوعی در صنعت
✅انجمن ملی هوش مصنوعی ایران
@rss_ai_ir 🔍🤖
#هوش_مصنوعی ⚙️ #رباتیک #تکنولوژی #پیشرفت_علمی #AI
✅انجمن ملی هوش مصنوعی ایران
@rss_ai_ir 🔍🤖
#هوش_مصنوعی ⚙️ #رباتیک #تکنولوژی #پیشرفت_علمی #AI
❤12👍7👏5😁5🔥4🥰2🎉1🙏1
🚀 بزرگترین جهش GPT-5.2 احتمالاً روی بنچمارک ARC-AGI اتفاق افتاده است
🧠 در ARC-AGI 1، این مدل به امتیاز 86.2٪ رسیده؛
در حالی که GPT-5.1 روی 72.8٪ و Gemini 3 Pro روی 75٪ متوقف شده بودند. این یک جهش بسیار جدی محسوب میشود.
⚡️ نسخه GPT-5.2 Pro با سطح استدلال X-High حتی به 90.5٪ رسیده، آن هم با هزینهی 11.64 دلار برای هر مسئله.
برای مقایسه: فقط یک سال پیش، مدل منتشرنشدهی o3-High با 88٪، حدود 4500 دلار برای هر مسئله هزینه داشت.
📈 نتیجه؟
کارایی در عرض یک سال حدود 390 برابر افزایش یافته است.
🔥 اما در ARC-AGI 2 اوضاع حتی جالبتر میشود:
امتیاز از 17.6٪ به 52.9٪ جهش کرده!
نزدیکترین رقیب یعنی Claude Opus 4.5 تنها 37.6٪ گرفته است.
و فقط یادآوری: بین انتشار GPT-5.1 و GPT-5.2 فقط یک ماه فاصله بوده 😐
⏳ نسخه GPT-5.2 Pro X-High احتمالاً امتیاز بالاتری هم دارد، اما برگزارکنندگان بنچمارک گفتهاند بهدلیل API timeout هنوز نتوانستهاند نتیجه را بهطور قطعی تأیید کنند.
سطح متوسط انسان در ARC-AGI 2 حدود 60٪ است… باید دید آیا مدل از انسان عبور میکند یا نه 👀
📡 @rss_ai_ir
#AI #GPT52 #ARCAGI #هوش_مصنوعی #LLM #Benchmark #AGI
🧠 در ARC-AGI 1، این مدل به امتیاز 86.2٪ رسیده؛
در حالی که GPT-5.1 روی 72.8٪ و Gemini 3 Pro روی 75٪ متوقف شده بودند. این یک جهش بسیار جدی محسوب میشود.
⚡️ نسخه GPT-5.2 Pro با سطح استدلال X-High حتی به 90.5٪ رسیده، آن هم با هزینهی 11.64 دلار برای هر مسئله.
برای مقایسه: فقط یک سال پیش، مدل منتشرنشدهی o3-High با 88٪، حدود 4500 دلار برای هر مسئله هزینه داشت.
📈 نتیجه؟
کارایی در عرض یک سال حدود 390 برابر افزایش یافته است.
🔥 اما در ARC-AGI 2 اوضاع حتی جالبتر میشود:
امتیاز از 17.6٪ به 52.9٪ جهش کرده!
نزدیکترین رقیب یعنی Claude Opus 4.5 تنها 37.6٪ گرفته است.
و فقط یادآوری: بین انتشار GPT-5.1 و GPT-5.2 فقط یک ماه فاصله بوده 😐
⏳ نسخه GPT-5.2 Pro X-High احتمالاً امتیاز بالاتری هم دارد، اما برگزارکنندگان بنچمارک گفتهاند بهدلیل API timeout هنوز نتوانستهاند نتیجه را بهطور قطعی تأیید کنند.
سطح متوسط انسان در ARC-AGI 2 حدود 60٪ است… باید دید آیا مدل از انسان عبور میکند یا نه 👀
📡 @rss_ai_ir
#AI #GPT52 #ARCAGI #هوش_مصنوعی #LLM #Benchmark #AGI
🎉15👍13❤12🔥7🥰7👏6😁6
✨ دیدن، شنیدن و فهمیدن همزمان انسانها با هوش مصنوعی 🎧👀🧠
یک بنچمارک جدید به نام AV-SpeakerBench معرفی شده که توانایی مدلهای چندوجهی زبانی (MLLM) را در درک گفتار انسان بهصورت صوتی-تصویری ارزیابی میکند.
🧪 این بنچمارک شامل ۳٬۲۱۲ سؤال تخصصی است که با دقت بالا طراحی شدهاند و تمرکز آنها روی:
♻️تشخیص دقیق گوینده
♻️تطبیق صدا با چهره
♻️استدلال همزمان بر اساس تصویر و صوت
میباشد.
🏆 نتایج نشان میدهد مدلهای Gemini در این حوزه عملکرد بهتری نسبت به مدلهای متنباز دارند، بهویژه در فیوژن واقعی صدا و تصویر؛ جایی که بسیاری از مدلها هنوز دچار ضعف هستند.
📄 لینکها:
🔹 arXiv: https://arxiv.org/abs/2512.02231
🔹 PDF:
https://arxiv.org/pdf/2512.02231
🔹 Project Page:
https://plnguyen2908.github.io/AV-SpeakerBench-project-page/
🔹 GitHub:
https://github.com/plnguyen2908/AV-SpeakerBench
🔹 Dataset:
https://huggingface.co/datasets/plnguyen2908/AV-SpeakerBench
📌 این بنچمارک یک قدم مهم بهسمت ساخت مدلهایی است که واقعاً مثل انسان ببینند، بشنوند و بفهمند.
@rss_ai_ir
#AI #MultimodalAI #MLLM #AudioVisual #SpeechUnderstanding #Research
یک بنچمارک جدید به نام AV-SpeakerBench معرفی شده که توانایی مدلهای چندوجهی زبانی (MLLM) را در درک گفتار انسان بهصورت صوتی-تصویری ارزیابی میکند.
🧪 این بنچمارک شامل ۳٬۲۱۲ سؤال تخصصی است که با دقت بالا طراحی شدهاند و تمرکز آنها روی:
♻️تشخیص دقیق گوینده
♻️تطبیق صدا با چهره
♻️استدلال همزمان بر اساس تصویر و صوت
میباشد.
🏆 نتایج نشان میدهد مدلهای Gemini در این حوزه عملکرد بهتری نسبت به مدلهای متنباز دارند، بهویژه در فیوژن واقعی صدا و تصویر؛ جایی که بسیاری از مدلها هنوز دچار ضعف هستند.
📄 لینکها:
🔹 arXiv: https://arxiv.org/abs/2512.02231
🔹 PDF:
https://arxiv.org/pdf/2512.02231
🔹 Project Page:
https://plnguyen2908.github.io/AV-SpeakerBench-project-page/
🔹 GitHub:
https://github.com/plnguyen2908/AV-SpeakerBench
🔹 Dataset:
https://huggingface.co/datasets/plnguyen2908/AV-SpeakerBench
📌 این بنچمارک یک قدم مهم بهسمت ساخت مدلهایی است که واقعاً مثل انسان ببینند، بشنوند و بفهمند.
@rss_ai_ir
#AI #MultimodalAI #MLLM #AudioVisual #SpeechUnderstanding #Research
👍8❤7😁7🎉6👏4🔥3🥰2