🤖🔥 باحالترین پروژه هوش مصنوعی این روزها: OpenHands
📌 اگر دنبال یه پروژه واقعاً خفن توی حوزه عاملهای هوشمند (AI Agents) هستی، باید OpenHands رو بشناسی!
🌐 گیتهاب: github.com/All-Hands-AI/OpenHands
⭐️ بیش از ۶۰ هزار ستاره – با رشد انفجاری!
---
🔍 چرا OpenHands اینقدر خاصه؟
این پروژه یه فریمورک متنهبازه که بهت اجازه میده یه عامل هوشمند تمامعیار بسازی — چیزی خیلی فراتر از Copilot!
🧠 چه کارایی میتونه بکنه؟
مثلاً بهش بگی: «این باگ رو تو پروژه پایتون پیدا و درست کن»
یا: «این قابلیت جدید رو به اپ وبم اضافه کن»
و بعد خودش:
1. تحلیل میکنه که چی میخوای 😎
2. برنامهریزی میکنه که چیکار باید بکنه
3. کد رو میخونه، تغییر میده، تست میگیره
4. حتی توی ترمینال دستور اجرا میکنه و توی فایلها دستکاری میکنه!
---
🎯 برای کی مناسبه؟
برنامهنویسایی که دنبال یه دستیار واقعی هوش مصنوعی هستن
پژوهشگرایی که روی عاملهای هوشمند یا مدلهای چندوجهی کار میکنن
یا هرکسی که میخواد یه مهندس نرمافزار مجازی بسازه!
🚀 آینده از اینجاست شروع میشه...
#هوش_مصنوعی #AI #OpenHands #عامل_هوشمند #گیتهاب #پروژه_متن_باز #برنامه_نویسی #DevinAI #MultimodalAI #AI_Agent
@rss_ai_ir
📌 اگر دنبال یه پروژه واقعاً خفن توی حوزه عاملهای هوشمند (AI Agents) هستی، باید OpenHands رو بشناسی!
🌐 گیتهاب: github.com/All-Hands-AI/OpenHands
⭐️ بیش از ۶۰ هزار ستاره – با رشد انفجاری!
---
🔍 چرا OpenHands اینقدر خاصه؟
این پروژه یه فریمورک متنهبازه که بهت اجازه میده یه عامل هوشمند تمامعیار بسازی — چیزی خیلی فراتر از Copilot!
🧠 چه کارایی میتونه بکنه؟
مثلاً بهش بگی: «این باگ رو تو پروژه پایتون پیدا و درست کن»
یا: «این قابلیت جدید رو به اپ وبم اضافه کن»
و بعد خودش:
1. تحلیل میکنه که چی میخوای 😎
2. برنامهریزی میکنه که چیکار باید بکنه
3. کد رو میخونه، تغییر میده، تست میگیره
4. حتی توی ترمینال دستور اجرا میکنه و توی فایلها دستکاری میکنه!
---
🎯 برای کی مناسبه؟
برنامهنویسایی که دنبال یه دستیار واقعی هوش مصنوعی هستن
پژوهشگرایی که روی عاملهای هوشمند یا مدلهای چندوجهی کار میکنن
یا هرکسی که میخواد یه مهندس نرمافزار مجازی بسازه!
🚀 آینده از اینجاست شروع میشه...
#هوش_مصنوعی #AI #OpenHands #عامل_هوشمند #گیتهاب #پروژه_متن_باز #برنامه_نویسی #DevinAI #MultimodalAI #AI_Agent
@rss_ai_ir
GitHub
GitHub - OpenHands/OpenHands: 🙌 OpenHands: Code Less, Make More
🙌 OpenHands: Code Less, Make More. Contribute to OpenHands/OpenHands development by creating an account on GitHub.
🔥2👏1🙏1
🌟 NVIDIA OmniVinci —
مدل چندوجهی که رکوردها را شکست!
مدل OmniVinci مدلی است که میتواند بهصورت همزمان متن، تصویر، ویدیو و صدا را درک و پردازش کند — یک گام بزرگ در مسیر هوش مصنوعی چندوجهی (Multimodal AI).
با وجود اینکه فقط بر روی ۲۰۰ میلیارد توکن آموزش دیده (در حالیکه مدل Qwen2.5-Omni روی ۱.۲ تریلیون توکن آموزش دیده بود!)، عملکردی بهمراتب بهتر و کارآمدتر از رقبا دارد. این موفقیت به لطف نوآوریهای معماری و آمادهسازی دقیق دادهها به دست آمده است.
---
🔧 سه مؤلفه کلیدی OmniVinci:
🟢 Temporal Embedding Grouping (TEG)
نقشهبرداری توکنهای ویدیو و صدا بر اساس زمان وقوع رویدادها.
🟢 Constrained Rotary Time Embedding (CRTE)
رمزگذاری دقیق زمان مطلق برای دادههای ترتیبی.
🟢 OmniAlignNet
همترازسازی بردارهای صوت و تصویر در یک فضای مشترک با استفاده از یادگیری تقابلی (contrastive learning).
📊 آزمایشهای حذف مؤلفهها نشان دادند که هر بخش تأثیر قابلتوجهی دارد:
مدل پایه: 45.51 امتیاز
با TEG → 47.72 (+2.21)
با CRTE → 50.25 (+4.74)
با OmniAlignNet → 52.59 (+7.08 نسبت به پایه)
---
🧠 دادههای آموزشی:
۲۴ میلیون دیالوگ که با کمک یک مدل LLM تحلیل و ادغام شدهاند تا توضیحات چندوجهی منسجم تولید شود.
ترکیب دادهها:
📸 تصاویر — ۳۶٪
🎧 صدا — ۲۱٪
🗣 گفتار — ۱۷٪
⚙️ دادههای ترکیبی — ۱۵٪
🎬 ویدیو — ۱۱٪
---
🏆 نتایج در بنچمارکها:
Worldsense: 48.23 در مقابل 45.40 (Qwen2.5-Omni)
DailyOmni: 66.50 در مقابل 47.45
MMAR: 58.40
MMAU: 71.60
WER (LibriSpeech-clean): فقط 1.7٪
در کاربرد صنعتی (تشخیص عیوب در ویفرهای نیمهرسانا):
همچنین OmniVinci به دقت 98.1٪ رسید
— بهتر از NVILA (97.6%) و بسیار بالاتر از مدل بزرگتر VILA (90.8%).
---
📜 مجوزها:
کد منبع: Apache 2.0 License
مدل: NVIDIA One Way Noncommercial License
🔗 منابع:
🟡 صفحه پروژه
🟡 مدل
🟡 مقاله در Arxiv
🖥 GitHub
@rss_ai_ir
#هوش_مصنوعی #NVIDIA #OmniVinci #مولتی_مودال #DeepLearning #AI #MachineLearning #Vision #Speech #MultimodalAI
مدل چندوجهی که رکوردها را شکست!
مدل OmniVinci مدلی است که میتواند بهصورت همزمان متن، تصویر، ویدیو و صدا را درک و پردازش کند — یک گام بزرگ در مسیر هوش مصنوعی چندوجهی (Multimodal AI).
با وجود اینکه فقط بر روی ۲۰۰ میلیارد توکن آموزش دیده (در حالیکه مدل Qwen2.5-Omni روی ۱.۲ تریلیون توکن آموزش دیده بود!)، عملکردی بهمراتب بهتر و کارآمدتر از رقبا دارد. این موفقیت به لطف نوآوریهای معماری و آمادهسازی دقیق دادهها به دست آمده است.
---
🔧 سه مؤلفه کلیدی OmniVinci:
🟢 Temporal Embedding Grouping (TEG)
نقشهبرداری توکنهای ویدیو و صدا بر اساس زمان وقوع رویدادها.
🟢 Constrained Rotary Time Embedding (CRTE)
رمزگذاری دقیق زمان مطلق برای دادههای ترتیبی.
🟢 OmniAlignNet
همترازسازی بردارهای صوت و تصویر در یک فضای مشترک با استفاده از یادگیری تقابلی (contrastive learning).
📊 آزمایشهای حذف مؤلفهها نشان دادند که هر بخش تأثیر قابلتوجهی دارد:
مدل پایه: 45.51 امتیاز
با TEG → 47.72 (+2.21)
با CRTE → 50.25 (+4.74)
با OmniAlignNet → 52.59 (+7.08 نسبت به پایه)
---
🧠 دادههای آموزشی:
۲۴ میلیون دیالوگ که با کمک یک مدل LLM تحلیل و ادغام شدهاند تا توضیحات چندوجهی منسجم تولید شود.
ترکیب دادهها:
📸 تصاویر — ۳۶٪
🎧 صدا — ۲۱٪
🗣 گفتار — ۱۷٪
⚙️ دادههای ترکیبی — ۱۵٪
🎬 ویدیو — ۱۱٪
---
🏆 نتایج در بنچمارکها:
Worldsense: 48.23 در مقابل 45.40 (Qwen2.5-Omni)
DailyOmni: 66.50 در مقابل 47.45
MMAR: 58.40
MMAU: 71.60
WER (LibriSpeech-clean): فقط 1.7٪
در کاربرد صنعتی (تشخیص عیوب در ویفرهای نیمهرسانا):
همچنین OmniVinci به دقت 98.1٪ رسید
— بهتر از NVILA (97.6%) و بسیار بالاتر از مدل بزرگتر VILA (90.8%).
---
📜 مجوزها:
کد منبع: Apache 2.0 License
مدل: NVIDIA One Way Noncommercial License
🔗 منابع:
🟡 صفحه پروژه
🟡 مدل
🟡 مقاله در Arxiv
🖥 GitHub
@rss_ai_ir
#هوش_مصنوعی #NVIDIA #OmniVinci #مولتی_مودال #DeepLearning #AI #MachineLearning #Vision #Speech #MultimodalAI
🔥1👏1
🧠 مدل ThinkMorph — جهش جدید در تفکر چندوجهی (Multimodal Reasoning) 🚀🖼️
پژوهشگران مدلی به نام ThinkMorph معرفی کردهاند که گامی فراتر از مدلهای چندوجهی (VLM) سنتی است —
مدلی که با تصویر و متن همزمان فکر میکند و در طول فرایند استدلال، خود را تصحیح و تکامل میدهد 🤯
---
⚙️ آموزش و نوآوری
✅مدل ThinkMorph بر اساس ۲۴٬۰۰۰ مسیر استدلال درهمتنیده (interleaved reasoning traces) آموزش دیده است — دادههایی که در آن متن و تصویر بهصورت مرحلهبهمرحله همدیگر را توضیح و تکمیل میکنند.
💡 نتیجه؟
♻️مدل در حین پاسخ دادن نه فقط توصیف میکند، بلکه بهصورت چندمرحلهای میاندیشد:
♻️ابتدا تصویر را تحلیل میکند 🧩
♻️سپس توضیح متنی مینویسد ✍️
♻️بعد بر اساس آن توضیح، برداشت تصویری جدید میسازد 🎨
♻️و این چرخه را تکرار میکند تا استدلالش دقیقتر شود.
---
🚀 تواناییهای کلیدی
🔹 رشد چشمگیر در مسائل دارای زمینهی بصری پیچیده
🔹 استدلال مرحلهبهمرحلهی متن–تصویر بهصورت پیشرونده
🔹 تواناییهای تازه: منطق تطبیقی، دستکاری تصویری خلاقانه، و بازبینی خودکار نتایج
---
این یعنی ThinkMorph دیگر صرفاً Visual Language Model نیست، بلکه مکانیسمی برای تفکر ترکیبی بینایی–زبانی است — مدلی که با دیدن یاد میگیرد و با نوشتن، دید خود را اصلاح میکند.
📄 پژوهش کامل در:
🔗 huggingface.co/papers/2510.27492
📡 @rss_ai_ir
#هوش_مصنوعی #ThinkMorph #VLM #MultimodalAI #AI #DeepLearning #VisionLanguage #Reasoning
پژوهشگران مدلی به نام ThinkMorph معرفی کردهاند که گامی فراتر از مدلهای چندوجهی (VLM) سنتی است —
مدلی که با تصویر و متن همزمان فکر میکند و در طول فرایند استدلال، خود را تصحیح و تکامل میدهد 🤯
---
⚙️ آموزش و نوآوری
✅مدل ThinkMorph بر اساس ۲۴٬۰۰۰ مسیر استدلال درهمتنیده (interleaved reasoning traces) آموزش دیده است — دادههایی که در آن متن و تصویر بهصورت مرحلهبهمرحله همدیگر را توضیح و تکمیل میکنند.
💡 نتیجه؟
♻️مدل در حین پاسخ دادن نه فقط توصیف میکند، بلکه بهصورت چندمرحلهای میاندیشد:
♻️ابتدا تصویر را تحلیل میکند 🧩
♻️سپس توضیح متنی مینویسد ✍️
♻️بعد بر اساس آن توضیح، برداشت تصویری جدید میسازد 🎨
♻️و این چرخه را تکرار میکند تا استدلالش دقیقتر شود.
---
🚀 تواناییهای کلیدی
🔹 رشد چشمگیر در مسائل دارای زمینهی بصری پیچیده
🔹 استدلال مرحلهبهمرحلهی متن–تصویر بهصورت پیشرونده
🔹 تواناییهای تازه: منطق تطبیقی، دستکاری تصویری خلاقانه، و بازبینی خودکار نتایج
---
این یعنی ThinkMorph دیگر صرفاً Visual Language Model نیست، بلکه مکانیسمی برای تفکر ترکیبی بینایی–زبانی است — مدلی که با دیدن یاد میگیرد و با نوشتن، دید خود را اصلاح میکند.
📄 پژوهش کامل در:
🔗 huggingface.co/papers/2510.27492
📡 @rss_ai_ir
#هوش_مصنوعی #ThinkMorph #VLM #MultimodalAI #AI #DeepLearning #VisionLanguage #Reasoning
❤1
🎬🤖 UniVA:
ایجنت هوشمند و متنباز برای پردازش و تولید ویدئو
ایجنت UniVA یک ایجنت ویدئویی چندعاملی (Multi-Agent) متنباز است که نسل جدیدی از هوش مصنوعی ویدئویی را هدف گرفته.
این سیستم میتواند کارهای پیچیده ویدئویی را در یک جریان واحد انجام دهد:
🟣 فهم و تحلیل ویدئو
🟣 ویرایش و Segmentation
🟣 ساخت و تولید ویدئو از متن/عکس/ویدئو
🟣 پردازش چندمرحلهای با برنامهریزی و اجرای خودکار (Plan-and-Act)
ایجنت UniVA با حافظه چندلایه و ارتباط بین ایجنتها میتواند فرآیندهای طولانی و پروژههای پیچیده ویدئویی را مدیریت کند.
📌 لینکها: 🔗 HuggingFace (پروژه):
https://huggingface.co/papers/2511.08521
📄 Paper:
https://arxiv.org/pdf/2511.08521
💻 GitHub:
https://github.com/univa-agent/univa
@rss_ai_ir
#هوش_مصنوعی #VideoAI #AgenticAI #UniVA #OpenSource #MultimodalAI
ایجنت هوشمند و متنباز برای پردازش و تولید ویدئو
ایجنت UniVA یک ایجنت ویدئویی چندعاملی (Multi-Agent) متنباز است که نسل جدیدی از هوش مصنوعی ویدئویی را هدف گرفته.
این سیستم میتواند کارهای پیچیده ویدئویی را در یک جریان واحد انجام دهد:
🟣 فهم و تحلیل ویدئو
🟣 ویرایش و Segmentation
🟣 ساخت و تولید ویدئو از متن/عکس/ویدئو
🟣 پردازش چندمرحلهای با برنامهریزی و اجرای خودکار (Plan-and-Act)
ایجنت UniVA با حافظه چندلایه و ارتباط بین ایجنتها میتواند فرآیندهای طولانی و پروژههای پیچیده ویدئویی را مدیریت کند.
📌 لینکها: 🔗 HuggingFace (پروژه):
https://huggingface.co/papers/2511.08521
📄 Paper:
https://arxiv.org/pdf/2511.08521
💻 GitHub:
https://github.com/univa-agent/univa
@rss_ai_ir
#هوش_مصنوعی #VideoAI #AgenticAI #UniVA #OpenSource #MultimodalAI
👍8😁7🎉6🔥5❤4🥰4👏2
Media is too big
VIEW IN TELEGRAM
✨ Paper2Video:
تبدیل خودکار مقاله علمی به ویدئو
📝 خلاصه:
اینکه PaperTalker یک فریمورک چندعاملی است که میتواند از یک مقاله علمی، بهصورت خودکار ویدئوی کامل بسازد — شامل اسلایدها، زیرنویس، گفتار و چهره سخنگو.
نتیجه نهایی نسبت به روشهای موجود دقیقتر، اطلاعاتیتر و بدون نیاز به تولید دستی محتوا است.
🔹 تاریخ انتشار: 6 اکتبر
🔹 لینکها:
• arXiv:
https://arxiv.org/abs/2510.05096
• PDF:
https://arxiv.org/pdf/2510.05096
• پروژه:
https://showlab.github.io/Paper2Video/
• گیتهاب:
https://showlab.github.io/Paper2Video/
✨ دیتاستهای مرتبط:
• https://huggingface.co/datasets/ZaynZhu/Paper2Video
#VideoGeneration #AI #AcademicCommunication #MachineLearning #MultimodalAI
تبدیل خودکار مقاله علمی به ویدئو
📝 خلاصه:
اینکه PaperTalker یک فریمورک چندعاملی است که میتواند از یک مقاله علمی، بهصورت خودکار ویدئوی کامل بسازد — شامل اسلایدها، زیرنویس، گفتار و چهره سخنگو.
نتیجه نهایی نسبت به روشهای موجود دقیقتر، اطلاعاتیتر و بدون نیاز به تولید دستی محتوا است.
🔹 تاریخ انتشار: 6 اکتبر
🔹 لینکها:
• arXiv:
https://arxiv.org/abs/2510.05096
• PDF:
https://arxiv.org/pdf/2510.05096
• پروژه:
https://showlab.github.io/Paper2Video/
• گیتهاب:
https://showlab.github.io/Paper2Video/
✨ دیتاستهای مرتبط:
• https://huggingface.co/datasets/ZaynZhu/Paper2Video
#VideoGeneration #AI #AcademicCommunication #MachineLearning #MultimodalAI
❤2🔥1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
✨ World Models That Know When They Don't Know
@rss_ai_ir
در دنیای مدلسازی ویدیو، یکی از بزرگترین مشکلات توهمزایی (Hallucination) و ناتوانی مدل در تشخیص نقاطی است که مطمئن نیست. پژوهش جدیدی با نام C3 راهکاری ارائه میدهد که مدل بتواند عدم قطعیت خود را تشخیص دهد و وقتی نمیداند، بداند که نمیداند! 🤯🎥
---
🔍 حال C3 چیست؟
اینکه C3 یک روش کمیسازی عدمقطعیت (Uncertainty Quantification) برای مدلهای تولید ویدیو است. این روش کمک میکند مدل:
🎯 اعتمادپذیری پیکسلبهپیکسل ارائه دهد (Dense Confidence Estimation)
🚨 ورودیهای خارج از توزیع (OOD) را تشخیص دهد
🛑 توهمات ویدئویی را کاهش دهد
🎮 تولید ویدیو را تحت کنترل دقیقتری قرار دهد
به بیان ساده:
مدل فقط تولید نمیکند؛ به شما میگوید کجا احتمال اشتباه دارد! 🤝
---
💡 چرا مهم است؟
در کاربردهایی مثل خودرانها، پزشکی، و رباتیک، مدل باید علاوه بر خروجی، درجه اطمینان را هم اعلام کند.
همچنین C3 کمک میکند که مدلهای ویدیویی به جای تولید بیمحابا، رفتار مسئولانهتری داشته باشند.
---
🔗 لینکها
📄 Arxiv:
https://arxiv.org/abs/2512.05927
📘 PDF:
https://arxiv.org/pdf/2512.05927
🌐 Project Page:
https://c-cubed-uq.github.io/
---
🧠 هشتگها
#AI #DeepLearning #VideoGeneration #Uncertainty #MachineLearning #MultimodalAI
@rss_ai_ir
در دنیای مدلسازی ویدیو، یکی از بزرگترین مشکلات توهمزایی (Hallucination) و ناتوانی مدل در تشخیص نقاطی است که مطمئن نیست. پژوهش جدیدی با نام C3 راهکاری ارائه میدهد که مدل بتواند عدم قطعیت خود را تشخیص دهد و وقتی نمیداند، بداند که نمیداند! 🤯🎥
---
🔍 حال C3 چیست؟
اینکه C3 یک روش کمیسازی عدمقطعیت (Uncertainty Quantification) برای مدلهای تولید ویدیو است. این روش کمک میکند مدل:
🎯 اعتمادپذیری پیکسلبهپیکسل ارائه دهد (Dense Confidence Estimation)
🚨 ورودیهای خارج از توزیع (OOD) را تشخیص دهد
🛑 توهمات ویدئویی را کاهش دهد
🎮 تولید ویدیو را تحت کنترل دقیقتری قرار دهد
به بیان ساده:
مدل فقط تولید نمیکند؛ به شما میگوید کجا احتمال اشتباه دارد! 🤝
---
💡 چرا مهم است؟
در کاربردهایی مثل خودرانها، پزشکی، و رباتیک، مدل باید علاوه بر خروجی، درجه اطمینان را هم اعلام کند.
همچنین C3 کمک میکند که مدلهای ویدیویی به جای تولید بیمحابا، رفتار مسئولانهتری داشته باشند.
---
🔗 لینکها
📄 Arxiv:
https://arxiv.org/abs/2512.05927
📘 PDF:
https://arxiv.org/pdf/2512.05927
🌐 Project Page:
https://c-cubed-uq.github.io/
---
🧠 هشتگها
#AI #DeepLearning #VideoGeneration #Uncertainty #MachineLearning #MultimodalAI
🔥1
✨ دیدن، شنیدن و فهمیدن همزمان انسانها با هوش مصنوعی 🎧👀🧠
یک بنچمارک جدید به نام AV-SpeakerBench معرفی شده که توانایی مدلهای چندوجهی زبانی (MLLM) را در درک گفتار انسان بهصورت صوتی-تصویری ارزیابی میکند.
🧪 این بنچمارک شامل ۳٬۲۱۲ سؤال تخصصی است که با دقت بالا طراحی شدهاند و تمرکز آنها روی:
♻️تشخیص دقیق گوینده
♻️تطبیق صدا با چهره
♻️استدلال همزمان بر اساس تصویر و صوت
میباشد.
🏆 نتایج نشان میدهد مدلهای Gemini در این حوزه عملکرد بهتری نسبت به مدلهای متنباز دارند، بهویژه در فیوژن واقعی صدا و تصویر؛ جایی که بسیاری از مدلها هنوز دچار ضعف هستند.
📄 لینکها:
🔹 arXiv: https://arxiv.org/abs/2512.02231
🔹 PDF:
https://arxiv.org/pdf/2512.02231
🔹 Project Page:
https://plnguyen2908.github.io/AV-SpeakerBench-project-page/
🔹 GitHub:
https://github.com/plnguyen2908/AV-SpeakerBench
🔹 Dataset:
https://huggingface.co/datasets/plnguyen2908/AV-SpeakerBench
📌 این بنچمارک یک قدم مهم بهسمت ساخت مدلهایی است که واقعاً مثل انسان ببینند، بشنوند و بفهمند.
@rss_ai_ir
#AI #MultimodalAI #MLLM #AudioVisual #SpeechUnderstanding #Research
یک بنچمارک جدید به نام AV-SpeakerBench معرفی شده که توانایی مدلهای چندوجهی زبانی (MLLM) را در درک گفتار انسان بهصورت صوتی-تصویری ارزیابی میکند.
🧪 این بنچمارک شامل ۳٬۲۱۲ سؤال تخصصی است که با دقت بالا طراحی شدهاند و تمرکز آنها روی:
♻️تشخیص دقیق گوینده
♻️تطبیق صدا با چهره
♻️استدلال همزمان بر اساس تصویر و صوت
میباشد.
🏆 نتایج نشان میدهد مدلهای Gemini در این حوزه عملکرد بهتری نسبت به مدلهای متنباز دارند، بهویژه در فیوژن واقعی صدا و تصویر؛ جایی که بسیاری از مدلها هنوز دچار ضعف هستند.
📄 لینکها:
🔹 arXiv: https://arxiv.org/abs/2512.02231
🔹 PDF:
https://arxiv.org/pdf/2512.02231
🔹 Project Page:
https://plnguyen2908.github.io/AV-SpeakerBench-project-page/
🔹 GitHub:
https://github.com/plnguyen2908/AV-SpeakerBench
🔹 Dataset:
https://huggingface.co/datasets/plnguyen2908/AV-SpeakerBench
📌 این بنچمارک یک قدم مهم بهسمت ساخت مدلهایی است که واقعاً مثل انسان ببینند، بشنوند و بفهمند.
@rss_ai_ir
#AI #MultimodalAI #MLLM #AudioVisual #SpeechUnderstanding #Research
👍8❤7😁7🎉6👏4🔥3🥰2