⚡️ Kyvo —
مدل چندمنظورهی جدید از Caltech
ترنسفورمر Kyvo یک ترنسفورمر مولتیمدال هست که میتونه همزمان با متن، تصویر و صحنههای سهبعدی کار کنه. این مدل همهچیز رو توکن به توکن همگامسازی میکنه و همین باعث میشه دریچههای تازهای برای هوش مصنوعی باز بشه.
🔍 تواناییها:
❌نمایش صحنههای سهبعدی بهصورت لیستی از اشیاء (شکل، اندازه، نوع، موقعیت و حالت).
❌ادغام متن، تصویر و 3D در یک نمایش مشترک.
❌رندر تصویر از روی صحنه یا بازسازی 3D از روی عکس.
❌پاسخ به پرسشهای مربوط به صحنه یا تغییر آن طبق دستور.
❌استفاده از کدگذاری ویژه برای بازسازی دقیقتر فرم اشیاء.
🧪 آزمایشها روی:
✳️دیتاستهای CLEVR, ObjaWorld, Objectron, ARKitScenes
✳️وظایف: رندرینگ، شناسایی اشیاء، دستورهای متنی برای صحنه، پرسش و پاسخ.
⛔️ چرا جالب است؟
✅یکپارچگی: یک مدل برای چندین وظیفه و فرمت داده.
✅انعطاف: هم در تولید، هم در درک محتوا قوی عمل میکنه.
✅گامی مهم بهسوی درک سهبعدی جهان توسط هوش مصنوعی.
🔗 منابع:
📄 مقاله در arXiv
🌐 پروژه
💻 GitHub
@rss_ai_ir
#هوش_مصنوعی #مدل_چندوجهی #3D #Caltech #Kyvo
مدل چندمنظورهی جدید از Caltech
ترنسفورمر Kyvo یک ترنسفورمر مولتیمدال هست که میتونه همزمان با متن، تصویر و صحنههای سهبعدی کار کنه. این مدل همهچیز رو توکن به توکن همگامسازی میکنه و همین باعث میشه دریچههای تازهای برای هوش مصنوعی باز بشه.
🔍 تواناییها:
❌نمایش صحنههای سهبعدی بهصورت لیستی از اشیاء (شکل، اندازه، نوع، موقعیت و حالت).
❌ادغام متن، تصویر و 3D در یک نمایش مشترک.
❌رندر تصویر از روی صحنه یا بازسازی 3D از روی عکس.
❌پاسخ به پرسشهای مربوط به صحنه یا تغییر آن طبق دستور.
❌استفاده از کدگذاری ویژه برای بازسازی دقیقتر فرم اشیاء.
🧪 آزمایشها روی:
✳️دیتاستهای CLEVR, ObjaWorld, Objectron, ARKitScenes
✳️وظایف: رندرینگ، شناسایی اشیاء، دستورهای متنی برای صحنه، پرسش و پاسخ.
⛔️ چرا جالب است؟
✅یکپارچگی: یک مدل برای چندین وظیفه و فرمت داده.
✅انعطاف: هم در تولید، هم در درک محتوا قوی عمل میکنه.
✅گامی مهم بهسوی درک سهبعدی جهان توسط هوش مصنوعی.
🔗 منابع:
📄 مقاله در arXiv
🌐 پروژه
💻 GitHub
@rss_ai_ir
#هوش_مصنوعی #مدل_چندوجهی #3D #Caltech #Kyvo
🔥14👏12😁11❤10🥰9👍8🎉8
This media is not supported in your browser
VIEW IN TELEGRAM
🌊 پروتکل جدید ردیابی دینامیکی — ITTO از Caltech 🐠
محققان دانشگاه Caltech مجموعهبنچمارک جدیدی به نام ITTO معرفی کردهاند —
سیستمی برای ارزیابی و تحلیل روشهای ردیابی در حرکات پیچیده و بلندمدت 🔍
💡 ویژگیها:
♻️طراحیشده برای حرکات طولانی، پیچیده و غیرخطی
♻️تمرکز بر ارزیابی پایداری در فریمهای زیاد
♻️مناسب برای آموزش و تست الگوریتمهای بینایی ماشین در سناریوهای واقعی
📘 مجوز: CC BY-NC 4.0 — استفادهی آزاد برای اهداف پژوهشی
🔗 لینکها:
📄 مقاله
🌐 پروژه
💾 کد منبع
@rss_ai_ir
#AI #Tracking #ComputerVision #Caltech #Research #OpenSource
محققان دانشگاه Caltech مجموعهبنچمارک جدیدی به نام ITTO معرفی کردهاند —
سیستمی برای ارزیابی و تحلیل روشهای ردیابی در حرکات پیچیده و بلندمدت 🔍
💡 ویژگیها:
♻️طراحیشده برای حرکات طولانی، پیچیده و غیرخطی
♻️تمرکز بر ارزیابی پایداری در فریمهای زیاد
♻️مناسب برای آموزش و تست الگوریتمهای بینایی ماشین در سناریوهای واقعی
📘 مجوز: CC BY-NC 4.0 — استفادهی آزاد برای اهداف پژوهشی
🔗 لینکها:
📄 مقاله
🌐 پروژه
💾 کد منبع
@rss_ai_ir
#AI #Tracking #ComputerVision #Caltech #Research #OpenSource
❤1