⚡️ Kyvo —
مدل چندمنظورهی جدید از Caltech
ترنسفورمر Kyvo یک ترنسفورمر مولتیمدال هست که میتونه همزمان با متن، تصویر و صحنههای سهبعدی کار کنه. این مدل همهچیز رو توکن به توکن همگامسازی میکنه و همین باعث میشه دریچههای تازهای برای هوش مصنوعی باز بشه.
🔍 تواناییها:
❌نمایش صحنههای سهبعدی بهصورت لیستی از اشیاء (شکل، اندازه، نوع، موقعیت و حالت).
❌ادغام متن، تصویر و 3D در یک نمایش مشترک.
❌رندر تصویر از روی صحنه یا بازسازی 3D از روی عکس.
❌پاسخ به پرسشهای مربوط به صحنه یا تغییر آن طبق دستور.
❌استفاده از کدگذاری ویژه برای بازسازی دقیقتر فرم اشیاء.
🧪 آزمایشها روی:
✳️دیتاستهای CLEVR, ObjaWorld, Objectron, ARKitScenes
✳️وظایف: رندرینگ، شناسایی اشیاء، دستورهای متنی برای صحنه، پرسش و پاسخ.
⛔️ چرا جالب است؟
✅یکپارچگی: یک مدل برای چندین وظیفه و فرمت داده.
✅انعطاف: هم در تولید، هم در درک محتوا قوی عمل میکنه.
✅گامی مهم بهسوی درک سهبعدی جهان توسط هوش مصنوعی.
🔗 منابع:
📄 مقاله در arXiv
🌐 پروژه
💻 GitHub
@rss_ai_ir
#هوش_مصنوعی #مدل_چندوجهی #3D #Caltech #Kyvo
مدل چندمنظورهی جدید از Caltech
ترنسفورمر Kyvo یک ترنسفورمر مولتیمدال هست که میتونه همزمان با متن، تصویر و صحنههای سهبعدی کار کنه. این مدل همهچیز رو توکن به توکن همگامسازی میکنه و همین باعث میشه دریچههای تازهای برای هوش مصنوعی باز بشه.
🔍 تواناییها:
❌نمایش صحنههای سهبعدی بهصورت لیستی از اشیاء (شکل، اندازه، نوع، موقعیت و حالت).
❌ادغام متن، تصویر و 3D در یک نمایش مشترک.
❌رندر تصویر از روی صحنه یا بازسازی 3D از روی عکس.
❌پاسخ به پرسشهای مربوط به صحنه یا تغییر آن طبق دستور.
❌استفاده از کدگذاری ویژه برای بازسازی دقیقتر فرم اشیاء.
🧪 آزمایشها روی:
✳️دیتاستهای CLEVR, ObjaWorld, Objectron, ARKitScenes
✳️وظایف: رندرینگ، شناسایی اشیاء، دستورهای متنی برای صحنه، پرسش و پاسخ.
⛔️ چرا جالب است؟
✅یکپارچگی: یک مدل برای چندین وظیفه و فرمت داده.
✅انعطاف: هم در تولید، هم در درک محتوا قوی عمل میکنه.
✅گامی مهم بهسوی درک سهبعدی جهان توسط هوش مصنوعی.
🔗 منابع:
📄 مقاله در arXiv
🌐 پروژه
💻 GitHub
@rss_ai_ir
#هوش_مصنوعی #مدل_چندوجهی #3D #Caltech #Kyvo
🔥14👏12😁11❤10🥰9👍8🎉8