VIRSUN

⚡️ Kyvo —
مدل چندمنظوره‌ی جدید از Caltech

ترنسفورمر Kyvo یک ترنسفورمر مولتی‌مدال هست که می‌تونه همزمان با متن، تصویر و صحنه‌های سه‌بعدی کار کنه. این مدل همه‌چیز رو توکن به توکن همگام‌سازی می‌کنه و همین باعث می‌شه دریچه‌های تازه‌ای برای هوش مصنوعی باز بشه.

🔍 توانایی‌ها:

❌نمایش صحنه‌های سه‌بعدی به‌صورت لیستی از اشیاء (شکل، اندازه، نوع، موقعیت و حالت).

❌ادغام متن، تصویر و 3D در یک نمایش مشترک.

❌رندر تصویر از روی صحنه یا بازسازی 3D از روی عکس.

❌پاسخ به پرسش‌های مربوط به صحنه یا تغییر آن طبق دستور.

❌استفاده از کدگذاری ویژه برای بازسازی دقیق‌تر فرم اشیاء.

🧪 آزمایش‌ها روی:

✳️دیتاست‌های CLEVR, ObjaWorld, Objectron, ARKitScenes
✳️وظایف: رندرینگ، شناسایی اشیاء، دستورهای متنی برای صحنه، پرسش و پاسخ.

⛔️ چرا جالب است؟

✅یکپارچگی: یک مدل برای چندین وظیفه و فرمت داده.
✅انعطاف: هم در تولید، هم در درک محتوا قوی عمل می‌کنه.
✅گامی مهم به‌سوی درک سه‌بعدی جهان توسط هوش مصنوعی.

🔗 منابع:
📄 مقاله در arXiv
🌐 پروژه
💻 GitHub

@rss_ai_ir

#هوش_مصنوعی #مدل_چندوجهی #3D #Caltech #Kyvo

🔥14👏12😁11❤10🥰9👍8🎉8

336 views09:41

VIRSUN

0:04

This media is not supported in your browser

VIEW IN TELEGRAM

🌊 پروتکل جدید ردیابی دینامیکی — ITTO از Caltech 🐠

محققان دانشگاه Caltech مجموعه‌بنچ‌مارک جدیدی به نام ITTO معرفی کرده‌اند —
سیستمی برای ارزیابی و تحلیل روش‌های ردیابی در حرکات پیچیده و بلندمدت 🔍

💡 ویژگی‌ها:

♻️طراحی‌شده برای حرکات طولانی، پیچیده و غیرخطی

♻️تمرکز بر ارزیابی پایداری در فریم‌های زیاد

♻️مناسب برای آموزش و تست الگوریتم‌های بینایی ماشین در سناریوهای واقعی

📘 مجوز: CC BY-NC 4.0 — استفاده‌ی آزاد برای اهداف پژوهشی

🔗 لینک‌ها:
📄 مقاله
🌐 پروژه
💾 کد منبع

@rss_ai_ir
#AI #Tracking #ComputerVision #Caltech #Research #OpenSource

❤1

292 views09:30

About

Blog

Apps

Platform