VIRSUN

🎺 مدل جدید Visual Grounding RVOS — ReferDINO 🎺

مدل ReferDINO یکی از قوی‌ترین مدل‌های جدید در حوزه‌ی Referential Video Object Segmentation (RVOS) است.
این مدل با ترکیب درک تصویری و زبانی، قادر است اشیاء را بر اساس توضیحات متنی در ویدیوها شناسایی و بخش‌بندی کند.

🧠 ویژگی‌های کلیدی:

درک منطقه‌ای (Region-Level) از مدل‌های پایه‌ی grounding

درک متراکم در سطح پیکسل (Pixel-Level Dense Perception)

استدلال فضایی‌ـ‌زمانی چندوجهی (Cross-Modal Spatio-Temporal Reasoning)

دقت بالا در هم‌ترازی تصویر و زبان برای تحلیل‌های ویدیویی

📄 منابع:
🔹 مقاله:
https://arxiv.org/pdf/2501.14607

🔹 پروژه:
https://lnkd.in/dK3wMZqv
🔹 ریپازیتوری:
https://lnkd.in/d3i2PsNF

@rss_ai_ir 🤖
#هوش_مصنوعی #پردازش_تصویر #RVOS #ReferDINO #VisionLanguage #DeepLearning

👍1

255 views04:11

About

Blog

Apps

Platform