This media is not supported in your browser
VIEW IN TELEGRAM
🎺 مدل جدید Visual Grounding RVOS — ReferDINO 🎺
مدل ReferDINO یکی از قویترین مدلهای جدید در حوزهی Referential Video Object Segmentation (RVOS) است.
این مدل با ترکیب درک تصویری و زبانی، قادر است اشیاء را بر اساس توضیحات متنی در ویدیوها شناسایی و بخشبندی کند.
🧠 ویژگیهای کلیدی:
درک منطقهای (Region-Level) از مدلهای پایهی grounding
درک متراکم در سطح پیکسل (Pixel-Level Dense Perception)
استدلال فضاییـزمانی چندوجهی (Cross-Modal Spatio-Temporal Reasoning)
دقت بالا در همترازی تصویر و زبان برای تحلیلهای ویدیویی
📄 منابع:
🔹 مقاله:
https://arxiv.org/pdf/2501.14607
🔹 پروژه:
https://lnkd.in/dK3wMZqv
🔹 ریپازیتوری:
https://lnkd.in/d3i2PsNF
@rss_ai_ir 🤖
#هوش_مصنوعی #پردازش_تصویر #RVOS #ReferDINO #VisionLanguage #DeepLearning
مدل ReferDINO یکی از قویترین مدلهای جدید در حوزهی Referential Video Object Segmentation (RVOS) است.
این مدل با ترکیب درک تصویری و زبانی، قادر است اشیاء را بر اساس توضیحات متنی در ویدیوها شناسایی و بخشبندی کند.
🧠 ویژگیهای کلیدی:
درک منطقهای (Region-Level) از مدلهای پایهی grounding
درک متراکم در سطح پیکسل (Pixel-Level Dense Perception)
استدلال فضاییـزمانی چندوجهی (Cross-Modal Spatio-Temporal Reasoning)
دقت بالا در همترازی تصویر و زبان برای تحلیلهای ویدیویی
📄 منابع:
🔹 مقاله:
https://arxiv.org/pdf/2501.14607
🔹 پروژه:
https://lnkd.in/dK3wMZqv
🔹 ریپازیتوری:
https://lnkd.in/d3i2PsNF
@rss_ai_ir 🤖
#هوش_مصنوعی #پردازش_تصویر #RVOS #ReferDINO #VisionLanguage #DeepLearning
👍1