This media is not supported in your browser
VIEW IN TELEGRAM
🏜️ مدل ناوبری خودران OmniNWM — گامی تازه در دنیای رانندگی خودکار 🚗🤖
مدل OmniNWM یک سیستم یکپارچهی جهانمحور و پانورامیک است که آیندهی رانندگی خودکار را متحول میکند.
این مدل میتواند حالتهای چندوجهی (multi-modal states) شامل تصویر RGB، نقشههای معنایی، عمق و اشغال سهبعدی (3D occupancy) را بهصورت همزمان تولید کند.
✨ ویژگیهای کلیدی:
♻️تولید همزمان دادههای تصویری، عمقی و فضایی برای درک کامل محیط؛
♻️کنترل دقیق حرکات و تصمیمگیریها در لحظه؛
♻️ارزیابی بسته (closed-loop) با پاداشهای متراکم مبتنی بر اشغال فضا؛
♻️اجرای سریع و بهینه روی GPU.
📘 این مدل تحت مجوز Apache 2.0 منتشر شده و برای پژوهش و توسعه کاملاً آزاد است.
🔗 منابع:
👉 مقاله: arxiv.org/pdf/2510.17422
👉 پروژه: urbanverseproject.github.io
👉 ریپوی GitHub: lnkd.in/efCSvjtp
@rss_ai_ir
#AI #AutonomousDriving #Navigation #ComputerVision #OmniNWM #DeepLearning #OpenSource
مدل OmniNWM یک سیستم یکپارچهی جهانمحور و پانورامیک است که آیندهی رانندگی خودکار را متحول میکند.
این مدل میتواند حالتهای چندوجهی (multi-modal states) شامل تصویر RGB، نقشههای معنایی، عمق و اشغال سهبعدی (3D occupancy) را بهصورت همزمان تولید کند.
✨ ویژگیهای کلیدی:
♻️تولید همزمان دادههای تصویری، عمقی و فضایی برای درک کامل محیط؛
♻️کنترل دقیق حرکات و تصمیمگیریها در لحظه؛
♻️ارزیابی بسته (closed-loop) با پاداشهای متراکم مبتنی بر اشغال فضا؛
♻️اجرای سریع و بهینه روی GPU.
📘 این مدل تحت مجوز Apache 2.0 منتشر شده و برای پژوهش و توسعه کاملاً آزاد است.
🔗 منابع:
👉 مقاله: arxiv.org/pdf/2510.17422
👉 پروژه: urbanverseproject.github.io
👉 ریپوی GitHub: lnkd.in/efCSvjtp
@rss_ai_ir
#AI #AutonomousDriving #Navigation #ComputerVision #OmniNWM #DeepLearning #OpenSource
This media is not supported in your browser
VIEW IN TELEGRAM
🌊 پروتکل جدید ردیابی دینامیکی — ITTO از Caltech 🐠
محققان دانشگاه Caltech مجموعهبنچمارک جدیدی به نام ITTO معرفی کردهاند —
سیستمی برای ارزیابی و تحلیل روشهای ردیابی در حرکات پیچیده و بلندمدت 🔍
💡 ویژگیها:
♻️طراحیشده برای حرکات طولانی، پیچیده و غیرخطی
♻️تمرکز بر ارزیابی پایداری در فریمهای زیاد
♻️مناسب برای آموزش و تست الگوریتمهای بینایی ماشین در سناریوهای واقعی
📘 مجوز: CC BY-NC 4.0 — استفادهی آزاد برای اهداف پژوهشی
🔗 لینکها:
📄 مقاله
🌐 پروژه
💾 کد منبع
@rss_ai_ir
#AI #Tracking #ComputerVision #Caltech #Research #OpenSource
محققان دانشگاه Caltech مجموعهبنچمارک جدیدی به نام ITTO معرفی کردهاند —
سیستمی برای ارزیابی و تحلیل روشهای ردیابی در حرکات پیچیده و بلندمدت 🔍
💡 ویژگیها:
♻️طراحیشده برای حرکات طولانی، پیچیده و غیرخطی
♻️تمرکز بر ارزیابی پایداری در فریمهای زیاد
♻️مناسب برای آموزش و تست الگوریتمهای بینایی ماشین در سناریوهای واقعی
📘 مجوز: CC BY-NC 4.0 — استفادهی آزاد برای اهداف پژوهشی
🔗 لینکها:
📄 مقاله
🌐 پروژه
💾 کد منبع
@rss_ai_ir
#AI #Tracking #ComputerVision #Caltech #Research #OpenSource
❤1
🦉 LightOnOCR-1B —
مدل جدید و فوقسریع OCR از LightOn
شرکت LightOn از مدل جدید LightOnOCR-1B رونمایی کرد — مدلی که از Qwen2-VL-72B-Instruct استخراج (distill) شده و روی دیتاستی شامل ۱۷.۶ میلیون صفحه / ۴۵.۵ میلیارد توکن آموزش دیده است.
🔥 ویژگیهای کلیدی:
♻️۱ میلیارد پارامتر
♻️پردازش ۵.۷ صفحه در ثانیه روی یک GPU نوع H100 (≈ حدود ۴۹۳٬۰۰۰ صفحه در روز)
♻️پشتیبانی از جدولها، فرمها، معادلات و چیدمانهای پیچیده
♻️۶.۵ برابر سریعتر از dots.ocr و ۱.۷ برابر سریعتر از DeepSeekOCR
♻️هزینه پردازش کمتر از $0.01 برای هر ۱۰۰۰ صفحه A4
📊 دقت (Olmo-Bench):
♻️دقیقتر از DeepSeekOCR
♻️همتراز با dots.ocr (در حالیکه ۳ برابر سبکتر است)
♻️+۱۶ امتیاز نسبت به Qwen3-VL-2B-Instruct
⚙️ ترکیب عالی از کیفیت، سرعت و هزینه پایین — مناسب برای پروژههای مقیاسبالا و سرویسهای ابری OCR.
🟢 مدل ۱B:
LightOnOCR-1B-1025
🟢 مدل 0.9B (32k):
LightOnOCR-0.9B-32k-1025
🟢 بلاگ رسمی:
huggingface.co/blog/lightonai/lightonocr
🟢 دموی آنلاین:
LightOnOCR-1B Demo
@rss_ai_ir
#OCR #هوش_مصنوعی #پردازش_تصویر #LightOn #Qwen #AI #ML #ComputerVision
مدل جدید و فوقسریع OCR از LightOn
شرکت LightOn از مدل جدید LightOnOCR-1B رونمایی کرد — مدلی که از Qwen2-VL-72B-Instruct استخراج (distill) شده و روی دیتاستی شامل ۱۷.۶ میلیون صفحه / ۴۵.۵ میلیارد توکن آموزش دیده است.
🔥 ویژگیهای کلیدی:
♻️۱ میلیارد پارامتر
♻️پردازش ۵.۷ صفحه در ثانیه روی یک GPU نوع H100 (≈ حدود ۴۹۳٬۰۰۰ صفحه در روز)
♻️پشتیبانی از جدولها، فرمها، معادلات و چیدمانهای پیچیده
♻️۶.۵ برابر سریعتر از dots.ocr و ۱.۷ برابر سریعتر از DeepSeekOCR
♻️هزینه پردازش کمتر از $0.01 برای هر ۱۰۰۰ صفحه A4
📊 دقت (Olmo-Bench):
♻️دقیقتر از DeepSeekOCR
♻️همتراز با dots.ocr (در حالیکه ۳ برابر سبکتر است)
♻️+۱۶ امتیاز نسبت به Qwen3-VL-2B-Instruct
⚙️ ترکیب عالی از کیفیت، سرعت و هزینه پایین — مناسب برای پروژههای مقیاسبالا و سرویسهای ابری OCR.
🟢 مدل ۱B:
LightOnOCR-1B-1025
🟢 مدل 0.9B (32k):
LightOnOCR-0.9B-32k-1025
🟢 بلاگ رسمی:
huggingface.co/blog/lightonai/lightonocr
🟢 دموی آنلاین:
LightOnOCR-1B Demo
@rss_ai_ir
#OCR #هوش_مصنوعی #پردازش_تصویر #LightOn #Qwen #AI #ML #ComputerVision
👍1
This media is not supported in your browser
VIEW IN TELEGRAM
🌱 PlanarTrack:
مرجع بزرگ برای رهگیری صفحات (Planar Tracking) 🌱
👉 بنچمارک PlanarTrack یک دیتاست و بنچمارک بزرگ و باکیفیت برای رهگیری صفحات در ویدیوها است — شامل ۱,۱۵۰ توالی با بیش از ۷۳۳ هزار فریم، که دربرگیرندهی ۱۰۰۰ ویدیو کوتاهمدت و ۱۵۰ ویدیو بلندمدت است.
این مجموعه برای آموزش و ارزیابی الگوریتمهای رهگیری دقیق در سطوح مختلف طراحی شده و چالشی جدید برای مدلهای بینایی ماشین محسوب میشود. 💙
🔗 مرجعها:
📘 Review
📄 Paper (arXiv)
💻 Repo
🌐 Project
🧩 Dataset
#AI #ComputerVision #Tracking #PlanarTrack #Dataset #Benchmark #DeepLearning #ML #هوش_مصنوعی #بینایی_ماشین
مرجع بزرگ برای رهگیری صفحات (Planar Tracking) 🌱
👉 بنچمارک PlanarTrack یک دیتاست و بنچمارک بزرگ و باکیفیت برای رهگیری صفحات در ویدیوها است — شامل ۱,۱۵۰ توالی با بیش از ۷۳۳ هزار فریم، که دربرگیرندهی ۱۰۰۰ ویدیو کوتاهمدت و ۱۵۰ ویدیو بلندمدت است.
این مجموعه برای آموزش و ارزیابی الگوریتمهای رهگیری دقیق در سطوح مختلف طراحی شده و چالشی جدید برای مدلهای بینایی ماشین محسوب میشود. 💙
🔗 مرجعها:
📘 Review
📄 Paper (arXiv)
💻 Repo
🌐 Project
🧩 Dataset
#AI #ComputerVision #Tracking #PlanarTrack #Dataset #Benchmark #DeepLearning #ML #هوش_مصنوعی #بینایی_ماشین
This media is not supported in your browser
VIEW IN TELEGRAM
👢 Generative View Stitching (GVS):
رویکردی نو برای تولید ویدیوهای پیوسته و بدون برخورد با دوربین 🚀
پژوهش جدیدی به نام Generative View Stitching (GVS) معرفی شده که امکان تولید ویدیوهای هدایتشده با دوربین را بهصورت بدون برخورد (collision-free) و غیرخودبازگشتی (non-autoregressive) فراهم میکند — جایگزینی نوآورانه برای روشهای سنتی video length extrapolation. 🎥
✨ ویژگیهای کلیدی GVS:
🔹 تولید ویدیو در مسیرهای از پیش تعیینشده (predefined camera trajectories) بدون خطاهای فضایی یا حرکتی
🔹 استفاده از ساختار غیرخودبازگشتی برای افزایش پایداری فریمها و هماهنگی زمانی
🔹 مناسب برای کاربردهای گیمینگ، واقعیت مجازی (VR) و رندرهای سینمایی هوش مصنوعی
🔹 مجوز MIT — کاملاً متنباز و قابل استفاده در پروژههای تحقیقاتی یا صنعتی
📄 منابع رسمی:
👉 مقاله در
ArXiv: arxiv.org/pdf/2510.24718
👉 صفحه پروژه:
andrewsonga.github.io/gvs
👉 سورسکد:
github.com/andrewsonga/generative_view_stitching
🧠مدل GVS گامی مهم در جهت تولید ویدیوهای فتوواقعگرایانه با کنترل دقیق دوربین است — دنیای فیلمسازی و شبیهسازی ۳D را هوشمندتر از همیشه میسازد.
@rss_ai_ir
#AI #VideoGeneration #GVS #GenerativeAI #ComputerVision #Research
رویکردی نو برای تولید ویدیوهای پیوسته و بدون برخورد با دوربین 🚀
پژوهش جدیدی به نام Generative View Stitching (GVS) معرفی شده که امکان تولید ویدیوهای هدایتشده با دوربین را بهصورت بدون برخورد (collision-free) و غیرخودبازگشتی (non-autoregressive) فراهم میکند — جایگزینی نوآورانه برای روشهای سنتی video length extrapolation. 🎥
✨ ویژگیهای کلیدی GVS:
🔹 تولید ویدیو در مسیرهای از پیش تعیینشده (predefined camera trajectories) بدون خطاهای فضایی یا حرکتی
🔹 استفاده از ساختار غیرخودبازگشتی برای افزایش پایداری فریمها و هماهنگی زمانی
🔹 مناسب برای کاربردهای گیمینگ، واقعیت مجازی (VR) و رندرهای سینمایی هوش مصنوعی
🔹 مجوز MIT — کاملاً متنباز و قابل استفاده در پروژههای تحقیقاتی یا صنعتی
📄 منابع رسمی:
👉 مقاله در
ArXiv: arxiv.org/pdf/2510.24718
👉 صفحه پروژه:
andrewsonga.github.io/gvs
👉 سورسکد:
github.com/andrewsonga/generative_view_stitching
🧠مدل GVS گامی مهم در جهت تولید ویدیوهای فتوواقعگرایانه با کنترل دقیق دوربین است — دنیای فیلمسازی و شبیهسازی ۳D را هوشمندتر از همیشه میسازد.
@rss_ai_ir
#AI #VideoGeneration #GVS #GenerativeAI #ComputerVision #Research
❤2🔥1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
🧷 رهگیری نقطهای مولد با Flow Matching (GenPT) 🧷
🔹 مدل Generative Point Tracker (GenPT) چارچوبی نوآورانه برای مدلسازی تراژکتوریهای چندوجهی نقاط است
— یعنی قادر است مسیرهای مختلف و احتمالی حرکت یک نقطه را بهصورت همزمان بیاموزد و بازسازی کند 🎯
این مدل با استفاده از روش Flow Matching (FM)، یاد میگیرد تا الگوهای حرکت پیچیده را در دادههای ویدئویی بازتولید کند و در نتیجه در رهگیری نقاطی که دچار انسداد (occlusion) یا تغییرات شدید صحنه میشوند عملکردی پایدار و دقیق دارد 🔍📸
---
📘 ویژگیهای کلیدی:
• مدل مولد (Generative) برای پیشبینی چند مسیر ممکن از یک نقطه
• بازسازی دقیق مسیر حتی در شرایط ناپدید شدن یا پوشش جزئی شیء
• عملکرد در حد یا بالاتر از مدلهای CNN سنتی در بنچمارکهای PointOdyssey، Dynamic Replica و TAP-Vid
• پیادهسازی متنباز با مجوز MIT 🔵
---
🔗 لینکها:
📘 مقاله:
arxiv.org/pdf/2510.20951
🌐 پروژه:
https://mtesfaldet.net/genpt_projpage/
💾 ریپازیتوری:
github.com/tesfaldet/genpt
📡 @rss_ai_ir
#هوش_مصنوعی #بینایی_ماشین #GenPT #FlowMatching #رهگیری_نقطه #AI #DeepLearning #ComputerVision
🔹 مدل Generative Point Tracker (GenPT) چارچوبی نوآورانه برای مدلسازی تراژکتوریهای چندوجهی نقاط است
— یعنی قادر است مسیرهای مختلف و احتمالی حرکت یک نقطه را بهصورت همزمان بیاموزد و بازسازی کند 🎯
این مدل با استفاده از روش Flow Matching (FM)، یاد میگیرد تا الگوهای حرکت پیچیده را در دادههای ویدئویی بازتولید کند و در نتیجه در رهگیری نقاطی که دچار انسداد (occlusion) یا تغییرات شدید صحنه میشوند عملکردی پایدار و دقیق دارد 🔍📸
---
📘 ویژگیهای کلیدی:
• مدل مولد (Generative) برای پیشبینی چند مسیر ممکن از یک نقطه
• بازسازی دقیق مسیر حتی در شرایط ناپدید شدن یا پوشش جزئی شیء
• عملکرد در حد یا بالاتر از مدلهای CNN سنتی در بنچمارکهای PointOdyssey، Dynamic Replica و TAP-Vid
• پیادهسازی متنباز با مجوز MIT 🔵
---
🔗 لینکها:
📘 مقاله:
arxiv.org/pdf/2510.20951
🌐 پروژه:
https://mtesfaldet.net/genpt_projpage/
💾 ریپازیتوری:
github.com/tesfaldet/genpt
📡 @rss_ai_ir
#هوش_مصنوعی #بینایی_ماشین #GenPT #FlowMatching #رهگیری_نقطه #AI #DeepLearning #ComputerVision
👍3🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
🪷 مدل Chandra — OCR جدید از Datalab که DeepSeek و Mistral را شکست داد! 🇮🇳📄
تیم هندی Datalab مدل جدیدی به نام Chandra معرفی کرده است — سامانهای قدرتمند برای تبدیل تصویر به متن (OCR) که در آزمایشهای مختلف عملکردی بهتر از DeepSeek و Mistral داشته است 🚀
---
⚙️ ویژگیهای برجسته
پشتیبانی از ۴۰ زبان مختلف 🌍
✳️تشخیص دقیق فرمولها، متون دستنویس، و اسناد تاریخی ✍️
✳️تبدیل مستقیم محتوای تصویری به متن ساختاریافته با کد باز (Open Source)
✳️درک متون پیچیده علمی و ریاضی — حتی روی اسناد قدیمی مانند نوشتههای رامانوجان (Ramanujan) در سال ۱۹۱۳! 🧮
---
🎥 دمو آنلاین:
🔗 Datalab Playground
💻 کد منبع:
🔗 GitHub – datalab-to/chandra
---
♻️مدل Chandra با ترکیب OCR کلاسیک، مدلهای بینایی-زبانی و معماری سبکوزن Transformer،
به یکی از دقیقترین ابزارهای دیجیتالسازی اسناد تاریخی و دستنویسهای علمی تبدیل شده است.
📡 @rss_ai_ir
#هوش_مصنوعی #OCR #Chandra #DeepSeek #Mistral #Datalab #AI #ComputerVision #تکنولوژی
تیم هندی Datalab مدل جدیدی به نام Chandra معرفی کرده است — سامانهای قدرتمند برای تبدیل تصویر به متن (OCR) که در آزمایشهای مختلف عملکردی بهتر از DeepSeek و Mistral داشته است 🚀
---
⚙️ ویژگیهای برجسته
پشتیبانی از ۴۰ زبان مختلف 🌍
✳️تشخیص دقیق فرمولها، متون دستنویس، و اسناد تاریخی ✍️
✳️تبدیل مستقیم محتوای تصویری به متن ساختاریافته با کد باز (Open Source)
✳️درک متون پیچیده علمی و ریاضی — حتی روی اسناد قدیمی مانند نوشتههای رامانوجان (Ramanujan) در سال ۱۹۱۳! 🧮
---
🎥 دمو آنلاین:
🔗 Datalab Playground
💻 کد منبع:
🔗 GitHub – datalab-to/chandra
---
♻️مدل Chandra با ترکیب OCR کلاسیک، مدلهای بینایی-زبانی و معماری سبکوزن Transformer،
به یکی از دقیقترین ابزارهای دیجیتالسازی اسناد تاریخی و دستنویسهای علمی تبدیل شده است.
📡 @rss_ai_ir
#هوش_مصنوعی #OCR #Chandra #DeepSeek #Mistral #Datalab #AI #ComputerVision #تکنولوژی
This media is not supported in your browser
VIEW IN TELEGRAM
🔪 Tracking Object Transformations (Track Any State) 🔪
📦 پژوهش جدیدی با عنوان "Track Any State" معرفی شده که بر ردیابی اشیاء در طول تغییراتشان تمرکز دارد — نه فقط حرکت، بلکه تحول حالت و ویژگیهای فیزیکی آنها.
✨ مدل میتواند:
♻️اشیاء را حتی هنگام تغییر شکل، رنگ یا وضعیت دنبال کند؛
♻️تغییر حالت را توصیف و طبقهبندی نماید؛
♻️از دادههای واقعی و شبیهسازی برای درک پویاییهای فیزیکی استفاده کند.
🔍 منابع باز و آماده تست:
📄 Paper: lnkd.in/d4pA3bXJ
🌐 Project: lnkd.in/dgbNfCuj
💻 Repo (MIT License):
https://github.com/YihongSun/TubeletGraph
📡 @rss_ai_ir
#هوش_مصنوعی #ComputerVision #Tracking #AI #Dataset #MIT
📦 پژوهش جدیدی با عنوان "Track Any State" معرفی شده که بر ردیابی اشیاء در طول تغییراتشان تمرکز دارد — نه فقط حرکت، بلکه تحول حالت و ویژگیهای فیزیکی آنها.
✨ مدل میتواند:
♻️اشیاء را حتی هنگام تغییر شکل، رنگ یا وضعیت دنبال کند؛
♻️تغییر حالت را توصیف و طبقهبندی نماید؛
♻️از دادههای واقعی و شبیهسازی برای درک پویاییهای فیزیکی استفاده کند.
🔍 منابع باز و آماده تست:
📄 Paper: lnkd.in/d4pA3bXJ
🌐 Project: lnkd.in/dgbNfCuj
💻 Repo (MIT License):
https://github.com/YihongSun/TubeletGraph
📡 @rss_ai_ir
#هوش_مصنوعی #ComputerVision #Tracking #AI #Dataset #MIT
🎸 Another BRIXEL in the Wall 🎸
🧠 پروژهی BRIXEL به کاربران اجازه میدهد تا با استفاده از backbone مدل DINOv3، نقشههای ویژگی (feature maps) با وضوح بالا تولید کنند — بدون نیاز به منابع محاسباتی سنگین!
🔹 طراحی شده برای کارایی بالا در بینایی کامپیوتری
🔹 کاهش مصرف GPU بدون افت کیفیت
🔹 مناسب برای پژوهشگران و توسعهدهندگان در حوزهی Vision Transformers
📄 مقاله:
arxiv.org/pdf/2511.05168
💙 مخزن GitHub:
github.com/alexanderlappe/BRIXEL
#AI #ComputerVision #DINOv3 #DeepLearning #BRIXEL
@rss_ai_ir
🧠 پروژهی BRIXEL به کاربران اجازه میدهد تا با استفاده از backbone مدل DINOv3، نقشههای ویژگی (feature maps) با وضوح بالا تولید کنند — بدون نیاز به منابع محاسباتی سنگین!
🔹 طراحی شده برای کارایی بالا در بینایی کامپیوتری
🔹 کاهش مصرف GPU بدون افت کیفیت
🔹 مناسب برای پژوهشگران و توسعهدهندگان در حوزهی Vision Transformers
📄 مقاله:
arxiv.org/pdf/2511.05168
💙 مخزن GitHub:
github.com/alexanderlappe/BRIXEL
#AI #ComputerVision #DINOv3 #DeepLearning #BRIXEL
@rss_ai_ir
This media is not supported in your browser
VIEW IN TELEGRAM
🐼مدل Pixel-Dense Embedding در مدل FlowFeat 🐼
محققان دانشگاه مونیخ (TUM Vision) مدل جدیدی به نام FlowFeat معرفی کردهاند — یک نمایش ویژگی چندوظیفهای و با وضوح بالا که قادر است توزیع حرکات ممکن در تصویر را بهصورت بردارهای فشرده (Embedding) نمایش دهد.
🧠 ایدهی کلیدی:
بهجای نمایش تنها یک حرکت برای هر پیکسل، FlowFeat چندین حرکت محتمل (motion profiles) را مدل میکند. این کار باعث افزایش دقت در وظایفی مانند Optical Flow، تخمین عمق، و درک صحنههای پویا میشود.
💡 ویژگیها:
♻️دقت بالا در پیشبینی حرکات ظریف در ویدیو
♻️مناسب برای چندین وظیفه (multi-task representation)
♻️نیاز محاسباتی پایین با حفظ جزئیات
♻️مبتنی بر معماری DINOv3 Backbone
📄 مقاله:
arxiv.org/pdf/2511.07696
💻 پروژه:
tum-vision.github.io/flowfeat
📦 کد منبع:
github.com/tum-vision/flowfeat
#FlowFeat #ComputerVision #MotionEstimation #DeepLearning #Neural #AI
محققان دانشگاه مونیخ (TUM Vision) مدل جدیدی به نام FlowFeat معرفی کردهاند — یک نمایش ویژگی چندوظیفهای و با وضوح بالا که قادر است توزیع حرکات ممکن در تصویر را بهصورت بردارهای فشرده (Embedding) نمایش دهد.
🧠 ایدهی کلیدی:
بهجای نمایش تنها یک حرکت برای هر پیکسل، FlowFeat چندین حرکت محتمل (motion profiles) را مدل میکند. این کار باعث افزایش دقت در وظایفی مانند Optical Flow، تخمین عمق، و درک صحنههای پویا میشود.
💡 ویژگیها:
♻️دقت بالا در پیشبینی حرکات ظریف در ویدیو
♻️مناسب برای چندین وظیفه (multi-task representation)
♻️نیاز محاسباتی پایین با حفظ جزئیات
♻️مبتنی بر معماری DINOv3 Backbone
📄 مقاله:
arxiv.org/pdf/2511.07696
💻 پروژه:
tum-vision.github.io/flowfeat
📦 کد منبع:
github.com/tum-vision/flowfeat
#FlowFeat #ComputerVision #MotionEstimation #DeepLearning #Neural #AI