VIRSUN
6.07K subscribers
1.07K photos
634 videos
5 files
697 links
📥 در کانال @rss_ai_ir هر روز: 🔹 جدیدترین خبرهای AI و فناوری
🗯اولویت ما هوش مصنوعی در صنعت میباشد اما نیم نگاهی به موارد دیگر در این زمینه داریم

ارتباط با ادمین 1:
@Ad1_rss_ai_ir

آدرس گروه
https://t.iss.one/rss_ai_ir_group
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
🏜️ مدل ناوبری خودران OmniNWM — گامی تازه در دنیای رانندگی خودکار 🚗🤖

مدل OmniNWM یک سیستم یکپارچه‌ی جهان‌محور و پانورامیک است که آینده‌ی رانندگی خودکار را متحول می‌کند.
این مدل می‌تواند حالت‌های چندوجهی (multi-modal states) شامل تصویر RGB، نقشه‌های معنایی، عمق و اشغال سه‌بعدی (3D occupancy) را به‌صورت همزمان تولید کند.

ویژگی‌های کلیدی:

♻️تولید هم‌زمان داده‌های تصویری، عمقی و فضایی برای درک کامل محیط؛

♻️کنترل دقیق حرکات و تصمیم‌گیری‌ها در لحظه؛

♻️ارزیابی بسته (closed-loop) با پاداش‌های متراکم مبتنی بر اشغال فضا؛

♻️اجرای سریع و بهینه روی GPU.


📘 این مدل تحت مجوز Apache 2.0 منتشر شده و برای پژوهش و توسعه کاملاً آزاد است.

🔗 منابع:
👉 مقاله: arxiv.org/pdf/2510.17422
👉 پروژه: urbanverseproject.github.io
👉 ریپوی GitHub: lnkd.in/efCSvjtp

@rss_ai_ir
#AI #AutonomousDriving #Navigation #ComputerVision #OmniNWM #DeepLearning #OpenSource
This media is not supported in your browser
VIEW IN TELEGRAM
🌊 پروتکل جدید ردیابی دینامیکی — ITTO از Caltech 🐠

محققان دانشگاه Caltech مجموعه‌بنچ‌مارک جدیدی به نام ITTO معرفی کرده‌اند —
سیستمی برای ارزیابی و تحلیل روش‌های ردیابی در حرکات پیچیده و بلندمدت 🔍

💡 ویژگی‌ها:

♻️طراحی‌شده برای حرکات طولانی، پیچیده و غیرخطی

♻️تمرکز بر ارزیابی پایداری در فریم‌های زیاد

♻️مناسب برای آموزش و تست الگوریتم‌های بینایی ماشین در سناریوهای واقعی


📘 مجوز: CC BY-NC 4.0 — استفاده‌ی آزاد برای اهداف پژوهشی

🔗 لینک‌ها:
📄 مقاله
🌐 پروژه
💾 کد منبع

@rss_ai_ir
#AI #Tracking #ComputerVision #Caltech #Research #OpenSource
1
🦉 LightOnOCR-1B —
مدل جدید و فوق‌سریع OCR از LightOn

شرکت LightOn از مدل جدید LightOnOCR-1B رونمایی کرد — مدلی که از Qwen2-VL-72B-Instruct استخراج (distill) شده و روی دیتاستی شامل ۱۷.۶ میلیون صفحه / ۴۵.۵ میلیارد توکن آموزش دیده است.

🔥 ویژگی‌های کلیدی:

♻️۱ میلیارد پارامتر
♻️پردازش ۵.۷ صفحه در ثانیه روی یک GPU نوع H100 (≈ حدود ۴۹۳٬۰۰۰ صفحه در روز)
♻️پشتیبانی از جدول‌ها، فرم‌ها، معادلات و چیدمان‌های پیچیده
♻️۶.۵ برابر سریع‌تر از dots.ocr و ۱.۷ برابر سریع‌تر از DeepSeekOCR
♻️هزینه پردازش کمتر از $0.01 برای هر ۱۰۰۰ صفحه A4


📊 دقت (Olmo-Bench):

♻️دقیق‌تر از DeepSeekOCR
♻️هم‌تراز با dots.ocr (در حالی‌که ۳ برابر سبک‌تر است)
♻️+۱۶ امتیاز نسبت به Qwen3-VL-2B-Instruct


⚙️ ترکیب عالی از کیفیت، سرعت و هزینه پایین — مناسب برای پروژه‌های مقیاس‌بالا و سرویس‌های ابری OCR.

🟢 مدل ۱B:
LightOnOCR-1B-1025
🟢 مدل 0.9B (32k):
LightOnOCR-0.9B-32k-1025
🟢 بلاگ رسمی:
huggingface.co/blog/lightonai/lightonocr
🟢 دموی آنلاین:
LightOnOCR-1B Demo

@rss_ai_ir
#OCR #هوش_مصنوعی #پردازش_تصویر #LightOn #Qwen #AI #ML #ComputerVision
👍1
This media is not supported in your browser
VIEW IN TELEGRAM
🌱 PlanarTrack:
مرجع بزرگ برای رهگیری صفحات (Planar Tracking) 🌱

👉 بنچمارک PlanarTrack یک دیتاست و بنچمارک بزرگ و باکیفیت برای رهگیری صفحات در ویدیوها است — شامل ۱,۱۵۰ توالی با بیش از ۷۳۳ هزار فریم، که دربرگیرنده‌ی ۱۰۰۰ ویدیو کوتاه‌مدت و ۱۵۰ ویدیو بلندمدت است.

این مجموعه برای آموزش و ارزیابی الگوریتم‌های رهگیری دقیق در سطوح مختلف طراحی شده و چالشی جدید برای مدل‌های بینایی ماشین محسوب می‌شود. 💙

🔗 مرجع‌ها:
📘 Review
📄 Paper (arXiv)
💻 Repo
🌐 Project
🧩 Dataset

#AI #ComputerVision #Tracking #PlanarTrack #Dataset #Benchmark #DeepLearning #ML #هوش_مصنوعی #بینایی_ماشین
This media is not supported in your browser
VIEW IN TELEGRAM
👢 Generative View Stitching (GVS):
رویکردی نو برای تولید ویدیوهای پیوسته و بدون برخورد با دوربین 🚀

پژوهش جدیدی به نام Generative View Stitching (GVS) معرفی شده که امکان تولید ویدیوهای هدایت‌شده با دوربین را به‌صورت بدون برخورد (collision-free) و غیرخودبازگشتی (non-autoregressive) فراهم می‌کند — جایگزینی نوآورانه برای روش‌های سنتی video length extrapolation. 🎥

ویژگی‌های کلیدی GVS:
🔹 تولید ویدیو در مسیرهای از پیش تعیین‌شده (predefined camera trajectories) بدون خطاهای فضایی یا حرکتی
🔹 استفاده از ساختار غیرخودبازگشتی برای افزایش پایداری فریم‌ها و هماهنگی زمانی
🔹 مناسب برای کاربردهای گیمینگ، واقعیت مجازی (VR) و رندرهای سینمایی هوش مصنوعی
🔹 مجوز MIT — کاملاً متن‌باز و قابل استفاده در پروژه‌های تحقیقاتی یا صنعتی

📄 منابع رسمی:
👉 مقاله در
ArXiv: arxiv.org/pdf/2510.24718
👉 صفحه پروژه:
andrewsonga.github.io/gvs
👉 سورس‌کد:
github.com/andrewsonga/generative_view_stitching

🧠مدل GVS گامی مهم در جهت تولید ویدیوهای فتوواقع‌گرایانه با کنترل دقیق دوربین است — دنیای فیلم‌سازی و شبیه‌سازی ۳D را هوشمندتر از همیشه می‌سازد.

@rss_ai_ir
#AI #VideoGeneration #GVS #GenerativeAI #ComputerVision #Research
2🔥1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
🧷 رهگیری نقطه‌ای مولد با Flow Matching (GenPT) 🧷

🔹 مدل Generative Point Tracker (GenPT) چارچوبی نوآورانه برای مدل‌سازی تراژکتوری‌های چندوجهی نقاط است
— یعنی قادر است مسیرهای مختلف و احتمالی حرکت یک نقطه را به‌صورت هم‌زمان بیاموزد و بازسازی کند 🎯

این مدل با استفاده از روش Flow Matching (FM)، یاد می‌گیرد تا الگوهای حرکت پیچیده را در داده‌های ویدئویی بازتولید کند و در نتیجه در رهگیری نقاطی که دچار انسداد (occlusion) یا تغییرات شدید صحنه می‌شوند عملکردی پایدار و دقیق دارد 🔍📸

---

📘 ویژگی‌های کلیدی:
• مدل مولد (Generative) برای پیش‌بینی چند مسیر ممکن از یک نقطه
• بازسازی دقیق مسیر حتی در شرایط ناپدید شدن یا پوشش جزئی شیء
• عملکرد در حد یا بالاتر از مدل‌های CNN سنتی در بنچمارک‌های PointOdyssey، Dynamic Replica و TAP-Vid
• پیاده‌سازی متن‌باز با مجوز MIT 🔵

---

🔗 لینک‌ها:
📘 مقاله:
arxiv.org/pdf/2510.20951

🌐 پروژه:
https://mtesfaldet.net/genpt_projpage/

💾 ریپازیتوری:
github.com/tesfaldet/genpt

📡 @rss_ai_ir
#هوش_مصنوعی #بینایی_ماشین #GenPT #FlowMatching #رهگیری_نقطه #AI #DeepLearning #ComputerVision
👍3🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
🪷 مدل Chandra — OCR جدید از Datalab که DeepSeek و Mistral را شکست داد! 🇮🇳📄

تیم هندی Datalab مدل جدیدی به نام Chandra معرفی کرده است — سامانه‌ای قدرتمند برای تبدیل تصویر به متن (OCR) که در آزمایش‌های مختلف عملکردی بهتر از DeepSeek و Mistral داشته است 🚀


---

⚙️ ویژگی‌های برجسته

پشتیبانی از ۴۰ زبان مختلف 🌍

✳️تشخیص دقیق فرمول‌ها، متون دست‌نویس، و اسناد تاریخی ✍️

✳️تبدیل مستقیم محتوای تصویری به متن ساختاریافته با کد باز (Open Source)

✳️درک متون پیچیده علمی و ریاضی — حتی روی اسناد قدیمی مانند نوشته‌های رامانوجان (Ramanujan) در سال ۱۹۱۳! 🧮



---

🎥 دمو آنلاین:
🔗 Datalab Playground

💻 کد منبع:
🔗 GitHub – datalab-to/chandra


---

♻️مدل Chandra با ترکیب OCR کلاسیک، مدل‌های بینایی-زبانی و معماری سبک‌وزن Transformer،
به یکی از دقیق‌ترین ابزارهای دیجیتال‌سازی اسناد تاریخی و دست‌نویس‌های علمی تبدیل شده است.

📡 @rss_ai_ir
#هوش_مصنوعی #OCR #Chandra #DeepSeek #Mistral #Datalab #AI #ComputerVision #تکنولوژی
This media is not supported in your browser
VIEW IN TELEGRAM
🔪 Tracking Object Transformations (Track Any State) 🔪

📦 پژوهش جدیدی با عنوان "Track Any State" معرفی شده که بر ردیابی اشیاء در طول تغییرات‌شان تمرکز دارد — نه فقط حرکت، بلکه تحول حالت و ویژگی‌های فیزیکی آن‌ها.

مدل می‌تواند:

♻️اشیاء را حتی هنگام تغییر شکل، رنگ یا وضعیت دنبال کند؛

♻️تغییر حالت را توصیف و طبقه‌بندی نماید؛

♻️از داده‌های واقعی و شبیه‌سازی برای درک پویایی‌های فیزیکی استفاده کند.


🔍 منابع باز و آماده تست:

📄 Paper: lnkd.in/d4pA3bXJ

🌐 Project: lnkd.in/dgbNfCuj

💻 Repo (MIT License):
https://github.com/YihongSun/TubeletGraph

📡 @rss_ai_ir
#هوش_مصنوعی #ComputerVision #Tracking #AI #Dataset #MIT
🎸 Another BRIXEL in the Wall 🎸

🧠 پروژه‌ی BRIXEL به کاربران اجازه می‌دهد تا با استفاده از backbone مدل DINOv3، نقشه‌های ویژگی (feature maps) با وضوح بالا تولید کنند — بدون نیاز به منابع محاسباتی سنگین!

🔹 طراحی شده برای کارایی بالا در بینایی کامپیوتری
🔹 کاهش مصرف GPU بدون افت کیفیت
🔹 مناسب برای پژوهشگران و توسعه‌دهندگان در حوزه‌ی Vision Transformers

📄 مقاله:
arxiv.org/pdf/2511.05168
💙 مخزن GitHub:
github.com/alexanderlappe/BRIXEL

#AI #ComputerVision #DINOv3 #DeepLearning #BRIXEL

@rss_ai_ir
This media is not supported in your browser
VIEW IN TELEGRAM
🐼مدل Pixel-Dense Embedding در مدل FlowFeat 🐼

محققان دانشگاه مونیخ (TUM Vision) مدل جدیدی به نام FlowFeat معرفی کرده‌اند — یک نمایش ویژگی چندوظیفه‌ای و با وضوح بالا که قادر است توزیع حرکات ممکن در تصویر را به‌صورت بردارهای فشرده (Embedding) نمایش دهد.

🧠 ایده‌ی کلیدی:
به‌جای نمایش تنها یک حرکت برای هر پیکسل، FlowFeat چندین حرکت محتمل (motion profiles) را مدل می‌کند. این کار باعث افزایش دقت در وظایفی مانند Optical Flow، تخمین عمق، و درک صحنه‌های پویا می‌شود.

💡 ویژگی‌ها:

♻️دقت بالا در پیش‌بینی حرکات ظریف در ویدیو
♻️مناسب برای چندین وظیفه (multi-task representation)
♻️نیاز محاسباتی پایین با حفظ جزئیات
♻️مبتنی بر معماری DINOv3 Backbone


📄 مقاله:
arxiv.org/pdf/2511.07696
💻 پروژه:
tum-vision.github.io/flowfeat
📦 کد منبع:
github.com/tum-vision/flowfeat

#FlowFeat #ComputerVision #MotionEstimation #DeepLearning #Neural #AI