VIRSUN
6.08K subscribers
1.07K photos
632 videos
5 files
694 links
📥 در کانال @rss_ai_ir هر روز: 🔹 جدیدترین خبرهای AI و فناوری
🗯اولویت ما هوش مصنوعی در صنعت میباشد اما نیم نگاهی به موارد دیگر در این زمینه داریم

ارتباط با ادمین 1:
@Ad1_rss_ai_ir

آدرس گروه
https://t.iss.one/rss_ai_ir_group
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
🛡️ مدل جدید SR-3D از انویدیا 🛡️

🤖 انویدیا از SR-3D رونمایی کرد؛ یک مدل نوآورانه در حوزه Vision-Language که می‌تواند تصاویر ۲بعدی تک‌نما و داده‌های ۳بعدی چندنما را در یک فضای مشترک توکنی ترکیب کند.

ویژگی شاخص:
🔹 Region Prompting انعطاف‌پذیر
🔹 امکان نشانه‌گذاری با باکس، ماسک سگمنتیشن یا حتی مستقیم در فضای سه‌بعدی
🔹 بدون نیاز به برچسب‌گذاری وقت‌گیر چندفریمی

📊 نتیجه؟
بهترین عملکرد در وظایف ۲بعدی و ۳بعدی + قابلیت تحلیل ویدیوهای واقعی بدون داده‌های سنسوری اضافی.


📄 مقاله: https://arxiv.org/pdf/2509.13317
🌐 پروژه: https://www.anjiecheng.me/sr3d


---

#هوش_مصنوعی 🤖
#بینایی_ماشین 👁️
#زبان_و_تصویر 🖼️
#Nvidia 💚
#3D 🚀
#VisionLanguage

@rss_ai_ir
🥰1411🔥11👏10👍7😁5🎉5
This media is not supported in your browser
VIEW IN TELEGRAM
🎺 مدل جدید Visual Grounding RVOS — ReferDINO 🎺

مدل ReferDINO یکی از قوی‌ترین مدل‌های جدید در حوزه‌ی Referential Video Object Segmentation (RVOS) است.
این مدل با ترکیب درک تصویری و زبانی، قادر است اشیاء را بر اساس توضیحات متنی در ویدیوها شناسایی و بخش‌بندی کند.

🧠 ویژگی‌های کلیدی:

درک منطقه‌ای (Region-Level) از مدل‌های پایه‌ی grounding

درک متراکم در سطح پیکسل (Pixel-Level Dense Perception)

استدلال فضایی‌ـ‌زمانی چندوجهی (Cross-Modal Spatio-Temporal Reasoning)

دقت بالا در هم‌ترازی تصویر و زبان برای تحلیل‌های ویدیویی


📄 منابع:
🔹 مقاله:
https://arxiv.org/pdf/2501.14607

🔹 پروژه:
https://lnkd.in/dK3wMZqv
🔹 ریپازیتوری:
https://lnkd.in/d3i2PsNF

@rss_ai_ir 🤖
#هوش_مصنوعی #پردازش_تصویر #RVOS #ReferDINO #VisionLanguage #DeepLearning
👍1
🚀 راهنمای جدید Qwen برای مدل چندوجهی Qwen3-VL منتشر شد!


شرکت Qwen (وابسته به Alibaba) مجموعه‌ای از دفترچه‌های تعاملی (Notebooks) منتشر کرده که کاربردهای قدرتمند مدل چندوجهی Qwen3-VL را به‌صورت گام‌به‌گام نشان می‌دهد — هم برای اجرا روی سیستم محلی و هم از طریق API.
📚 در این مجموعه، ده‌ها مثال واقعی با توضیحات دقیق وجود دارد، از جمله:

🔸 تحلیل و استدلال روی تصاویر
🔸 عامل تعاملی با رابط کاربری (Computer-Use Agent)
🔸 برنامه‌نویسی چندوجهی (Multimodal Programming)
🔸 تشخیص اشیاء و صحنه‌ها (Omni Recognition)
🔸 استخراج داده از اسناد و PDFها
🔸 تشخیص دقیق اشیاء در تصاویر
🔸 OCR
و استخراج اطلاعات کلیدی
🔸 تحلیل سه‌بعدی و لنگرگذاری اشیاء (3D Anchoring)
🔸 درک متون طولانی
🔸 استدلال فضایی (Spatial Reasoning)
🔸 عامل موبایل (Mobile Agent)
🔸 تحلیل و درک ویدیو 🎥


🔗 منابع رسمی:
🟠 گیت‌هاب:
github.com/QwenLM/Qwen3-VL/tree/main/cookbooks
🟠 مستندات
API: alibabacloud.com/help/en/model-studio/user-guide/vision
🟠 تجربه آنلاین:
chat.qwen.ai/?models=qwen3-vl-plus


📌 اگر به دنبال مدلی هستید که بینایی، زبان و منطق فضایی را هم‌زمان ترکیب کند، Qwen3-VL یکی از پیشرفته‌ترین گزینه‌های متن‌باز امروز است.

@rss_ai_ir
#Qwen #Qwen3VL #هوش_مصنوعی #LLM #Multimodal #VisionLanguage #AI
1
📄 PaddleOCR-VL (0.9B) —
مدل فشرده Vision-Language نسل جدید از Baidu AI


تیم تحقیقاتی Baidu AI نسخه‌ی جدیدی از مدل‌های چندوجهی خود را معرفی کرده است:

🔹 PaddleOCR-VL (0.9B)
مدلی بسیار سبک که با وجود اندازه کوچک، به دقت SOTA در وظایف بینایی-زبانی دست یافته است:

♻️شناسایی و تشخیص متن‌ها
♻️جدول‌ها و داده‌های ساختاریافته
♻️فرمول‌های ریاضی
♻️نمودارها و گراف‌ه
ا
💡 درون :

NaViT
انکودر تصویری پویا (Dynamic Vision Encoder)
ERNIE
نسخه سبک‌شده‌ی مدل زبانی بایدو برای درک متن
⚡️ پشتیبانی از ۱۰۹ زبان مختلف، با تمرکز بر کارایی بالا در دستگاه‌های لبه‌ای (edge).

🟠 GitHub:
github.com/PaddlePaddle/PaddleOCR

🟠 HuggingFace:
PaddleOCR-VL
🟠 اسناد رسمی:

paddleocr.ai/latest/en/index.html

@rss_ai_ir
#BaiduAI #PaddlePaddle #Ernie #PaddleOCR #VisionLanguage #AI #OCR
This media is not supported in your browser
VIEW IN TELEGRAM
🦄 مدل چندوجهی «PixelRefer»؛ فهم ناحیه‌ای دقیق در تصویر و ویدئو

🎯 چارچوب یکپارچه‌ی MLLM که به‌جای نگاه کلی به صحنه، روی ناحیه‌های مشخص تمرکز می‌کند؛ هم در تصاویر ثابت، هم در ویدئوهای پویا. نتیجه: دقت بالاتر در اشاره به ناحیه‌ها، رفع سوگیری صحنه‌محور، و رکوردهای SOTA.

چه می‌دهد؟

🎥🖼️ فهم ناحیه‌ای دقیق در تصویر/ویدئو (region-level grounding)

🧠 رفع bias مدل‌های قبلی که فقط صحنه‌ی کلی را می‌دیدند

🚀 نتایج SOTA + دموی آنلاین، دیتاست و کد متن‌باز


لینک‌ها:

Paper: arxiv.org/pdf/2510.23603
Project: circleradon.github.io/PixelRefer
Repo: https://github.com/alibaba-damo-academy/PixelRefer

@rss_ai_ir
#MLLM #Multimodal #VisionLanguage #Grounding #ReferringSegmentation #SOTA #OpenSource
🧠 مدل ThinkMorph — جهش جدید در تفکر چندوجهی (Multimodal Reasoning) 🚀🖼️

پژوهشگران مدلی به نام ThinkMorph معرفی کرده‌اند که گامی فراتر از مدل‌های چندوجهی (VLM) سنتی است —
مدلی که با تصویر و متن هم‌زمان فکر می‌کند و در طول فرایند استدلال، خود را تصحیح و تکامل می‌دهد 🤯


---

⚙️ آموزش و نوآوری

مدل ThinkMorph بر اساس ۲۴٬۰۰۰ مسیر استدلال درهم‌تنیده (interleaved reasoning traces) آموزش دیده است — داده‌هایی که در آن متن و تصویر به‌صورت مرحله‌به‌مرحله همدیگر را توضیح و تکمیل می‌کنند.

💡 نتیجه؟
♻️مدل در حین پاسخ دادن نه فقط توصیف می‌کند، بلکه به‌صورت چندمرحله‌ای می‌اندیشد:

♻️ابتدا تصویر را تحلیل می‌کند 🧩

♻️سپس توضیح متنی می‌نویسد ✍️

♻️بعد بر اساس آن توضیح، برداشت تصویری جدید می‌سازد 🎨

♻️و این چرخه را تکرار می‌کند تا استدلالش دقیق‌تر شود.


---

🚀 توانایی‌های کلیدی

🔹 رشد چشمگیر در مسائل دارای زمینه‌ی بصری پیچیده
🔹 استدلال مرحله‌به‌مرحله‌ی متن–تصویر به‌صورت پیشرونده
🔹 توانایی‌های تازه: منطق تطبیقی، دست‌کاری تصویری خلاقانه، و بازبینی خودکار نتایج


---

این یعنی ThinkMorph دیگر صرفاً Visual Language Model نیست، بلکه مکانیسمی برای تفکر ترکیبی بینایی–زبانی است — مدلی که با دیدن یاد می‌گیرد و با نوشتن، دید خود را اصلاح می‌کند.

📄 پژوهش کامل در:
🔗 huggingface.co/papers/2510.27492

📡 @rss_ai_ir
#هوش_مصنوعی #ThinkMorph #VLM #MultimodalAI #AI #DeepLearning #VisionLanguage #Reasoning
1
🧠 بایدو مدل جدید ERNIE-4.5-VL-28B-A3B-Thinking را منتشر کرد

مدلی چندوجهی (Multi-Modal) با ۲۸ میلیارد پارامتر که تنها ۳ میلیارد پارامتر در هر گام فعال می‌کند، اما عملکردی در حد مدل‌های تصویری پیشرفته دارد.
این معماری از نوع A3B است و برای وظایفی طراحی شده که ترکیب تصویر، متن و استدلال چندمرحله‌ای نیاز دارند.

📊 قابلیت‌های کلیدی:

🧩 استدلال بصری: تحلیل دیاگرام‌ها، روابط علّی و منطق چندمرحله‌ای

📸 حل مسائل STEM از روی عکس: کافیست از مسئله عکس بگیرید تا پاسخ تحلیلی دریافت کنید

🎯 درک دقیق اجزای تصویر: شناسایی دقیق اشیاء و جزئیات با زوم بالا

🔍 تحلیل عمیق تصاویر: تشخیص ریزترین تفاوت‌ها

🧠 فراخوانی ابزارها: مثل Image Search برای جست‌وجوی تصویری

🎞 درک ویدیو: دنبال‌کردن وقایع و تغییرات در طول زمان


🔓 لایسنس: Apache 2.0
📦 مدل در Hugging Face:
👉 https://huggingface.co/baidu/ERNIE-4.5-VL-28B-A3B-Thinking

#Baidu #هوش_مصنوعی #AI #ML #چندوجهی #VisionLanguage #LLM #cgevent