This media is not supported in your browser
VIEW IN TELEGRAM
🛡️ مدل جدید SR-3D از انویدیا 🛡️
🤖 انویدیا از SR-3D رونمایی کرد؛ یک مدل نوآورانه در حوزه Vision-Language که میتواند تصاویر ۲بعدی تکنما و دادههای ۳بعدی چندنما را در یک فضای مشترک توکنی ترکیب کند.
✨ ویژگی شاخص:
🔹 Region Prompting انعطافپذیر
🔹 امکان نشانهگذاری با باکس، ماسک سگمنتیشن یا حتی مستقیم در فضای سهبعدی
🔹 بدون نیاز به برچسبگذاری وقتگیر چندفریمی
📊 نتیجه؟
بهترین عملکرد در وظایف ۲بعدی و ۳بعدی + قابلیت تحلیل ویدیوهای واقعی بدون دادههای سنسوری اضافی.
📄 مقاله: https://arxiv.org/pdf/2509.13317
🌐 پروژه: https://www.anjiecheng.me/sr3d
---
#هوش_مصنوعی 🤖
#بینایی_ماشین 👁️
#زبان_و_تصویر 🖼️
#Nvidia 💚
#3D 🚀
#VisionLanguage
@rss_ai_ir
🤖 انویدیا از SR-3D رونمایی کرد؛ یک مدل نوآورانه در حوزه Vision-Language که میتواند تصاویر ۲بعدی تکنما و دادههای ۳بعدی چندنما را در یک فضای مشترک توکنی ترکیب کند.
✨ ویژگی شاخص:
🔹 Region Prompting انعطافپذیر
🔹 امکان نشانهگذاری با باکس، ماسک سگمنتیشن یا حتی مستقیم در فضای سهبعدی
🔹 بدون نیاز به برچسبگذاری وقتگیر چندفریمی
📊 نتیجه؟
بهترین عملکرد در وظایف ۲بعدی و ۳بعدی + قابلیت تحلیل ویدیوهای واقعی بدون دادههای سنسوری اضافی.
📄 مقاله: https://arxiv.org/pdf/2509.13317
🌐 پروژه: https://www.anjiecheng.me/sr3d
---
#هوش_مصنوعی 🤖
#بینایی_ماشین 👁️
#زبان_و_تصویر 🖼️
#Nvidia 💚
#3D 🚀
#VisionLanguage
@rss_ai_ir
🥰14❤11🔥11👏10👍7😁5🎉5
This media is not supported in your browser
VIEW IN TELEGRAM
🎺 مدل جدید Visual Grounding RVOS — ReferDINO 🎺
مدل ReferDINO یکی از قویترین مدلهای جدید در حوزهی Referential Video Object Segmentation (RVOS) است.
این مدل با ترکیب درک تصویری و زبانی، قادر است اشیاء را بر اساس توضیحات متنی در ویدیوها شناسایی و بخشبندی کند.
🧠 ویژگیهای کلیدی:
درک منطقهای (Region-Level) از مدلهای پایهی grounding
درک متراکم در سطح پیکسل (Pixel-Level Dense Perception)
استدلال فضاییـزمانی چندوجهی (Cross-Modal Spatio-Temporal Reasoning)
دقت بالا در همترازی تصویر و زبان برای تحلیلهای ویدیویی
📄 منابع:
🔹 مقاله:
https://arxiv.org/pdf/2501.14607
🔹 پروژه:
https://lnkd.in/dK3wMZqv
🔹 ریپازیتوری:
https://lnkd.in/d3i2PsNF
@rss_ai_ir 🤖
#هوش_مصنوعی #پردازش_تصویر #RVOS #ReferDINO #VisionLanguage #DeepLearning
مدل ReferDINO یکی از قویترین مدلهای جدید در حوزهی Referential Video Object Segmentation (RVOS) است.
این مدل با ترکیب درک تصویری و زبانی، قادر است اشیاء را بر اساس توضیحات متنی در ویدیوها شناسایی و بخشبندی کند.
🧠 ویژگیهای کلیدی:
درک منطقهای (Region-Level) از مدلهای پایهی grounding
درک متراکم در سطح پیکسل (Pixel-Level Dense Perception)
استدلال فضاییـزمانی چندوجهی (Cross-Modal Spatio-Temporal Reasoning)
دقت بالا در همترازی تصویر و زبان برای تحلیلهای ویدیویی
📄 منابع:
🔹 مقاله:
https://arxiv.org/pdf/2501.14607
🔹 پروژه:
https://lnkd.in/dK3wMZqv
🔹 ریپازیتوری:
https://lnkd.in/d3i2PsNF
@rss_ai_ir 🤖
#هوش_مصنوعی #پردازش_تصویر #RVOS #ReferDINO #VisionLanguage #DeepLearning
👍1
🚀 راهنمای جدید Qwen برای مدل چندوجهی Qwen3-VL منتشر شد!
شرکت Qwen (وابسته به Alibaba) مجموعهای از دفترچههای تعاملی (Notebooks) منتشر کرده که کاربردهای قدرتمند مدل چندوجهی Qwen3-VL را بهصورت گامبهگام نشان میدهد — هم برای اجرا روی سیستم محلی و هم از طریق API.
📚 در این مجموعه، دهها مثال واقعی با توضیحات دقیق وجود دارد، از جمله:
🔸 تحلیل و استدلال روی تصاویر
🔸 عامل تعاملی با رابط کاربری (Computer-Use Agent)
🔸 برنامهنویسی چندوجهی (Multimodal Programming)
🔸 تشخیص اشیاء و صحنهها (Omni Recognition)
🔸 استخراج داده از اسناد و PDFها
🔸 تشخیص دقیق اشیاء در تصاویر
🔸 OCR
و استخراج اطلاعات کلیدی
🔸 تحلیل سهبعدی و لنگرگذاری اشیاء (3D Anchoring)
🔸 درک متون طولانی
🔸 استدلال فضایی (Spatial Reasoning)
🔸 عامل موبایل (Mobile Agent)
🔸 تحلیل و درک ویدیو 🎥
🔗 منابع رسمی:
🟠 گیتهاب:
github.com/QwenLM/Qwen3-VL/tree/main/cookbooks
🟠 مستندات
API: alibabacloud.com/help/en/model-studio/user-guide/vision
🟠 تجربه آنلاین:
chat.qwen.ai/?models=qwen3-vl-plus
📌 اگر به دنبال مدلی هستید که بینایی، زبان و منطق فضایی را همزمان ترکیب کند، Qwen3-VL یکی از پیشرفتهترین گزینههای متنباز امروز است.
@rss_ai_ir
#Qwen #Qwen3VL #هوش_مصنوعی #LLM #Multimodal #VisionLanguage #AI
شرکت Qwen (وابسته به Alibaba) مجموعهای از دفترچههای تعاملی (Notebooks) منتشر کرده که کاربردهای قدرتمند مدل چندوجهی Qwen3-VL را بهصورت گامبهگام نشان میدهد — هم برای اجرا روی سیستم محلی و هم از طریق API.
📚 در این مجموعه، دهها مثال واقعی با توضیحات دقیق وجود دارد، از جمله:
🔸 تحلیل و استدلال روی تصاویر
🔸 عامل تعاملی با رابط کاربری (Computer-Use Agent)
🔸 برنامهنویسی چندوجهی (Multimodal Programming)
🔸 تشخیص اشیاء و صحنهها (Omni Recognition)
🔸 استخراج داده از اسناد و PDFها
🔸 تشخیص دقیق اشیاء در تصاویر
🔸 OCR
و استخراج اطلاعات کلیدی
🔸 تحلیل سهبعدی و لنگرگذاری اشیاء (3D Anchoring)
🔸 درک متون طولانی
🔸 استدلال فضایی (Spatial Reasoning)
🔸 عامل موبایل (Mobile Agent)
🔸 تحلیل و درک ویدیو 🎥
🔗 منابع رسمی:
🟠 گیتهاب:
github.com/QwenLM/Qwen3-VL/tree/main/cookbooks
🟠 مستندات
API: alibabacloud.com/help/en/model-studio/user-guide/vision
🟠 تجربه آنلاین:
chat.qwen.ai/?models=qwen3-vl-plus
📌 اگر به دنبال مدلی هستید که بینایی، زبان و منطق فضایی را همزمان ترکیب کند، Qwen3-VL یکی از پیشرفتهترین گزینههای متنباز امروز است.
@rss_ai_ir
#Qwen #Qwen3VL #هوش_مصنوعی #LLM #Multimodal #VisionLanguage #AI
❤1
📄 PaddleOCR-VL (0.9B) —
مدل فشرده Vision-Language نسل جدید از Baidu AI
تیم تحقیقاتی Baidu AI نسخهی جدیدی از مدلهای چندوجهی خود را معرفی کرده است:
🔹 PaddleOCR-VL (0.9B) —
مدلی بسیار سبک که با وجود اندازه کوچک، به دقت SOTA در وظایف بینایی-زبانی دست یافته است:
♻️شناسایی و تشخیص متنها
♻️جدولها و دادههای ساختاریافته
♻️فرمولهای ریاضی
♻️نمودارها و گرافه
ا
💡 درون :
NaViT —
انکودر تصویری پویا (Dynamic Vision Encoder)
ERNIE —
نسخه سبکشدهی مدل زبانی بایدو برای درک متن
⚡️ پشتیبانی از ۱۰۹ زبان مختلف، با تمرکز بر کارایی بالا در دستگاههای لبهای (edge).
🟠 GitHub:
github.com/PaddlePaddle/PaddleOCR
🟠 HuggingFace:
PaddleOCR-VL
🟠 اسناد رسمی:
paddleocr.ai/latest/en/index.html
@rss_ai_ir
#BaiduAI #PaddlePaddle #Ernie #PaddleOCR #VisionLanguage #AI #OCR
مدل فشرده Vision-Language نسل جدید از Baidu AI
تیم تحقیقاتی Baidu AI نسخهی جدیدی از مدلهای چندوجهی خود را معرفی کرده است:
🔹 PaddleOCR-VL (0.9B) —
مدلی بسیار سبک که با وجود اندازه کوچک، به دقت SOTA در وظایف بینایی-زبانی دست یافته است:
♻️شناسایی و تشخیص متنها
♻️جدولها و دادههای ساختاریافته
♻️فرمولهای ریاضی
♻️نمودارها و گرافه
ا
💡 درون :
NaViT —
انکودر تصویری پویا (Dynamic Vision Encoder)
ERNIE —
نسخه سبکشدهی مدل زبانی بایدو برای درک متن
⚡️ پشتیبانی از ۱۰۹ زبان مختلف، با تمرکز بر کارایی بالا در دستگاههای لبهای (edge).
🟠 GitHub:
github.com/PaddlePaddle/PaddleOCR
🟠 HuggingFace:
PaddleOCR-VL
🟠 اسناد رسمی:
paddleocr.ai/latest/en/index.html
@rss_ai_ir
#BaiduAI #PaddlePaddle #Ernie #PaddleOCR #VisionLanguage #AI #OCR
This media is not supported in your browser
VIEW IN TELEGRAM
🦄 مدل چندوجهی «PixelRefer»؛ فهم ناحیهای دقیق در تصویر و ویدئو
🎯 چارچوب یکپارچهی MLLM که بهجای نگاه کلی به صحنه، روی ناحیههای مشخص تمرکز میکند؛ هم در تصاویر ثابت، هم در ویدئوهای پویا. نتیجه: دقت بالاتر در اشاره به ناحیهها، رفع سوگیری صحنهمحور، و رکوردهای SOTA.
چه میدهد؟
🎥🖼️ فهم ناحیهای دقیق در تصویر/ویدئو (region-level grounding)
🧠 رفع bias مدلهای قبلی که فقط صحنهی کلی را میدیدند
🚀 نتایج SOTA + دموی آنلاین، دیتاست و کد متنباز
لینکها:
Paper: arxiv.org/pdf/2510.23603
Project: circleradon.github.io/PixelRefer
Repo: https://github.com/alibaba-damo-academy/PixelRefer
@rss_ai_ir
#MLLM #Multimodal #VisionLanguage #Grounding #ReferringSegmentation #SOTA #OpenSource
🎯 چارچوب یکپارچهی MLLM که بهجای نگاه کلی به صحنه، روی ناحیههای مشخص تمرکز میکند؛ هم در تصاویر ثابت، هم در ویدئوهای پویا. نتیجه: دقت بالاتر در اشاره به ناحیهها، رفع سوگیری صحنهمحور، و رکوردهای SOTA.
چه میدهد؟
🎥🖼️ فهم ناحیهای دقیق در تصویر/ویدئو (region-level grounding)
🧠 رفع bias مدلهای قبلی که فقط صحنهی کلی را میدیدند
🚀 نتایج SOTA + دموی آنلاین، دیتاست و کد متنباز
لینکها:
Paper: arxiv.org/pdf/2510.23603
Project: circleradon.github.io/PixelRefer
Repo: https://github.com/alibaba-damo-academy/PixelRefer
@rss_ai_ir
#MLLM #Multimodal #VisionLanguage #Grounding #ReferringSegmentation #SOTA #OpenSource
🧠 مدل ThinkMorph — جهش جدید در تفکر چندوجهی (Multimodal Reasoning) 🚀🖼️
پژوهشگران مدلی به نام ThinkMorph معرفی کردهاند که گامی فراتر از مدلهای چندوجهی (VLM) سنتی است —
مدلی که با تصویر و متن همزمان فکر میکند و در طول فرایند استدلال، خود را تصحیح و تکامل میدهد 🤯
---
⚙️ آموزش و نوآوری
✅مدل ThinkMorph بر اساس ۲۴٬۰۰۰ مسیر استدلال درهمتنیده (interleaved reasoning traces) آموزش دیده است — دادههایی که در آن متن و تصویر بهصورت مرحلهبهمرحله همدیگر را توضیح و تکمیل میکنند.
💡 نتیجه؟
♻️مدل در حین پاسخ دادن نه فقط توصیف میکند، بلکه بهصورت چندمرحلهای میاندیشد:
♻️ابتدا تصویر را تحلیل میکند 🧩
♻️سپس توضیح متنی مینویسد ✍️
♻️بعد بر اساس آن توضیح، برداشت تصویری جدید میسازد 🎨
♻️و این چرخه را تکرار میکند تا استدلالش دقیقتر شود.
---
🚀 تواناییهای کلیدی
🔹 رشد چشمگیر در مسائل دارای زمینهی بصری پیچیده
🔹 استدلال مرحلهبهمرحلهی متن–تصویر بهصورت پیشرونده
🔹 تواناییهای تازه: منطق تطبیقی، دستکاری تصویری خلاقانه، و بازبینی خودکار نتایج
---
این یعنی ThinkMorph دیگر صرفاً Visual Language Model نیست، بلکه مکانیسمی برای تفکر ترکیبی بینایی–زبانی است — مدلی که با دیدن یاد میگیرد و با نوشتن، دید خود را اصلاح میکند.
📄 پژوهش کامل در:
🔗 huggingface.co/papers/2510.27492
📡 @rss_ai_ir
#هوش_مصنوعی #ThinkMorph #VLM #MultimodalAI #AI #DeepLearning #VisionLanguage #Reasoning
پژوهشگران مدلی به نام ThinkMorph معرفی کردهاند که گامی فراتر از مدلهای چندوجهی (VLM) سنتی است —
مدلی که با تصویر و متن همزمان فکر میکند و در طول فرایند استدلال، خود را تصحیح و تکامل میدهد 🤯
---
⚙️ آموزش و نوآوری
✅مدل ThinkMorph بر اساس ۲۴٬۰۰۰ مسیر استدلال درهمتنیده (interleaved reasoning traces) آموزش دیده است — دادههایی که در آن متن و تصویر بهصورت مرحلهبهمرحله همدیگر را توضیح و تکمیل میکنند.
💡 نتیجه؟
♻️مدل در حین پاسخ دادن نه فقط توصیف میکند، بلکه بهصورت چندمرحلهای میاندیشد:
♻️ابتدا تصویر را تحلیل میکند 🧩
♻️سپس توضیح متنی مینویسد ✍️
♻️بعد بر اساس آن توضیح، برداشت تصویری جدید میسازد 🎨
♻️و این چرخه را تکرار میکند تا استدلالش دقیقتر شود.
---
🚀 تواناییهای کلیدی
🔹 رشد چشمگیر در مسائل دارای زمینهی بصری پیچیده
🔹 استدلال مرحلهبهمرحلهی متن–تصویر بهصورت پیشرونده
🔹 تواناییهای تازه: منطق تطبیقی، دستکاری تصویری خلاقانه، و بازبینی خودکار نتایج
---
این یعنی ThinkMorph دیگر صرفاً Visual Language Model نیست، بلکه مکانیسمی برای تفکر ترکیبی بینایی–زبانی است — مدلی که با دیدن یاد میگیرد و با نوشتن، دید خود را اصلاح میکند.
📄 پژوهش کامل در:
🔗 huggingface.co/papers/2510.27492
📡 @rss_ai_ir
#هوش_مصنوعی #ThinkMorph #VLM #MultimodalAI #AI #DeepLearning #VisionLanguage #Reasoning
❤1
🧠 بایدو مدل جدید ERNIE-4.5-VL-28B-A3B-Thinking را منتشر کرد
مدلی چندوجهی (Multi-Modal) با ۲۸ میلیارد پارامتر که تنها ۳ میلیارد پارامتر در هر گام فعال میکند، اما عملکردی در حد مدلهای تصویری پیشرفته دارد.
این معماری از نوع A3B است و برای وظایفی طراحی شده که ترکیب تصویر، متن و استدلال چندمرحلهای نیاز دارند.
📊 قابلیتهای کلیدی:
🧩 استدلال بصری: تحلیل دیاگرامها، روابط علّی و منطق چندمرحلهای
📸 حل مسائل STEM از روی عکس: کافیست از مسئله عکس بگیرید تا پاسخ تحلیلی دریافت کنید
🎯 درک دقیق اجزای تصویر: شناسایی دقیق اشیاء و جزئیات با زوم بالا
🔍 تحلیل عمیق تصاویر: تشخیص ریزترین تفاوتها
🧠 فراخوانی ابزارها: مثل Image Search برای جستوجوی تصویری
🎞 درک ویدیو: دنبالکردن وقایع و تغییرات در طول زمان
🔓 لایسنس: Apache 2.0
📦 مدل در Hugging Face:
👉 https://huggingface.co/baidu/ERNIE-4.5-VL-28B-A3B-Thinking
#Baidu #هوش_مصنوعی #AI #ML #چندوجهی #VisionLanguage #LLM #cgevent
مدلی چندوجهی (Multi-Modal) با ۲۸ میلیارد پارامتر که تنها ۳ میلیارد پارامتر در هر گام فعال میکند، اما عملکردی در حد مدلهای تصویری پیشرفته دارد.
این معماری از نوع A3B است و برای وظایفی طراحی شده که ترکیب تصویر، متن و استدلال چندمرحلهای نیاز دارند.
📊 قابلیتهای کلیدی:
🧩 استدلال بصری: تحلیل دیاگرامها، روابط علّی و منطق چندمرحلهای
📸 حل مسائل STEM از روی عکس: کافیست از مسئله عکس بگیرید تا پاسخ تحلیلی دریافت کنید
🎯 درک دقیق اجزای تصویر: شناسایی دقیق اشیاء و جزئیات با زوم بالا
🔍 تحلیل عمیق تصاویر: تشخیص ریزترین تفاوتها
🧠 فراخوانی ابزارها: مثل Image Search برای جستوجوی تصویری
🎞 درک ویدیو: دنبالکردن وقایع و تغییرات در طول زمان
🔓 لایسنس: Apache 2.0
📦 مدل در Hugging Face:
👉 https://huggingface.co/baidu/ERNIE-4.5-VL-28B-A3B-Thinking
#Baidu #هوش_مصنوعی #AI #ML #چندوجهی #VisionLanguage #LLM #cgevent