🧠✨ معرفی پژوهش جدید: HumanSense
📄 محققان (Yi Yuan, Tianqi Li, Yabing Wang, Ruobing Zheng, Zheng Qin) در مقالهای تازه، بنچمارکی به نام HumanSense معرفی کردن که توانایی مدلهای بزرگ چندوجهی (MLLMs) رو در *درک مقاصد پیچیده انسانی* و تولید پاسخهای همدلانه و آگاه به زمینه بررسی میکنه.
🔹 ویژگیها:
* شامل ۱۵ تسک در ۴ لایه مختلف برای ارزیابی دقیقتر
* بهرهگیری از یادگیری تقویتی چندمرحلهای و همهجانبه (omni-modal RL) روی ورودیهای تصویری، صوتی و متنی
* تمرکز روی *تعامل انسانمحور* و شکاف موجود در فریمورکهای ارزیابی ریزدانه
📊 نتایج:
* عملکرد انسان در این بنچمارک: ۸۷.۵٪ دقت
* بهترین MLLMها همچنان فاصله زیادی با این خط مبنا دارن
* روش نویسندگان دقت در تسک Psychological Chat رو از ۰.۳۹۹ → ۰.۶۱۹ ارتقا داده
💡 پیام اصلی برای متخصصان:
بزرگترین گلوگاه MLLMها در تعامل انسانمحور، *استدلال سطحبالا*ست. با استفاده از ورودیهای چندوجهی و تمرکز روی آموزش مبتنی بر استدلال یا مهندسی پرامپت، میشه بهبود قابلتوجهی ایجاد کرد.
📚 مطالعه بیشتر:
🔗 [arXiv](https://arxiv.org/abs/2508.10576)
🔗 [HuggingFace](https://huggingface.co/papers/2508.10576)
#هوش_مصنوعی #MLLM #بنچمارک #HumanSense
@rss_ai_ir
📄 محققان (Yi Yuan, Tianqi Li, Yabing Wang, Ruobing Zheng, Zheng Qin) در مقالهای تازه، بنچمارکی به نام HumanSense معرفی کردن که توانایی مدلهای بزرگ چندوجهی (MLLMs) رو در *درک مقاصد پیچیده انسانی* و تولید پاسخهای همدلانه و آگاه به زمینه بررسی میکنه.
🔹 ویژگیها:
* شامل ۱۵ تسک در ۴ لایه مختلف برای ارزیابی دقیقتر
* بهرهگیری از یادگیری تقویتی چندمرحلهای و همهجانبه (omni-modal RL) روی ورودیهای تصویری، صوتی و متنی
* تمرکز روی *تعامل انسانمحور* و شکاف موجود در فریمورکهای ارزیابی ریزدانه
📊 نتایج:
* عملکرد انسان در این بنچمارک: ۸۷.۵٪ دقت
* بهترین MLLMها همچنان فاصله زیادی با این خط مبنا دارن
* روش نویسندگان دقت در تسک Psychological Chat رو از ۰.۳۹۹ → ۰.۶۱۹ ارتقا داده
💡 پیام اصلی برای متخصصان:
بزرگترین گلوگاه MLLMها در تعامل انسانمحور، *استدلال سطحبالا*ست. با استفاده از ورودیهای چندوجهی و تمرکز روی آموزش مبتنی بر استدلال یا مهندسی پرامپت، میشه بهبود قابلتوجهی ایجاد کرد.
📚 مطالعه بیشتر:
🔗 [arXiv](https://arxiv.org/abs/2508.10576)
🔗 [HuggingFace](https://huggingface.co/papers/2508.10576)
#هوش_مصنوعی #MLLM #بنچمارک #HumanSense
@rss_ai_ir
❤4👍3😁2🎉2🔥1
Media is too big
VIEW IN TELEGRAM
🌟 مدل MiniCPM-V 4.5؛ رقیب جمعوجور غولهای چندمودالی
پروژه OpenBMB نسخه جدید MiniCPM-V 4.5 را معرفی کرد؛ مدلی چندمودالی بر پایه Qwen3-8B و SigLIP2-400M که توانایی درک تصویر، توالی تصاویر و ویدئو را دارد و حتی روی موبایل هم در بیش از ۳۰ زبان اجرا میشود.
این پروژه زیرمجموعه غیرتجاری شرکت ModelBest (زیر نظر دانشگاه Tsinghua چین) است. سرمایهگذاران ModelBest شامل هواوی (Habo)، Primavera Capital و صندوق دولتی Shenzhen Guozhong هستند.
---
🔑 ویژگی کلیدی: پردازش کارآمد ویدئو
✔️ استفاده از 3D-Resampler باعث فشردهسازی ۹۶ برابری ویدئو میشود: هر ۶ فریم در رزولوشن 448x448 فقط به ۶۴ توکن تبدیل میشوند (در حالی که اکثر MLLMها به 1536 توکن نیاز دارند).
✔️ این قابلیت امکان پردازش ویدئو با سرعت ۱۰ فریم بر ثانیه و کلیپهای طولانی را بدون افزایش هزینه محاسباتی فراهم میکند.
✔️ نتایج برتر روی دیتاستهای Video-MME، LVBench و MLVU تأییدکننده این کارایی است.
---
🖼 تواناییهای تصویری
با معماری LLaVA-UHD، مدل میتواند با تصاویر تا وضوح 1.8 مگاپیکسل و نسبت تصویر آزاد کار کند، آن هم با مصرف ۴ برابر کمتر توکنهای بصری.
---
⚡ انعطاف در استدلال
مدل دو حالت دارد:
Fast reasoning برای کارهای روزمره
Deep reasoning برای سناریوهای پیچیده
و کاربر میتواند بسته به نیاز بین آنها جابهجا شود.
---
📊 عملکرد
با داشتن ۸ میلیارد پارامتر، این مدل در بنچمارک OpenCompass امتیاز 77.0 کسب کرده؛ بالاتر از GPT-4o-latest و Gemini-2.0 Pro و حتی بهتر از مدل متنباز Qwen2.5-VL با ۷۲ میلیارد پارامتر. همچنین در OmniDocBench رکورد تازهای به نام خود ثبت کرده است.
---
💻 بدون مشکل در استقرار
♻️نسخه CPU با llama.cpp و ollama
♻️نسخههای کوانتیزه در فرمتهای int4، GGUF و AWQ
♻️پشتیبانی از SGLang و vLLM
♻️قابلیت Fine-tuning با Transformers و LLaMA-Factory
♻️رابط کاربری وب و اپ بهینهشده برای iOS
---
📌 لینکها
🟡 [Model]
🟡 [Demo]
🟡 [Community Discord]
🖥 [GitHub]
#هوش_مصنوعی #مدل_چندمودالی #MiniCPM #OpenBMB #MLLM #AI_industrial_news
@rss_ai_ir
پروژه OpenBMB نسخه جدید MiniCPM-V 4.5 را معرفی کرد؛ مدلی چندمودالی بر پایه Qwen3-8B و SigLIP2-400M که توانایی درک تصویر، توالی تصاویر و ویدئو را دارد و حتی روی موبایل هم در بیش از ۳۰ زبان اجرا میشود.
این پروژه زیرمجموعه غیرتجاری شرکت ModelBest (زیر نظر دانشگاه Tsinghua چین) است. سرمایهگذاران ModelBest شامل هواوی (Habo)، Primavera Capital و صندوق دولتی Shenzhen Guozhong هستند.
---
🔑 ویژگی کلیدی: پردازش کارآمد ویدئو
✔️ استفاده از 3D-Resampler باعث فشردهسازی ۹۶ برابری ویدئو میشود: هر ۶ فریم در رزولوشن 448x448 فقط به ۶۴ توکن تبدیل میشوند (در حالی که اکثر MLLMها به 1536 توکن نیاز دارند).
✔️ این قابلیت امکان پردازش ویدئو با سرعت ۱۰ فریم بر ثانیه و کلیپهای طولانی را بدون افزایش هزینه محاسباتی فراهم میکند.
✔️ نتایج برتر روی دیتاستهای Video-MME، LVBench و MLVU تأییدکننده این کارایی است.
---
🖼 تواناییهای تصویری
با معماری LLaVA-UHD، مدل میتواند با تصاویر تا وضوح 1.8 مگاپیکسل و نسبت تصویر آزاد کار کند، آن هم با مصرف ۴ برابر کمتر توکنهای بصری.
---
⚡ انعطاف در استدلال
مدل دو حالت دارد:
Fast reasoning برای کارهای روزمره
Deep reasoning برای سناریوهای پیچیده
و کاربر میتواند بسته به نیاز بین آنها جابهجا شود.
---
📊 عملکرد
با داشتن ۸ میلیارد پارامتر، این مدل در بنچمارک OpenCompass امتیاز 77.0 کسب کرده؛ بالاتر از GPT-4o-latest و Gemini-2.0 Pro و حتی بهتر از مدل متنباز Qwen2.5-VL با ۷۲ میلیارد پارامتر. همچنین در OmniDocBench رکورد تازهای به نام خود ثبت کرده است.
---
💻 بدون مشکل در استقرار
♻️نسخه CPU با llama.cpp و ollama
♻️نسخههای کوانتیزه در فرمتهای int4، GGUF و AWQ
♻️پشتیبانی از SGLang و vLLM
♻️قابلیت Fine-tuning با Transformers و LLaMA-Factory
♻️رابط کاربری وب و اپ بهینهشده برای iOS
---
📌 لینکها
🟡 [Model]
🟡 [Demo]
🟡 [Community Discord]
🖥 [GitHub]
#هوش_مصنوعی #مدل_چندمودالی #MiniCPM #OpenBMB #MLLM #AI_industrial_news
@rss_ai_ir
👍3👏1
✨ جدیدترین نسخه Reve واقعاً جذاب شده!
⛔️این بار داخل چت یک MLLM (مدل چندوجهی زبان + تصویر) فعال است. وقتی از او خواستم «یک پاندا را آبی کن»، نه تنها ۴ نسخه متفاوت تولید کرد، بلکه در خود چت توضیح داد دقیقاً چه تغییراتی داده:
✅در یکی فقط خز پاندا آبی شد 🐼🔵
✅در دیگری حتی رنگ چشمها را هم تغییر داد 👀
✅در سوم پا را فراتر گذاشت و کل چمن را هم آبی کرد 🌱🔵
نتیجه؟
🔹 نسخهی اول خیلی نزدیک به تصویر اصلی بود.
🔹 نسخهی دوم کمی فرم صورت را تغییر داد.
🔹 نسخهی سوم یک فضای کاملاً سوررئال ساخت!
✳️این یعنی Reve نه تنها تصویرسازی میکند، بلکه مثل یک طراح توضیح هم میدهد که چرا و چطور این تغییرات را اعمال کرده — ترکیبی از دقت و خلاقیت.
@rss_ai_ir
#هوش_مصنوعی #MLLM #تصویرسازی #خلاقیت #Reve
⛔️این بار داخل چت یک MLLM (مدل چندوجهی زبان + تصویر) فعال است. وقتی از او خواستم «یک پاندا را آبی کن»، نه تنها ۴ نسخه متفاوت تولید کرد، بلکه در خود چت توضیح داد دقیقاً چه تغییراتی داده:
✅در یکی فقط خز پاندا آبی شد 🐼🔵
✅در دیگری حتی رنگ چشمها را هم تغییر داد 👀
✅در سوم پا را فراتر گذاشت و کل چمن را هم آبی کرد 🌱🔵
نتیجه؟
🔹 نسخهی اول خیلی نزدیک به تصویر اصلی بود.
🔹 نسخهی دوم کمی فرم صورت را تغییر داد.
🔹 نسخهی سوم یک فضای کاملاً سوررئال ساخت!
✳️این یعنی Reve نه تنها تصویرسازی میکند، بلکه مثل یک طراح توضیح هم میدهد که چرا و چطور این تغییرات را اعمال کرده — ترکیبی از دقت و خلاقیت.
@rss_ai_ir
#هوش_مصنوعی #MLLM #تصویرسازی #خلاقیت #Reve
🔥46😁43👏42🎉40❤38🥰37👍33
This media is not supported in your browser
VIEW IN TELEGRAM
🫧 تشخیص هرچیز با مدل چندوجهی Rex-Omni 🫧
مدل Rex-Omni با ۳ میلیارد پارامتر، یک مدل چندوجهی (Multimodal) جدید است که طیف گستردهای از وظایف بینایی را در یک چارچوب واحد ادغام میکند:
🔹 تشخیص اشیا (Object Detection)
🔹 تشخیص متن (OCR)
🔹 همچنین Pointing و Key-pointing
🔹 و Visual Prompting
همهی این وظایف در قالب یک چارچوب واحد مبتنی بر پیشبینی نقطه بعدی (Next-Point Prediction) انجام میشوند — رویکردی که باعث شده مدل نتایج چشمگیری در دقت و سرعت به دست آورد ⚡️
📘 ویژگیها:
پارامترها: ۳B
یکپارچهسازی تمام وظایف ادراکی در یک معماری ساده
مجوز: IDEA License 1.0 💙
🔗 لینکها:
📄 Review
📘 Paper
🌐 Project Page
💻 GitHub Repo
@rss_ai_ir
#AI #RexOmni #Multimodal #MLLM #ComputerVision #OCR #Detection #هوش_مصنوعی
مدل Rex-Omni با ۳ میلیارد پارامتر، یک مدل چندوجهی (Multimodal) جدید است که طیف گستردهای از وظایف بینایی را در یک چارچوب واحد ادغام میکند:
🔹 تشخیص اشیا (Object Detection)
🔹 تشخیص متن (OCR)
🔹 همچنین Pointing و Key-pointing
🔹 و Visual Prompting
همهی این وظایف در قالب یک چارچوب واحد مبتنی بر پیشبینی نقطه بعدی (Next-Point Prediction) انجام میشوند — رویکردی که باعث شده مدل نتایج چشمگیری در دقت و سرعت به دست آورد ⚡️
📘 ویژگیها:
پارامترها: ۳B
یکپارچهسازی تمام وظایف ادراکی در یک معماری ساده
مجوز: IDEA License 1.0 💙
🔗 لینکها:
📄 Review
📘 Paper
🌐 Project Page
💻 GitHub Repo
@rss_ai_ir
#AI #RexOmni #Multimodal #MLLM #ComputerVision #OCR #Detection #هوش_مصنوعی
This media is not supported in your browser
VIEW IN TELEGRAM
🦄 مدل چندوجهی «PixelRefer»؛ فهم ناحیهای دقیق در تصویر و ویدئو
🎯 چارچوب یکپارچهی MLLM که بهجای نگاه کلی به صحنه، روی ناحیههای مشخص تمرکز میکند؛ هم در تصاویر ثابت، هم در ویدئوهای پویا. نتیجه: دقت بالاتر در اشاره به ناحیهها، رفع سوگیری صحنهمحور، و رکوردهای SOTA.
چه میدهد؟
🎥🖼️ فهم ناحیهای دقیق در تصویر/ویدئو (region-level grounding)
🧠 رفع bias مدلهای قبلی که فقط صحنهی کلی را میدیدند
🚀 نتایج SOTA + دموی آنلاین، دیتاست و کد متنباز
لینکها:
Paper: arxiv.org/pdf/2510.23603
Project: circleradon.github.io/PixelRefer
Repo: https://github.com/alibaba-damo-academy/PixelRefer
@rss_ai_ir
#MLLM #Multimodal #VisionLanguage #Grounding #ReferringSegmentation #SOTA #OpenSource
🎯 چارچوب یکپارچهی MLLM که بهجای نگاه کلی به صحنه، روی ناحیههای مشخص تمرکز میکند؛ هم در تصاویر ثابت، هم در ویدئوهای پویا. نتیجه: دقت بالاتر در اشاره به ناحیهها، رفع سوگیری صحنهمحور، و رکوردهای SOTA.
چه میدهد؟
🎥🖼️ فهم ناحیهای دقیق در تصویر/ویدئو (region-level grounding)
🧠 رفع bias مدلهای قبلی که فقط صحنهی کلی را میدیدند
🚀 نتایج SOTA + دموی آنلاین، دیتاست و کد متنباز
لینکها:
Paper: arxiv.org/pdf/2510.23603
Project: circleradon.github.io/PixelRefer
Repo: https://github.com/alibaba-damo-academy/PixelRefer
@rss_ai_ir
#MLLM #Multimodal #VisionLanguage #Grounding #ReferringSegmentation #SOTA #OpenSource