VIRSUN
6.14K subscribers
1.03K photos
588 videos
5 files
657 links
📥 در کانال @rss_ai_ir هر روز: 🔹 جدیدترین خبرهای AI و فناوری
🗯اولویت ما هوش مصنوعی در صنعت میباشد اما نیم نگاهی به موارد دیگر در این زمینه داریم

ارتباط با ادمین 1:
@Ad1_rss_ai_ir

آدرس گروه
https://t.iss.one/rss_ai_ir_group
Download Telegram
🧠 معرفی پژوهش جدید: HumanSense

📄 محققان (Yi Yuan, Tianqi Li, Yabing Wang, Ruobing Zheng, Zheng Qin) در مقاله‌ای تازه، بنچمارکی به نام HumanSense معرفی کردن که توانایی مدل‌های بزرگ چندوجهی (MLLMs) رو در *درک مقاصد پیچیده انسانی* و تولید پاسخ‌های همدلانه و آگاه به زمینه بررسی می‌کنه.

🔹 ویژگی‌ها:

* شامل ۱۵ تسک در ۴ لایه مختلف برای ارزیابی دقیق‌تر
* بهره‌گیری از یادگیری تقویتی چندمرحله‌ای و همه‌جانبه (omni-modal RL) روی ورودی‌های تصویری، صوتی و متنی
* تمرکز روی *تعامل انسان‌محور* و شکاف موجود در فریم‌ورک‌های ارزیابی ریزدانه

📊 نتایج:

* عملکرد انسان در این بنچمارک: ۸۷.۵٪ دقت
* بهترین MLLMها همچنان فاصله زیادی با این خط مبنا دارن
* روش نویسندگان دقت در تسک Psychological Chat رو از ۰.۳۹۹ → ۰.۶۱۹ ارتقا داده

💡 پیام اصلی برای متخصصان:
بزرگ‌ترین گلوگاه MLLMها در تعامل انسان‌محور، *استدلال سطح‌بالا*ست. با استفاده از ورودی‌های چندوجهی و تمرکز روی آموزش مبتنی بر استدلال یا مهندسی پرامپت، میشه بهبود قابل‌توجهی ایجاد کرد.

📚 مطالعه بیشتر:
🔗 [arXiv](https://arxiv.org/abs/2508.10576)
🔗 [HuggingFace](https://huggingface.co/papers/2508.10576)

#هوش_مصنوعی #MLLM #بنچمارک #HumanSense
@rss_ai_ir
4👍3😁2🎉2🔥1
Media is too big
VIEW IN TELEGRAM
🌟 مدل MiniCPM-V 4.5؛ رقیب جمع‌وجور غول‌های چندمودالی

پروژه OpenBMB نسخه جدید MiniCPM-V 4.5 را معرفی کرد؛ مدلی چندمودالی بر پایه Qwen3-8B و SigLIP2-400M که توانایی درک تصویر، توالی تصاویر و ویدئو را دارد و حتی روی موبایل هم در بیش از ۳۰ زبان اجرا می‌شود.

این پروژه زیرمجموعه غیرتجاری شرکت ModelBest (زیر نظر دانشگاه Tsinghua چین) است. سرمایه‌گذاران ModelBest شامل هواوی (Habo)، Primavera Capital و صندوق دولتی Shenzhen Guozhong هستند.

---

🔑 ویژگی کلیدی: پردازش کارآمد ویدئو
✔️ استفاده از 3D-Resampler باعث فشرده‌سازی ۹۶ برابری ویدئو می‌شود: هر ۶ فریم در رزولوشن 448x448 فقط به ۶۴ توکن تبدیل می‌شوند (در حالی که اکثر MLLMها به 1536 توکن نیاز دارند).
✔️ این قابلیت امکان پردازش ویدئو با سرعت ۱۰ فریم بر ثانیه و کلیپ‌های طولانی را بدون افزایش هزینه محاسباتی فراهم می‌کند.
✔️ نتایج برتر روی دیتاست‌های Video-MME، LVBench و MLVU تأییدکننده این کارایی است.

---

🖼 توانایی‌های تصویری
با معماری LLaVA-UHD، مدل می‌تواند با تصاویر تا وضوح 1.8 مگاپیکسل و نسبت تصویر آزاد کار کند، آن هم با مصرف ۴ برابر کمتر توکن‌های بصری.

---

انعطاف در استدلال
مدل دو حالت دارد:

Fast reasoning برای کارهای روزمره

Deep reasoning برای سناریوهای پیچیده


و کاربر می‌تواند بسته به نیاز بین آن‌ها جابه‌جا شود.
---

📊 عملکرد
با داشتن ۸ میلیارد پارامتر، این مدل در بنچمارک OpenCompass امتیاز 77.0 کسب کرده؛ بالاتر از GPT-4o-latest و Gemini-2.0 Pro و حتی بهتر از مدل متن‌باز Qwen2.5-VL با ۷۲ میلیارد پارامتر. همچنین در OmniDocBench رکورد تازه‌ای به نام خود ثبت کرده است.
---

💻 بدون مشکل در استقرار

♻️نسخه CPU با llama.cpp و ollama
♻️نسخه‌های کوانتیزه در فرمت‌های int4، GGUF و AWQ
♻️پشتیبانی از SGLang و vLLM
♻️قابلیت Fine-tuning با Transformers و LLaMA-Factory
♻️رابط کاربری وب و اپ بهینه‌شده برای iOS
---

📌 لینک‌ها
🟡 [Model]
🟡 [Demo]
🟡 [Community Discord]
🖥 [GitHub]

#هوش_مصنوعی #مدل_چندمودالی #MiniCPM #OpenBMB #MLLM #AI_industrial_news

@rss_ai_ir
👍3👏1
جدیدترین نسخه Reve واقعاً جذاب شده!

⛔️این بار داخل چت یک MLLM (مدل چندوجهی زبان + تصویر) فعال است. وقتی از او خواستم «یک پاندا را آبی کن»، نه تنها ۴ نسخه متفاوت تولید کرد، بلکه در خود چت توضیح داد دقیقاً چه تغییراتی داده:

در یکی فقط خز پاندا آبی شد 🐼🔵
در دیگری حتی رنگ چشم‌ها را هم تغییر داد 👀
در سوم پا را فراتر گذاشت و کل چمن را هم آبی کرد 🌱🔵


نتیجه؟
🔹 نسخه‌ی اول خیلی نزدیک به تصویر اصلی بود.
🔹 نسخه‌ی دوم کمی فرم صورت را تغییر داد.
🔹 نسخه‌ی سوم یک فضای کاملاً سوررئال ساخت!

✳️این یعنی Reve نه تنها تصویرسازی می‌کند، بلکه مثل یک طراح توضیح هم می‌دهد که چرا و چطور این تغییرات را اعمال کرده — ترکیبی از دقت و خلاقیت.
@rss_ai_ir

#هوش_مصنوعی #MLLM #تصویرسازی #خلاقیت #Reve
🔥46😁43👏42🎉4038🥰37👍33
This media is not supported in your browser
VIEW IN TELEGRAM
🫧 تشخیص هرچیز با مدل چندوجهی Rex-Omni 🫧

مدل Rex-Omni با ۳ میلیارد پارامتر، یک مدل چندوجهی (Multimodal) جدید است که طیف گسترده‌ای از وظایف بینایی را در یک چارچوب واحد ادغام می‌کند:

🔹 تشخیص اشیا (Object Detection)
🔹 تشخیص متن (OCR)
🔹 همچنین Pointing و Key-pointing
🔹 و Visual Prompting

همه‌ی این وظایف در قالب یک چارچوب واحد مبتنی بر پیش‌بینی نقطه بعدی (Next-Point Prediction) انجام می‌شوند — رویکردی که باعث شده مدل نتایج چشم‌گیری در دقت و سرعت به دست آورد ⚡️

📘 ویژگی‌ها:

پارامترها: ۳B

یکپارچه‌سازی تمام وظایف ادراکی در یک معماری ساده

مجوز: IDEA License 1.0 💙


🔗 لینک‌ها:
📄 Review
📘 Paper
🌐 Project Page
💻 GitHub Repo

@rss_ai_ir

#AI #RexOmni #Multimodal #MLLM #ComputerVision #OCR #Detection #هوش_مصنوعی
This media is not supported in your browser
VIEW IN TELEGRAM
🦄 مدل چندوجهی «PixelRefer»؛ فهم ناحیه‌ای دقیق در تصویر و ویدئو

🎯 چارچوب یکپارچه‌ی MLLM که به‌جای نگاه کلی به صحنه، روی ناحیه‌های مشخص تمرکز می‌کند؛ هم در تصاویر ثابت، هم در ویدئوهای پویا. نتیجه: دقت بالاتر در اشاره به ناحیه‌ها، رفع سوگیری صحنه‌محور، و رکوردهای SOTA.

چه می‌دهد؟

🎥🖼️ فهم ناحیه‌ای دقیق در تصویر/ویدئو (region-level grounding)

🧠 رفع bias مدل‌های قبلی که فقط صحنه‌ی کلی را می‌دیدند

🚀 نتایج SOTA + دموی آنلاین، دیتاست و کد متن‌باز


لینک‌ها:

Paper: arxiv.org/pdf/2510.23603
Project: circleradon.github.io/PixelRefer
Repo: https://github.com/alibaba-damo-academy/PixelRefer

@rss_ai_ir
#MLLM #Multimodal #VisionLanguage #Grounding #ReferringSegmentation #SOTA #OpenSource