VIRSUN
7.48K subscribers
1.41K photos
804 videos
5 files
893 links
📥 در کانال @rss_ai_ir هر روز: 🔹 جدیدترین خبرهای AI و فناوری
🗯اولویت ما هوش مصنوعی در صنعت میباشد اما نیم نگاهی به موارد دیگر در این زمینه داریم

ارتباط با ادمین 1:
@Ad1_rss_ai_ir

آدرس گروه
https://t.iss.one/rss_ai_ir_group
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
🦄 مدل چندوجهی «PixelRefer»؛ فهم ناحیه‌ای دقیق در تصویر و ویدئو

🎯 چارچوب یکپارچه‌ی MLLM که به‌جای نگاه کلی به صحنه، روی ناحیه‌های مشخص تمرکز می‌کند؛ هم در تصاویر ثابت، هم در ویدئوهای پویا. نتیجه: دقت بالاتر در اشاره به ناحیه‌ها، رفع سوگیری صحنه‌محور، و رکوردهای SOTA.

چه می‌دهد؟

🎥🖼️ فهم ناحیه‌ای دقیق در تصویر/ویدئو (region-level grounding)

🧠 رفع bias مدل‌های قبلی که فقط صحنه‌ی کلی را می‌دیدند

🚀 نتایج SOTA + دموی آنلاین، دیتاست و کد متن‌باز


لینک‌ها:

Paper: arxiv.org/pdf/2510.23603
Project: circleradon.github.io/PixelRefer
Repo: https://github.com/alibaba-damo-academy/PixelRefer

@rss_ai_ir
#MLLM #Multimodal #VisionLanguage #Grounding #ReferringSegmentation #SOTA #OpenSource