VIRSUN

🚀مدل MolmoAct: نسل تازه مدل‌های بینایی-زبان-اکشن برای رباتیک

🧩 پژوهشگران در مقاله‌ای جدید MolmoAct را معرفی کرده‌اند؛ یک مدل متن‌باز VLA (Vision-Language-Action) که برای دستکاری رباتیک طراحی شده و با استدلال فضایی چندمرحله‌ای کار می‌کند.

🔹 ایده کلیدی
برخلاف روش‌های مرسوم end-to-end که از تصویر مستقیم به اکشن می‌روند، MolmoAct یک لایه میانی استدلال فضایی اضافه می‌کند تا:

♻️تعمیم‌پذیری بهتر

♻️شفافیت در تصمیم‌گیری

♻️امکان تعامل و اصلاح توسط کاربر

🔹 مراحل تولید خودبازگشتی (ARM)
مدل با ورودی تصویری + دستور زبانی سه نوع توکن تولید می‌کند:

1. توکن‌های عمق → نمایش هندسه سه‌بعدی صحنه

2. توکن‌های استدلال تصویری → مسیر دوبعدی (Polyline) برنامه‌ریزی‌شده برای ابزار انتهایی

3. توکن‌های اکشن سطح پایین

🔹 نتایج برجسته

📈 86.6% میانگین موفقیت در دیتاست LIBERO (بهترین عملکرد نسبت به همه مدل‌های پایه)

🦾 در وظایف واقعی، تا 22.7% بهبود پیشرفت کارها نسبت به خط پایه π-FAST در کارهای دو-دستی

🔹 اهمیت برای صنعت
ساختار شفاف و قابل‌ویرایش MolmoAct این امکان را می‌دهد که کاربران مسیر حرکت ربات را ویرایش کنند (Editable Trajectory Steering) و همین قابلیت آن را برای ربات‌های صنعتی و همکاری انسان-ماشین بسیار ارزشمند می‌کند.

📚 منبع: arXiv و HuggingFace

🌐 @rss_ai_ir
#هوش_مصنوعی #رباتیک #VisionLanguageModels #AI_industrial

😁9🔥8❤6🎉6👍5

1.43K views18:07

VIRSUN

✨ مدل CauSight؛ مدل نوینی که علّیت را در تصویر کشف می‌کند 🧠📸

مدل CauSight نسل جدیدی از VLMهاست که می‌تواند رابطه علت و معلول را مستقیماً از داخل تصاویر استخراج کند.
این مدل بر پایه دیتاست VCG-32K و رویکردی جدید به نام Tree-of-Causal-Thought ساخته شده و توانسته عملکردی سه‌برابر بهتر از GPT-4.1 در وظایف کشف علّیت بصری ثبت کند.

🔍 قابلیت‌ها

استخراج روابط علّی بین اشیاء و رویدادها

استنتاج دلیل رخدادها، نه فقط توصیف تصویر

پشتیبانی کامل از وظایف visual causal reasoning

📄 لینک‌ها:
• arXiv:
https://arxiv.org/abs/2512.01827
• PDF:
https://arxiv.org/pdf/2512.01827
• GitHub:
https://github.com/OpenCausaLab/CauSight
• مدل:
https://huggingface.co/OpenCausaLab/CauSight
• دیتاست:
https://huggingface.co/datasets/OpenCausaLab/VCG-32K

@rss_ai_ir

#CausalInference #VisualCausalDiscovery #AI #DeepLearning #VisionLanguageModels

293 views04:04

About

Blog

Apps

Platform