🚀مدل MolmoAct: نسل تازه مدلهای بینایی-زبان-اکشن برای رباتیک
🧩 پژوهشگران در مقالهای جدید MolmoAct را معرفی کردهاند؛ یک مدل متنباز VLA (Vision-Language-Action) که برای دستکاری رباتیک طراحی شده و با استدلال فضایی چندمرحلهای کار میکند.
🔹 ایده کلیدی
برخلاف روشهای مرسوم end-to-end که از تصویر مستقیم به اکشن میروند، MolmoAct یک لایه میانی استدلال فضایی اضافه میکند تا:
♻️تعمیمپذیری بهتر
♻️شفافیت در تصمیمگیری
♻️امکان تعامل و اصلاح توسط کاربر
🔹 مراحل تولید خودبازگشتی (ARM)
مدل با ورودی تصویری + دستور زبانی سه نوع توکن تولید میکند:
1. توکنهای عمق → نمایش هندسه سهبعدی صحنه
2. توکنهای استدلال تصویری → مسیر دوبعدی (Polyline) برنامهریزیشده برای ابزار انتهایی
3. توکنهای اکشن سطح پایین
🔹 نتایج برجسته
📈 86.6% میانگین موفقیت در دیتاست LIBERO (بهترین عملکرد نسبت به همه مدلهای پایه)
🦾 در وظایف واقعی، تا 22.7% بهبود پیشرفت کارها نسبت به خط پایه π-FAST در کارهای دو-دستی
🔹 اهمیت برای صنعت
ساختار شفاف و قابلویرایش MolmoAct این امکان را میدهد که کاربران مسیر حرکت ربات را ویرایش کنند (Editable Trajectory Steering) و همین قابلیت آن را برای رباتهای صنعتی و همکاری انسان-ماشین بسیار ارزشمند میکند.
📚 منبع: arXiv و HuggingFace
🌐 @rss_ai_ir
#هوش_مصنوعی #رباتیک #VisionLanguageModels #AI_industrial
🧩 پژوهشگران در مقالهای جدید MolmoAct را معرفی کردهاند؛ یک مدل متنباز VLA (Vision-Language-Action) که برای دستکاری رباتیک طراحی شده و با استدلال فضایی چندمرحلهای کار میکند.
🔹 ایده کلیدی
برخلاف روشهای مرسوم end-to-end که از تصویر مستقیم به اکشن میروند، MolmoAct یک لایه میانی استدلال فضایی اضافه میکند تا:
♻️تعمیمپذیری بهتر
♻️شفافیت در تصمیمگیری
♻️امکان تعامل و اصلاح توسط کاربر
🔹 مراحل تولید خودبازگشتی (ARM)
مدل با ورودی تصویری + دستور زبانی سه نوع توکن تولید میکند:
1. توکنهای عمق → نمایش هندسه سهبعدی صحنه
2. توکنهای استدلال تصویری → مسیر دوبعدی (Polyline) برنامهریزیشده برای ابزار انتهایی
3. توکنهای اکشن سطح پایین
🔹 نتایج برجسته
📈 86.6% میانگین موفقیت در دیتاست LIBERO (بهترین عملکرد نسبت به همه مدلهای پایه)
🦾 در وظایف واقعی، تا 22.7% بهبود پیشرفت کارها نسبت به خط پایه π-FAST در کارهای دو-دستی
🔹 اهمیت برای صنعت
ساختار شفاف و قابلویرایش MolmoAct این امکان را میدهد که کاربران مسیر حرکت ربات را ویرایش کنند (Editable Trajectory Steering) و همین قابلیت آن را برای رباتهای صنعتی و همکاری انسان-ماشین بسیار ارزشمند میکند.
📚 منبع: arXiv و HuggingFace
🌐 @rss_ai_ir
#هوش_مصنوعی #رباتیک #VisionLanguageModels #AI_industrial
😁9🔥8❤6🎉6👍5
✨ مدل CauSight؛ مدل نوینی که علّیت را در تصویر کشف میکند 🧠📸
مدل CauSight نسل جدیدی از VLMهاست که میتواند رابطه علت و معلول را مستقیماً از داخل تصاویر استخراج کند.
این مدل بر پایه دیتاست VCG-32K و رویکردی جدید به نام Tree-of-Causal-Thought ساخته شده و توانسته عملکردی سهبرابر بهتر از GPT-4.1 در وظایف کشف علّیت بصری ثبت کند.
🔍 قابلیتها
استخراج روابط علّی بین اشیاء و رویدادها
استنتاج دلیل رخدادها، نه فقط توصیف تصویر
پشتیبانی کامل از وظایف visual causal reasoning
📄 لینکها:
• arXiv:
https://arxiv.org/abs/2512.01827
• PDF:
https://arxiv.org/pdf/2512.01827
• GitHub:
https://github.com/OpenCausaLab/CauSight
• مدل:
https://huggingface.co/OpenCausaLab/CauSight
• دیتاست:
https://huggingface.co/datasets/OpenCausaLab/VCG-32K
@rss_ai_ir
#CausalInference #VisualCausalDiscovery #AI #DeepLearning #VisionLanguageModels
مدل CauSight نسل جدیدی از VLMهاست که میتواند رابطه علت و معلول را مستقیماً از داخل تصاویر استخراج کند.
این مدل بر پایه دیتاست VCG-32K و رویکردی جدید به نام Tree-of-Causal-Thought ساخته شده و توانسته عملکردی سهبرابر بهتر از GPT-4.1 در وظایف کشف علّیت بصری ثبت کند.
🔍 قابلیتها
استخراج روابط علّی بین اشیاء و رویدادها
استنتاج دلیل رخدادها، نه فقط توصیف تصویر
پشتیبانی کامل از وظایف visual causal reasoning
📄 لینکها:
• arXiv:
https://arxiv.org/abs/2512.01827
• PDF:
https://arxiv.org/pdf/2512.01827
• GitHub:
https://github.com/OpenCausaLab/CauSight
• مدل:
https://huggingface.co/OpenCausaLab/CauSight
• دیتاست:
https://huggingface.co/datasets/OpenCausaLab/VCG-32K
@rss_ai_ir
#CausalInference #VisualCausalDiscovery #AI #DeepLearning #VisionLanguageModels