🔧 هاتپیپر هوش مصنوعی در رباتیک | ۲۰۲۵
📌 مدل Gemini Robotics: ورود رسمی هوش مصنوعی به دنیای فیزیکی
گوگل دیپمایند در مقالهای با عنوان Gemini Robotics مدل جدیدی را معرفی کرده که توانایی ترکیب بینایی، زبان و حرکت (Vision-Language-Action) را برای کنترل بازوهای ربات در محیطهای واقعی دارد — بدون نیاز به آموزش سختافزاری خاص!
📌 ویژگیهای کلیدی:
🔹 مدل پایه گرفتهشده از Gemini 2.0
🔹 توانایی کنترل ربات در محیط واقعی با ورودی زبان طبیعی
🔹 تعمیم بالا برای سختافزارهای مختلف (Franka، Aloha2، Apptronik)
🔹 درک فضایی-زمانی، پیشبینی مسیر، گرفتن اشیا
📍 چطور کار میکنه؟
با فقط چند صد مثال، مدل به ربات جدید منتقل میشه و میتونه کارهایی مثل تا کردن اوریگامی یا برداشتن اشیا رو انجام بده — انگار ربات "میفهمه" کجا هست و باید چه کار کنه.
🧠 این مقاله چرا انقلابیست؟
برای اولینبار اتصال عمیق NLP و حرکت فیزیکی ایجاد شده. رباتها حالا میتونن مثل انسان فکر کنن، حرف بزنن و دست به عمل بزنن — فقط با یک مدل!
🌐 لینک مقاله:
🔗 arxiv.org/abs/2503.20020
📖 گزارش کامل:
🔗 deepmind.google
📰 مقاله Wired:
🔗 wired.com
📡 با ما همراه باش تو @rss_ai_ir
#رباتیک #هوش_مصنوعی #Gemini #DeepMind #AI #EmbodiedAI #VLA #روبات #هات_پیپر
📌 مدل Gemini Robotics: ورود رسمی هوش مصنوعی به دنیای فیزیکی
گوگل دیپمایند در مقالهای با عنوان Gemini Robotics مدل جدیدی را معرفی کرده که توانایی ترکیب بینایی، زبان و حرکت (Vision-Language-Action) را برای کنترل بازوهای ربات در محیطهای واقعی دارد — بدون نیاز به آموزش سختافزاری خاص!
📌 ویژگیهای کلیدی:
🔹 مدل پایه گرفتهشده از Gemini 2.0
🔹 توانایی کنترل ربات در محیط واقعی با ورودی زبان طبیعی
🔹 تعمیم بالا برای سختافزارهای مختلف (Franka، Aloha2، Apptronik)
🔹 درک فضایی-زمانی، پیشبینی مسیر، گرفتن اشیا
📍 چطور کار میکنه؟
با فقط چند صد مثال، مدل به ربات جدید منتقل میشه و میتونه کارهایی مثل تا کردن اوریگامی یا برداشتن اشیا رو انجام بده — انگار ربات "میفهمه" کجا هست و باید چه کار کنه.
🧠 این مقاله چرا انقلابیست؟
برای اولینبار اتصال عمیق NLP و حرکت فیزیکی ایجاد شده. رباتها حالا میتونن مثل انسان فکر کنن، حرف بزنن و دست به عمل بزنن — فقط با یک مدل!
🌐 لینک مقاله:
🔗 arxiv.org/abs/2503.20020
📖 گزارش کامل:
🔗 deepmind.google
📰 مقاله Wired:
🔗 wired.com
📡 با ما همراه باش تو @rss_ai_ir
#رباتیک #هوش_مصنوعی #Gemini #DeepMind #AI #EmbodiedAI #VLA #روبات #هات_پیپر
❤22🎉21🔥19😁19👏13👍12🥰11
🌍 Awesome-World-Models —
مرجع جامع مدلهای جهان در هوش مصنوعی منتشر شد! 🌐🤖
در گیتهاب، یک ریپازیتوری بزرگ و گزینششده با نام Awesome-World-Models منتشر شده است که تمام منابع کلیدی دربارهی مفهوم World Models را گردآوری کرده — رویکردی که در آن سیستم هوش مصنوعی یک مدل درونی از جهان میسازد تا بتواند محیط را درک کند و رفتارهای آینده را پیشبینی نماید 🧠
---
📚 در این مجموعه مییابید:
✳️پژوهشهای اصلی در حوزهی Embodied AI و رباتیک تطبیقی
✳️مقالات دربارهی رانندگی خودران و پیشبینی محیط پویا
✳️مدلهای زبانی با زمینهی بلندمدت (Long-context NLP) و قابلیت برنامهریزی (Planning)
✳️و دهها پروژه دیگر در حوزههایی که هوش مصنوعی باید جهان را درک کرده و در آن عمل کند.
---
💡 اگر به مدلهایی علاقه دارید که فراتر از پردازش داده، درک ساختاری از واقعیت میسازند —
این ریپازیتوری بهترین نقطهی شروع است 🚀
🔗 GitHub:
github.com/knightnemo/Awesome-World-Models
📡 @rss_ai_ir
#هوش_مصنوعی #WorldModels #EmbodiedAI #Robotics #AutonomousDriving #NLP #AI #تکنولوژی
مرجع جامع مدلهای جهان در هوش مصنوعی منتشر شد! 🌐🤖
در گیتهاب، یک ریپازیتوری بزرگ و گزینششده با نام Awesome-World-Models منتشر شده است که تمام منابع کلیدی دربارهی مفهوم World Models را گردآوری کرده — رویکردی که در آن سیستم هوش مصنوعی یک مدل درونی از جهان میسازد تا بتواند محیط را درک کند و رفتارهای آینده را پیشبینی نماید 🧠
---
📚 در این مجموعه مییابید:
✳️پژوهشهای اصلی در حوزهی Embodied AI و رباتیک تطبیقی
✳️مقالات دربارهی رانندگی خودران و پیشبینی محیط پویا
✳️مدلهای زبانی با زمینهی بلندمدت (Long-context NLP) و قابلیت برنامهریزی (Planning)
✳️و دهها پروژه دیگر در حوزههایی که هوش مصنوعی باید جهان را درک کرده و در آن عمل کند.
---
💡 اگر به مدلهایی علاقه دارید که فراتر از پردازش داده، درک ساختاری از واقعیت میسازند —
این ریپازیتوری بهترین نقطهی شروع است 🚀
🔗 GitHub:
github.com/knightnemo/Awesome-World-Models
📡 @rss_ai_ir
#هوش_مصنوعی #WorldModels #EmbodiedAI #Robotics #AutonomousDriving #NLP #AI #تکنولوژی
❤1👏1👌1
🤖 VITRA —
مدل VLA مقیاسپذیر مایکروسافت برای یادگیری مهارتهای انسان از ویدیوهای واقعی
مایکروسافت پروژهٔ جدیدی به نام VITRA معرفی کرده که هدف آن انتقال مستقیم مهارتهای انسان به رباتهاست — فقط با استفاده از ویدیوهای واقعی، بدون سناریو و کاملاً ایگو-سنتریک (از دید انسان).
این یعنی ربات مهارتها را از مشاهدهٔ رفتار طبیعی انسانها یاد میگیرد، نه با دیتاستهای ساختگی یا دموهای دقیق آزمایشگاهی.
🔍 مدل VITRA دقیقاً چه میکند؟
ویدیوهای معمولی از دست انسان را به دیتاست کامل VLA تبدیل میکند
مدل Vision-Language-Action را برای حرکت دست انسان آموزش میدهد
همان مدل را روی دادههای ربات فاینتیون میکند تا روی ربات واقعی کار کند
🧩 چطور دیتاست عظیم ساخته میشود؟
♻️بازسازی کامل حرکت ۳بعدی دست انسان
♻️تعیین دقیق پوز دوربین و هماهنگی فضا
♻️تبدیل حرکت پیوسته به اکشنهای اتمی
♻️اضافه کردن توضیح متنی به هر بخش، مثل:
«چرخ را بگیر»، «دستگیره را بچرخان»، «شیء را بردار»
🧠 معماری مدل
مدل VLM بکاند برای درک بصری
دیفیوژن پالیسی برای تولید اکشن
توصیف اکشن با ۱۵ زاویهٔ مفصل + پوز و اورینتیشن دست (استاندارد MANO)
— مستقیماً قابل استفاده روی رباتهای انساننما
📈 نتایج کلیدی
پیشبینی zero-shot رفتار دست در محیطهای جدید
مقیاسپذیری قوی — کیفیت با افزایش داده رشد میکند
عملکرد بهتر نسبت به SOTA مثل EgoDex
کنترل واقعی ربات با موفقیت بالا در کارهای دستکاری (manipulation)
📅 زمان انتشار عمومی
مایکروسافت قول داده کد، داده و مدلها را تا ۳۰ نوامبر ۲۰۲۵ منتشر کند.
🔗 پروژه:
https://microsoft.github.io/VITRA/
🔗 مقاله:
https://arxiv.org/abs/2510.21571
#AI #Robotics #VLA #Microsoft #VITRA #MachineLearning
#ComputerVision #RobotLearning #ImitationLearning
#EgocentricVideo #Manipulation #DeepLearning
#HumanToRobot #EmbodiedAI #AutonomousSystems
مدل VLA مقیاسپذیر مایکروسافت برای یادگیری مهارتهای انسان از ویدیوهای واقعی
مایکروسافت پروژهٔ جدیدی به نام VITRA معرفی کرده که هدف آن انتقال مستقیم مهارتهای انسان به رباتهاست — فقط با استفاده از ویدیوهای واقعی، بدون سناریو و کاملاً ایگو-سنتریک (از دید انسان).
این یعنی ربات مهارتها را از مشاهدهٔ رفتار طبیعی انسانها یاد میگیرد، نه با دیتاستهای ساختگی یا دموهای دقیق آزمایشگاهی.
🔍 مدل VITRA دقیقاً چه میکند؟
ویدیوهای معمولی از دست انسان را به دیتاست کامل VLA تبدیل میکند
مدل Vision-Language-Action را برای حرکت دست انسان آموزش میدهد
همان مدل را روی دادههای ربات فاینتیون میکند تا روی ربات واقعی کار کند
🧩 چطور دیتاست عظیم ساخته میشود؟
♻️بازسازی کامل حرکت ۳بعدی دست انسان
♻️تعیین دقیق پوز دوربین و هماهنگی فضا
♻️تبدیل حرکت پیوسته به اکشنهای اتمی
♻️اضافه کردن توضیح متنی به هر بخش، مثل:
«چرخ را بگیر»، «دستگیره را بچرخان»، «شیء را بردار»
🧠 معماری مدل
مدل VLM بکاند برای درک بصری
دیفیوژن پالیسی برای تولید اکشن
توصیف اکشن با ۱۵ زاویهٔ مفصل + پوز و اورینتیشن دست (استاندارد MANO)
— مستقیماً قابل استفاده روی رباتهای انساننما
📈 نتایج کلیدی
پیشبینی zero-shot رفتار دست در محیطهای جدید
مقیاسپذیری قوی — کیفیت با افزایش داده رشد میکند
عملکرد بهتر نسبت به SOTA مثل EgoDex
کنترل واقعی ربات با موفقیت بالا در کارهای دستکاری (manipulation)
📅 زمان انتشار عمومی
مایکروسافت قول داده کد، داده و مدلها را تا ۳۰ نوامبر ۲۰۲۵ منتشر کند.
🔗 پروژه:
https://microsoft.github.io/VITRA/
🔗 مقاله:
https://arxiv.org/abs/2510.21571
#AI #Robotics #VLA #Microsoft #VITRA #MachineLearning
#ComputerVision #RobotLearning #ImitationLearning
#EgocentricVideo #Manipulation #DeepLearning
#HumanToRobot #EmbodiedAI #AutonomousSystems
🔥2👍1👏1