VIRSUN

🔧 هات‌پیپر هوش مصنوعی در رباتیک | ۲۰۲۵

📌 مدل Gemini Robotics: ورود رسمی هوش مصنوعی به دنیای فیزیکی

گوگل دیپ‌مایند در مقاله‌ای با عنوان Gemini Robotics مدل جدیدی را معرفی کرده که توانایی ترکیب بینایی، زبان و حرکت (Vision-Language-Action) را برای کنترل بازوهای ربات در محیط‌های واقعی دارد — بدون نیاز به آموزش سخت‌افزاری خاص!

📌 ویژگی‌های کلیدی:
🔹 مدل پایه گرفته‌شده از Gemini 2.0
🔹 توانایی کنترل ربات در محیط واقعی با ورودی زبان طبیعی
🔹 تعمیم بالا برای سخت‌افزارهای مختلف (Franka، Aloha2، Apptronik)
🔹 درک فضایی-زمانی، پیش‌بینی مسیر، گرفتن اشیا

📍 چطور کار می‌کنه؟
با فقط چند صد مثال، مدل به ربات جدید منتقل میشه و می‌تونه کارهایی مثل تا کردن اوریگامی یا برداشتن اشیا رو انجام بده — انگار ربات "می‌فهمه" کجا هست و باید چه کار کنه.

🧠 این مقاله چرا انقلابی‌ست؟
برای اولین‌بار اتصال عمیق NLP و حرکت فیزیکی ایجاد شده. ربات‌ها حالا می‌تونن مثل انسان فکر کنن، حرف بزنن و دست به عمل بزنن — فقط با یک مدل!

🌐 لینک مقاله:
🔗 arxiv.org/abs/2503.20020
📖 گزارش کامل:
🔗 deepmind.google
📰 مقاله Wired:
🔗 wired.com

📡 با ما همراه باش تو @rss_ai_ir

#رباتیک #هوش_مصنوعی #Gemini #DeepMind #AI #EmbodiedAI #VLA #روبات #هات_پیپر

❤22🎉21🔥19😁19👏13👍12🥰11

310 viewsedited 03:08

VIRSUN

🌍 Awesome-World-Models —
مرجع جامع مدل‌های جهان در هوش مصنوعی منتشر شد! 🌐🤖

در گیت‌هاب، یک ریپازیتوری بزرگ و گزینش‌شده با نام Awesome-World-Models منتشر شده است که تمام منابع کلیدی درباره‌ی مفهوم World Models را گردآوری کرده — رویکردی که در آن سیستم هوش مصنوعی یک مدل درونی از جهان می‌سازد تا بتواند محیط را درک کند و رفتارهای آینده را پیش‌بینی نماید 🧠

---

📚 در این مجموعه می‌یابید:

✳️پژوهش‌های اصلی در حوزه‌ی Embodied AI و رباتیک تطبیقی

✳️مقالات درباره‌ی رانندگی خودران و پیش‌بینی محیط پویا

✳️مدل‌های زبانی با زمینه‌ی بلندمدت (Long-context NLP) و قابلیت برنامه‌ریزی (Planning)

✳️و ده‌ها پروژه دیگر در حوزه‌هایی که هوش مصنوعی باید جهان را درک کرده و در آن عمل کند.

---

💡 اگر به مدل‌هایی علاقه دارید که فراتر از پردازش داده، درک ساختاری از واقعیت می‌سازند —
این ریپازیتوری بهترین نقطه‌ی شروع است 🚀

🔗 GitHub:
github.com/knightnemo/Awesome-World-Models

📡 @rss_ai_ir
#هوش_مصنوعی #WorldModels #EmbodiedAI #Robotics #AutonomousDriving #NLP #AI #تکنولوژی

❤1👏1👌1

1.55K views17:35

VIRSUN

🤖 VITRA —
مدل VLA مقیاس‌پذیر مایکروسافت برای یادگیری مهارت‌های انسان از ویدیوهای واقعی

مایکروسافت پروژهٔ جدیدی به نام VITRA معرفی کرده که هدف آن انتقال مستقیم مهارت‌های انسان به ربات‌هاست — فقط با استفاده از ویدیوهای واقعی، بدون سناریو و کاملاً ایگو-سنتریک (از دید انسان).
این یعنی ربات مهارت‌ها را از مشاهدهٔ رفتار طبیعی انسان‌ها یاد می‌گیرد، نه با دیتاست‌های ساختگی یا دموهای دقیق آزمایشگاهی.

🔍 مدل VITRA دقیقاً چه می‌کند؟

ویدیوهای معمولی از دست انسان را به دیتاست کامل VLA تبدیل می‌کند

مدل Vision-Language-Action را برای حرکت دست انسان آموزش می‌دهد

همان مدل را روی داده‌های ربات فاین‌تیون می‌کند تا روی ربات واقعی کار کند

🧩 چطور دیتاست عظیم ساخته می‌شود؟

♻️بازسازی کامل حرکت ۳بعدی دست انسان

♻️تعیین دقیق پوز دوربین و هماهنگی فضا

♻️تبدیل حرکت پیوسته به اکشن‌های اتمی

♻️اضافه کردن توضیح متنی به هر بخش، مثل:
«چرخ را بگیر»، «دستگیره را بچرخان»، «شیء را بردار»

🧠 معماری مدل

مدل VLM بک‌اند برای درک بصری

دیفیوژن پالیسی برای تولید اکشن

توصیف اکشن با ۱۵ زاویهٔ مفصل + پوز و اورینتیشن دست (استاندارد MANO)
— مستقیماً قابل استفاده روی ربات‌های انسان‌نما

📈 نتایج کلیدی

پیش‌بینی zero-shot رفتار دست در محیط‌های جدید

مقیاس‌پذیری قوی — کیفیت با افزایش داده رشد می‌کند

عملکرد بهتر نسبت به SOTA مثل EgoDex

کنترل واقعی ربات با موفقیت بالا در کارهای دستکاری (manipulation)

📅 زمان انتشار عمومی

مایکروسافت قول داده کد، داده و مدل‌ها را تا ۳۰ نوامبر ۲۰۲۵ منتشر کند.

🔗 پروژه:
https://microsoft.github.io/VITRA/
🔗 مقاله:
https://arxiv.org/abs/2510.21571

#AI #Robotics #VLA #Microsoft #VITRA #MachineLearning
#ComputerVision #RobotLearning #ImitationLearning
#EgocentricVideo #Manipulation #DeepLearning
#HumanToRobot #EmbodiedAI #AutonomousSystems

👍1🔥1👏1

195 views14:15

About

Blog

Apps

Platform