VIRSUN
12.9K subscribers
1.09K photos
645 videos
5 files
717 links
📥 در کانال @rss_ai_ir هر روز: 🔹 جدیدترین خبرهای AI و فناوری
🗯اولویت ما هوش مصنوعی در صنعت میباشد اما نیم نگاهی به موارد دیگر در این زمینه داریم

ارتباط با ادمین 1:
@Ad1_rss_ai_ir

آدرس گروه
https://t.iss.one/rss_ai_ir_group
Download Telegram
🤖 VITRA —
مدل VLA مقیاس‌پذیر مایکروسافت برای یادگیری مهارت‌های انسان از ویدیوهای واقعی

مایکروسافت پروژهٔ جدیدی به نام VITRA معرفی کرده که هدف آن انتقال مستقیم مهارت‌های انسان به ربات‌هاست — فقط با استفاده از ویدیوهای واقعی، بدون سناریو و کاملاً ایگو-سنتریک (از دید انسان).
این یعنی ربات مهارت‌ها را از مشاهدهٔ رفتار طبیعی انسان‌ها یاد می‌گیرد، نه با دیتاست‌های ساختگی یا دموهای دقیق آزمایشگاهی.

🔍 مدل VITRA دقیقاً چه می‌کند؟

ویدیوهای معمولی از دست انسان را به دیتاست کامل VLA تبدیل می‌کند

مدل Vision-Language-Action را برای حرکت دست انسان آموزش می‌دهد

همان مدل را روی داده‌های ربات فاین‌تیون می‌کند تا روی ربات واقعی کار کند


🧩 چطور دیتاست عظیم ساخته می‌شود؟

♻️بازسازی کامل حرکت ۳بعدی دست انسان

♻️تعیین دقیق پوز دوربین و هماهنگی فضا

♻️تبدیل حرکت پیوسته به اکشن‌های اتمی

♻️اضافه کردن توضیح متنی به هر بخش، مثل:
«چرخ را بگیر»، «دستگیره را بچرخان»، «شیء را بردار»


🧠 معماری مدل

مدل VLM بک‌اند برای درک بصری

دیفیوژن پالیسی برای تولید اکشن

توصیف اکشن با ۱۵ زاویهٔ مفصل + پوز و اورینتیشن دست (استاندارد MANO)
— مستقیماً قابل استفاده روی ربات‌های انسان‌نما


📈 نتایج کلیدی

پیش‌بینی zero-shot رفتار دست در محیط‌های جدید

مقیاس‌پذیری قوی — کیفیت با افزایش داده رشد می‌کند

عملکرد بهتر نسبت به SOTA مثل EgoDex

کنترل واقعی ربات با موفقیت بالا در کارهای دستکاری (manipulation)


📅 زمان انتشار عمومی

مایکروسافت قول داده کد، داده و مدل‌ها را تا ۳۰ نوامبر ۲۰۲۵ منتشر کند.

🔗 پروژه:
https://microsoft.github.io/VITRA/
🔗 مقاله:
https://arxiv.org/abs/2510.21571


#AI #Robotics #VLA #Microsoft #VITRA #MachineLearning
#ComputerVision #RobotLearning #ImitationLearning
#EgocentricVideo #Manipulation #DeepLearning
#HumanToRobot #EmbodiedAI #AutonomousSystems
👍1🔥1👏1