📈 ТехноТренды: Технологии, Тренды, IT
1.17K subscribers
123 photos
23 videos
7 files
226 links
Канал "ТехноТренды". Разбор технологий, технологических трендов и инноваций в различных сферах бизнеса и жизни: IT, производство и др.
Download Telegram
Демонстрация работы VLA-модели π₀.₅

Представьте, что с вами работает электронный помощник, который понимает вас с полуслова, умеет самостоятельно сложить белье или прибраться на кухне, а при необходимости даже вытереть губкой пролитую воду.

Компания Physical Intelligence представила новую модель π₀.₅ — визуально-языково-действенную (VLA) систему, способную выполнять задачи в ранее не виденных средах, которых не было в обучающих датасетах, таких как кухня или спальня в новом доме.

🎯 Модель π₀.₅ использует двухэтапный подход:

1️⃣ Формулирование высокоуровневых действий. На основе визуального восприятия и языковых инструкций модель определяет последовательность подзадач, необходимых для выполнения общей задачи. Например, при команде «убери кухню» она может выделить шаги: «собрать посуду», «положить в раковину», «протереть стол».

2️⃣ Преобразование в низкоуровневые команды. Каждое высокоуровневое действие передается в модуль управления действиями, основанный на архитектуре flow matching. Этот модуль генерирует непрерывные моторные команды, позволяя роботу выполнять задачи с высокой точностью и частотой обновления до 50 Гц.

🤖 Ключевой принцип обучения модели — использование гетерогенных данных, т.е. различных типов и форматов информации. Модель обучается на:
• роботизированных демонстрациях
• мультимодальных веб-данных (вопросы-ответы, описания изображений)
• вербальных инструкциях от человека
• данных от различных типов роботов.

Это позволяет научить робота не только выполнять различные действия, но и понимать семантический контекст каждого навыка (например, какие предметы брать и куда их класть), определять высокоуровневую структуру задачи (например, какие шаги необходимы для заправки кровати) и даже анализировать и усваивать поведение других, более простых роботов.
«Наша текущая модель далека от идеала, — подчеркивают разработчики. — Ее цель — не осваивать новые навыки или демонстрировать высокую ловкость, а адаптироваться к новым условиям. В наших экспериментах π₀.₅ может выполнять различные задачи в совершенно новых домах. Не всегда с первой попытки, но часто демонстрируя гибкость и находчивость, с которыми может подойти к новой задаче человек».

#VLA #технологии #сервисная_робототехника #ML #машинное_обучение

🚀 ©ТехноТренды
👏1