Sber AI

DeepMind научит роботов внутреннему монологу

💳

DeepMind подала патентную заявку на систему, которая позволит роботам только на основе визуальных данных выполнять действия с объектами без предварительного обучения этому. Её главное преимущество в том, что, по сути, робот будет постоянно проходить zero-shot обучение — учиться в реальном времени на основе поступающих визуальных данных. Такой метод снижает требования к памяти и вычислительным ресурсам, необходимым для обучения модели на примерах.

В основе — AI-агент на базе LLM, который генерирует описание увиденного на естественном языке. Благодаря этому роботы смогут как бы «мысленно проговаривать» то, что видят. А затем использовать эти формулировки для выполнения полученных команд.

Как это работает

🔘 Система получит изображения или видео, на которых кто-то что-то делает. Например, где человек берёт кружку со стола. Агент составит описание «на столе стоит кружка», «человек берёт кружку». Система его запомнит, свяжет это с увиденным действием и будет сопоставлять с текстовыми описаниями новых объектов в будущем.

🔘 Это позволит роботу взаимодействовать с новыми объектами без предварительного обучения действиям, связанным с ними. Например, робот получил команду «подними кувшин», хотя умеет поднимать кружки. Если перед ним в этот момент стол, на котором стоит кувшин, агент в системе скажет: «Передо мной на столе кувшин». Он «узнает» кувшин, потому что нейросеть внутри него обучена распознавать и подписывать образы.

🔘 На основе предыдущих сохранённых описаний и связей между объектами («на столе стоит кружка», «человек берёт кружку») система выбирает наиболее подходящий сценарий действий, соответствующий поставленной задаче:

— скинуть кувшин на пол ❌
— потрогать кувшин ❌
— взять кувшин и поднять ✔️

🔘 Агент выдаёт описание, которое напрямую относится к распознанным объектам перед роботом: «Поднимаю кувшин со стола». И система отдаёт команду уже непосредственно манипуляторам робота сделать это.

❤️ — если вы тоже мысленно проговариваете каждое действие

Please open Telegram to view this post