Embodied AI Reading Club
454 subscribers
18 photos
39 links
Канал книжного клуба команды Embodied agents Лаборатории Cognitive AI Systems AIRI
Download Telegram
Всем привет!

На этой неделе наверстываем упущенное 🔥

11 октября в 16:00 Ника Морозова расскажет про

Применение трансформерных моделей для Embodied AI

Трансформерные модели находят широкое применение в области воплощенного интеллекта, позволяя физическим агентам эффективно обрабатывать сенсорные данные и принимать решения в динамичных условиях. Трансформерные модели способны адаптироваться к изменениям в окружении, улучшая восприятие и взаимодействие с миром агента. Рассмотрим SOTA архитектуры трансформерных моделей в применении к Embodied AI

Статьи:
1. PoliFormer: Scaling On-Policy RL with Transformers Results in Masterful Navigators
2. ReLIC: A recipe for 64k steps In-Context Reinforcement Learning for Embodied AI
3. Octo: An Open-Source Generalist Robot Policy
4. OpenVLA: An Open-Source Vision-Language-Action Model
5. V-Former: Offline RL with Temporally-Extended Actions
6. Q-Transformer: Scalable Offline Reinforcement Learning via Autoregressive Q-Functions
7. Evaluating Real-World Robot Manipulation Policies in Simulation
8. Offline Pre-trained Multi-Agent Decision Transformer: One Big Sequence Model Tackles All SMAC Tasks

Ссылка на подключение будет позже
🔥14👍1
Ссылка на встречу 11.10 по теме

Применение трансформерных моделей для Embodied AI

❗️Начало в 16:00
👍7🔥7
Всем привет!

Завтра (18 октября) в 17:15 Ева Бакаева расскажет про

Vision-and-Language Navigation

В докладе будет представлен обзор различных задач и направлений области Vision-and-Language Navigation (VLN). Рассмотрим основные VLN бенчмарки, использование LLM и VLM для их решения и актуальные работы

Статьи:
1. Vision-and-Language Navigation: Interpreting visually-grounded navigation instructions in real environments
2. REVERIE: Remote Embodied Visual Referring Expression in Real Indoor Environments
3. Room-Across-Room: Multilingual Vision-and-Language Navigation with Dense Spatiotemporal Grounding
4. Touchdown: Natural Language Navigation and Spatial Reasoning in Visual Street Environments
5. Vision-based Navigation with Language-based Assistance via Imitation Learning with Indirect Intervention
6. CoWs on Pasture: Baselines and Benchmarks for Language-Driven Zero-Shot Object Navigation
7. Memory-Maze: Scenario Driven Benchmark and Visual Language Navigation Model for Guiding Blind People
8. LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language, Vision, and Action
9. NaVid: Video-based VLM Plans the Next Step for Vision-and-Language Navigation
10. BehAV: Behavioral Rule Guided Autonomy Using VLMs for Robot Navigation in Outdoor Scenes

Ссылка на подключение будет позже
🔥92
Ссылка на встречу 18.10 по теме

Vision-and-Language Navigation

❗️Начало в 17:15
👍4
Всем привет!

Завтра (25 октября ) в 16:00 Никита Качаев расскажет про:

Эффективный Online RL с использованием offline данных

Рассмотрим, как использование предварительно неразмеченных offline данных может ускорить exploration и повысить sample efficiency для off-policy алгоритмов в задачах с разреженными вознаграждениями, а также обсудим подходы к объединению онлайн и офлайн обучения без введения дополнительных регуляризаций с использованием on-policy алгоритмов

Статьи:
1. Uni-O4: Unifying Online and Offline Deep Reinforcement Learning with Multi-Step On-Policy Optimization

Ссылка на подключение будет позже
🔥10👍2
Итоги встречи 18.10.2024 (презентация|запись)
#VLN #LLM #VLM

Встреча была посвящена обзору задач и подходов в Vision-and-Language Navigation (VLN)

🔺 До 2020 года VLN модели представлены преимущественно рекуррентными нейронными сетями, обрабатывающими последовательность конкатенированных эмбеддингов изображений и текстовых инструкций. После 2020 года произошел сдвиг в сторону графовых нейронных сетей и предобученных LLM/VLM

🔺 VLN задачи (полезная обзорная статья) можно классифицировать по:

✔️ типу среды — дискретная или непрерывная

✔️ communication complexity — может ли агент взаимодействовать с оракулом, знающим правильное действие. И если может, то каким способом

✔️ task objective — как агент достигает своей цели на основе первоначальных инструкций оракула (fine/coarse-grained navigation, есть ли взаимодействие со средой)

🔺 Основные VLN бенчмарки это: R2R, RxR, REVERIE, Touchdown, VLNA, FAO. На встрече рассмотрели, как они устроены и их baselin'ы

🔺 Обсудили несколько актуальных работ, использующих предобученные LLM и VLM:

✔️ В NaVid предложен подход на основе дообучения Vicuna-7B, работающий только с видео (RGB изображения), без использования какой-либо дополнительной информации (карта, одометрия, глубина). При этом, как утверждают авторы, при Sim-to-Real переносе их подход показывает 66% Success Rate на 200 инструкциях в четырех indoor сценах

✔️ В BehAV текстовый запрос на естественном языке разделяется на behavioral и navigation компоненты с помощью LLM. После чего с помощью general knowlege предобученной VLM на изображениях выделяются области повышенного интереса, по которым стоится behavioral cost map. Эта карта кодирует расположение объектов в пространстве и связывает их с затратами (cost), обусловленными правилами поведения. Например, при инструкции «избегай лестниц», объектам, классифицируемым как «лестница» будет присваиваться высокая затрата и агент начнет их избегать

✔️ В LM-Nav на первом этапе с помощью LLM из текстового запросы выделяются ориентиры (landmark), точнее их описание, например «white building» или «stop sign». На втором этапе с помощью VLM (авторы используют CLIP) ориентиры сопоставляются с наблюдениями и уже эта информация используется предобученной visual navigation model (ViNG) для навигации

Во время обсуждения был задан очень хороший вопрос:

«Насколько реалистичен сценарий использования языковых инструкций (подробных, длинных, со сложным описанием действий) в indoor сценах для навигации?»

Пишите свои варианты ответов в комментариях!
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3👏1
Ссылка на встречу 25.10 по теме

Эффективный Online RL с использованием offline данных

❗️Начало в 16:00
🔥3
Всем привет!

На следующей неделе 1 ноября в 16:00 Максим Патрацкий расскажет про:

Rep'n'plan-подходы к построению и коррекции плана действий с помощью LLM для Embodied AI

Рассмотрим последние работы по планированию и коррекции планов действий воплощённых агентов. Детально обсудим 5 статей по теме, а также коротко обсудим интересные статьи по планированию с llm в целом

Спойлер: GPT4 хороша и её использует каждый, вопрос только как

Статьи:
1. Robotic Control via Embodied Chain-of-Thought Reasoning
2. Leave It to Large Language Models! Correction and Planning with Memory Integration
3. Self-Corrected Multimodal Large Language Model for End-to-End Robot Manipulation
4. Grounding LLMs For Robot Task Planning Using Closed-loop State Feedback
5. NL2Plan: Robust LLM-Driven Planning from Minimal Text Descriptions
🔥8
Всем привет!

Постоянная ссылка на встречи клуба
👍6
Embodied AI Reading Club pinned «Всем привет! Постоянная ссылка на встречи клуба»
Тема сегодня

Rep'n'plan-подходы к построению и коррекции плана действий с помощью LLM для Embodied AI

❗️Начало в 16:00
🔥5
Всем привет!

На этой неделе 8 ноября в 16:00 Зоя Воловикова расскажет про:

Построение стратегии поведения по языковой инструкции в сложных мультимодальных средах

Мы планируем подробно рассмотреть идеи, предложенные в статьях «Game On: Towards Language Models as RL Experimenters» и «Instruction Following with Goal-Conditioned Reinforcement Learning in Virtual Environments»

В первой работе авторы используют большую языковую модель для построения учебного плана обучения RL-агента в задаче следования инструкциям, что позволяет автоматически генерировать последовательность подзадач для эффективного обучения. Во второй статье языковая модель предсказывает высокоуровневый план по языковой инструкции, а RL-агент обучается с помощью учебного плана на различных списках возможных задач

Недостатком этих подходов является необходимость иметь заранее определенный список подзадач, на основе которого языковая модель формирует план. Однако хотелось бы, чтобы модель самостоятельно строила план, не полагаясь на заданный перечень возможных задач

Приглашаем к обсуждению подходов, которые позволят:
✔️ строить стратегию поведения в сложных мультимодальных средах по языковой инструкции
✔️ формировать автономные учебные планы с помощью языковых моделей для обучения RL-агента
✔️ создавать гибкие планы действий без фиксированного списка подзадач

Статьи:
1. Game On: Towards Language Models as RL Experimenters
2. Instruction Following with Goal-Conditioned Reinforcement Learning in Virtual Environments

Ссылка на подключение в закрепленном сообщении
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9
Всем привет!

Вот и записи встреч нашего книжного клуба

🔺 Методы определения неопределённости языковых моделей
Анастасия Иванова, ЦКМ МФТИ

🔺 Применение трансформерных моделей для Embodied AI
Ника Морозова, Embodied agents, Лаборатория Cognitive AI Systems AIRI

🔺 Vision-and-Language Navigation
Ева Бакаева, ЦКМ МФТИ

🔺 Rep'n'plan-подходы к построению и коррекции плана действий с помощью LLM для Embodied AI
Максим Патрацкий, ЦКМ МФТИ
Please open Telegram to view this post
VIEW IN TELEGRAM
12❤‍🔥1
Всем привет!

Скоро начинаем! Подключайтесь по ссылке!
🔥2
Всем привет!🔥

📆Завтра (15 ноября) в 16:00
Егор Черепанов
расскажет про:

Новые подходы в области RL агентов с памятью

Рассмотрим два подхода: Optimus-1 и AdaMemento

🔷Optimus-1 разработан для решения long horizon задач и протестирован в среде Minecraft. Агент использует Hybrid Multimodal Memory модуль, который включает в себя Hierarchical Directed Knowledge Graph и Abstracted Multimodal Experience Pool

🔷AdaMemento предназначен для решения задач с разреженными наградами. Memory-reflection module позволяет учитывать положительный и отрицательный опыт, а fine-grained intrinsic motivation paradigm позволяет различать схожие состояния для улучшения exploration

Статьи:
1. Optimus-1: Hybrid Multimodal Memory Empowered Agents Excel in Long-Horizon Tasks
2. AdaMemento: Adaptive Memory-Assisted Policy Optimization for Reinforcement Learning

Подписаться⤵️
Embodied AI Reading Club
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13🥰5🔥4
Всем привет!🔥

Итоги встречи 08.11.2024 (презентация|запись)
#LLM #VLM #RL

Встреча была посвящена построению стратегии поведения по языковой инструкции в сложных мультимодальных средах

🔺 Game On: Towards Language Models as RL Experimenters

В данной работе представлена архитектура агента, использующая большие мультимодальные языковые модели (VLM) для автоматизации экспериментов по обучению с подкреплением (RL) в областях с физическим манипулятором. Цель состоит в автоматизации процесса обучения агента, который обычно требует участия человека, включая предложение, декомпозицию и выполнение задач, а также анализ прогресса

Основные компоненты системы:
✔️ Модуль учебного плана генерирует задачи для агента, основываясь на предыдущих успехах и неудачах, и разбивает сложные задачи на последовательности подзадач
✔️ Модуль выполнения использует библиотеку навыков и выполняет предложенные задачи в виртуальной среде. По завершении эпизодов он передает данные об успешности задач для дальнейшего обучения
✔️ Модуль оценки анализирует успешность обучения, определяя, достиг ли агент поставленных целей, и добавляет освоенные навыки в библиотеку

Эксперименты показали, что использование VLM позволяет эффективно обучать агента новым навыкам, разрабатывать динамические учебные планы и создавать более сложные последовательности действий для выполнения задач

🔺 Instruction Following with Goal-Conditioned Reinforcement Learning in Virtual Environments

Подход IGOR (Instruction Following with Goal-Conditioned Reinforcement Learning) разработан для того, чтобы агент мог следовать инструкциям в сложных средах

Основные модули системы включают:
✔️ Языковой модуль (Language Module), который преобразует инструкции в последовательности подзадач
✔️ Менеджер задач (Task Manager), который управляет этими подзадачами и передает их в удобном формате в модуль стратегии
✔️ Модуль стратегии (Policy Module) — агент на основе RL, обученный для выполнения подзадач, используя наблюдения за состоянием окружения и обученный методом PPO

Подход также предусматривает обучение по учебной программе (curriculum learning), где задачи, которые оказались сложными и требуют большего числа попыток, получают приоритет для повышения общего успеха агента. Виртуальные среды IGLU и Crafter использовались для тестирования эффективности подхода. В IGLU агент строил структуры по командам, а в Crafter выполнял достижения, такие как сбор ресурсов и создание предметов. В обоих случаях IGOR превзошел существующие решения

🔺 Общие выводы

✔️ В обеих работах эффективно используется разделение функций между языковым модулем, предлагающим подзадачи, и отдельным модулем стратегии, обучаемым с помощью обучения по учебной программе

✔️ Недостатки обоих подходов: фиксированный набор навыков, на основе которых строится план, и невозможность автоматической корректировки плана во время работы агента RL

Подписаться⤵️
Embodied AI Reading Club
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5
Всем привет!🔥

📆Завтра (22 ноября) в 16:00
Данил Григорьев
расскажет про

Темпоральную логику — от формальных спецификаций к интеллектуальным системам планирования

Рассмотрим два современных подхода: SELP и CoT-TL

🔺SELP создает безопасные планы действий роботов из NL команд через Equivalence voting для надежной генерации LTL-спецификаций, Constrained decoding для обеспечения безопасности планов и Domain-specific fine-tuning для оптимизации эффективности

🔺CoT-TL выполняет low-resourse translation команд в LTL-спецификации, используя Chain-of-thought reasoning для построения темпоральных формул, Semantic Role Labeling для анализа структуры команд и Model checking для валидации LTL-формул

Статьи:
1. SELP: Generating Safe and Efficient Task Plans for Robot Agents with Large Language Models
2. CoT-TL: Low-Resource Temporal Knowledge Representation of Planning Instructions Using Chain-of-Thought Reasoning

🍿Ссылка на подключение

Подписаться⤵️
Embodied AI Reading Club
Please open Telegram to view this post
VIEW IN TELEGRAM
6🔥1🤗1
Всем привет!

На этой неделе встречи не будет
Всем привет!🔥

📆 Завтра (6 декабря) в 16:00
Даниил Зелезецкий
расскажет про

Современные методы обучения Actor-Critic Off-Policy алгоритмов

Рассмотрим подход SAVO для сред, где небольшое отклонение от оптимального действия может привести к сильному падению эффективности агента

🔺Путём создания суррогатных акторов и критиков, SAVO позволяет более качественно исследовать среду, опираясь на «эффект толпы», что позволяет актору меньше попадать в локальные оптимумы

🔺Кроме того, в алгоритме SAVO используются принципы оптимизации Tabu Search, что позволяет весам агента не попадать в те состояния, в которых они был ранее

Статья:
1. Mitigating Suboptimality Of Determenistic Policy Gradients In Complex Q-functions

🍿Ссылка на подключение

Подписаться⤵️
Embodied AI Reading Club
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥12
Всем привет!

На этой неделе встречи не будет
😢8👌1
Всем привет!🔥

Итоги встречи 15.11.2024
(презентация|запись)
#RL #Memory #LLM #VLM

На встрече были разобраны новые работы по использованию механизмов памяти при принятии решений в контексте VLM и RL агентов

🔺 Optimus-1: Hybrid Multimodal Memory Empowered Agents Excel in Long-Horizon Tasks

В данной работе рассматривается VLM агент, решающий сложные задачи в среде Minecraft

Авторы считают, что существующие агенты сталкиваются с трудностями при выполнении long-horizon задач в open-world сеттинге в связи с тем, что им не хватает знания о мире и его мультимодального описания

Для решения этих проблем авторы предлагают Hybrid Multimodal Memory (HMM) модуль, который:
✔️ преобразует знание в Hierarchical Directed Knowledge Graph, позволяющий явно представить знание о мире и изучить его
✔️ суммаризует историческую информацию в Abstracted Multimodal Experience Pool, который передает агентам дополнительную информацию для in-context обучения

Вместе с Knowledge-Guided Planner и Experience-Driven Reflector модулями, необходимыми для лучшего планирования и рефлексии агента для long-horizon задач, HMM образует мультимодального агента Optimus-1

Предложенный подход позволяет нивелировать различие между топовыми проприетарными и open-sourced VLM моделямями и достичь результатов, сравнимых с человеческими, при решении задач в Minecraft

🔺 AdaMemento: Adaptive Memory-Assisted Policy Optimization for Reinforcement Learning

Механизмы памяти помогают оптимизировать стратегию в постановке задачи с разреженными функциями вознаграждения

AdaMemento — адаптивный memory-enhanced RL фреймворк, позволяющий решать такие задачи. Он состоит из Memory-reflection module, позволяющего использовать как положительный, так и отрицательный опыт, обучаясь использовать локальные стратегии на основании текущих состояний, и Coarse-fine distinction module, позволяющего эффективно собирать информативные траектории в память за счет Fine-grained intrinsic-motivation paradigm, различающей небольшие различия (нюансы) в похожих состояниях

Использование данного подхода позволило получить существенно лучшие результаты по сравнению с другими бейзлайнами на такой тяжелой задаче как Atari/Montezuma's Revenge

🔺 Общие выводы

В обеих работах используются модули внешней памяти, позволяющие подкрепить принятие решения агента дополнительной информацией, что позволяет добиваться лучших результатов по сравнению с методами без таких модулей

Подписаться⤵️
Embodied AI Reading Club
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🗿1