Embodied AI Reading Club pinned «Всем привет! Постоянная ссылка на встречи клуба»
Тема сегодня
Rep'n'plan-подходы к построению и коррекции плана действий с помощью LLM для Embodied AI
❗️Начало в 16:00
Rep'n'plan-подходы к построению и коррекции плана действий с помощью LLM для Embodied AI
❗️Начало в 16:00
🔥5
Всем привет!
На этой неделе 8 ноября в 16:00 Зоя Воловикова расскажет про:
Построение стратегии поведения по языковой инструкции в сложных мультимодальных средах
Мы планируем подробно рассмотреть идеи, предложенные в статьях «Game On: Towards Language Models as RL Experimenters» и «Instruction Following with Goal-Conditioned Reinforcement Learning in Virtual Environments»
В первой работе авторы используют большую языковую модель для построения учебного плана обучения RL-агента в задаче следования инструкциям, что позволяет автоматически генерировать последовательность подзадач для эффективного обучения. Во второй статье языковая модель предсказывает высокоуровневый план по языковой инструкции, а RL-агент обучается с помощью учебного плана на различных списках возможных задач
Недостатком этих подходов является необходимость иметь заранее определенный список подзадач, на основе которого языковая модель формирует план. Однако хотелось бы, чтобы модель самостоятельно строила план, не полагаясь на заданный перечень возможных задач
Приглашаем к обсуждению подходов, которые позволят:
✔️ строить стратегию поведения в сложных мультимодальных средах по языковой инструкции
✔️ формировать автономные учебные планы с помощью языковых моделей для обучения RL-агента
✔️ создавать гибкие планы действий без фиксированного списка подзадач
Статьи:
1. Game On: Towards Language Models as RL Experimenters
2. Instruction Following with Goal-Conditioned Reinforcement Learning in Virtual Environments
Ссылка на подключение в закрепленном сообщении
На этой неделе 8 ноября в 16:00 Зоя Воловикова расскажет про:
Построение стратегии поведения по языковой инструкции в сложных мультимодальных средах
Мы планируем подробно рассмотреть идеи, предложенные в статьях «Game On: Towards Language Models as RL Experimenters» и «Instruction Following with Goal-Conditioned Reinforcement Learning in Virtual Environments»
В первой работе авторы используют большую языковую модель для построения учебного плана обучения RL-агента в задаче следования инструкциям, что позволяет автоматически генерировать последовательность подзадач для эффективного обучения. Во второй статье языковая модель предсказывает высокоуровневый план по языковой инструкции, а RL-агент обучается с помощью учебного плана на различных списках возможных задач
Недостатком этих подходов является необходимость иметь заранее определенный список подзадач, на основе которого языковая модель формирует план. Однако хотелось бы, чтобы модель самостоятельно строила план, не полагаясь на заданный перечень возможных задач
Приглашаем к обсуждению подходов, которые позволят:
Статьи:
1. Game On: Towards Language Models as RL Experimenters
2. Instruction Following with Goal-Conditioned Reinforcement Learning in Virtual Environments
Ссылка на подключение в закрепленном сообщении
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9
Всем привет!
Вот и записи встреч нашего книжного клуба
🔺 Методы определения неопределённости языковых моделей
Анастасия Иванова, ЦКМ МФТИ
🔺 Применение трансформерных моделей для Embodied AI
Ника Морозова, Embodied agents, Лаборатория Cognitive AI Systems AIRI
🔺 Vision-and-Language Navigation
Ева Бакаева, ЦКМ МФТИ
🔺 Rep'n'plan-подходы к построению и коррекции плана действий с помощью LLM для Embodied AI
Максим Патрацкий, ЦКМ МФТИ
Вот и записи встреч нашего книжного клуба
Анастасия Иванова, ЦКМ МФТИ
Ника Морозова, Embodied agents, Лаборатория Cognitive AI Systems AIRI
Ева Бакаева, ЦКМ МФТИ
Максим Патрацкий, ЦКМ МФТИ
Please open Telegram to view this post
VIEW IN TELEGRAM
❤12❤🔥1
Всем привет!🔥
📆 Завтра (15 ноября) в 16:00
Егор Черепанов расскажет про:
Новые подходы в области RL агентов с памятью
Рассмотрим два подхода: Optimus-1 и AdaMemento
🔷 Optimus-1 разработан для решения long horizon задач и протестирован в среде Minecraft. Агент использует Hybrid Multimodal Memory модуль, который включает в себя Hierarchical Directed Knowledge Graph и Abstracted Multimodal Experience Pool
🔷 AdaMemento предназначен для решения задач с разреженными наградами. Memory-reflection module позволяет учитывать положительный и отрицательный опыт, а fine-grained intrinsic motivation paradigm позволяет различать схожие состояния для улучшения exploration
Статьи:
1. Optimus-1: Hybrid Multimodal Memory Empowered Agents Excel in Long-Horizon Tasks
2. AdaMemento: Adaptive Memory-Assisted Policy Optimization for Reinforcement Learning
Подписаться⤵️
Embodied AI Reading Club
Егор Черепанов расскажет про:
Новые подходы в области RL агентов с памятью
Рассмотрим два подхода: Optimus-1 и AdaMemento
Статьи:
1. Optimus-1: Hybrid Multimodal Memory Empowered Agents Excel in Long-Horizon Tasks
2. AdaMemento: Adaptive Memory-Assisted Policy Optimization for Reinforcement Learning
Подписаться
Embodied AI Reading Club
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13🥰5🔥4
Всем привет!🔥
Итоги встречи 08.11.2024 (презентация|запись)
#LLM #VLM #RL
Встреча была посвящена построению стратегии поведения по языковой инструкции в сложных мультимодальных средах
🔺 Game On: Towards Language Models as RL Experimenters
В данной работе представлена архитектура агента, использующая большие мультимодальные языковые модели (VLM) для автоматизации экспериментов по обучению с подкреплением (RL) в областях с физическим манипулятором. Цель состоит в автоматизации процесса обучения агента, который обычно требует участия человека, включая предложение, декомпозицию и выполнение задач, а также анализ прогресса
Основные компоненты системы:
✔️ Модуль учебного плана генерирует задачи для агента, основываясь на предыдущих успехах и неудачах, и разбивает сложные задачи на последовательности подзадач
✔️ Модуль выполнения использует библиотеку навыков и выполняет предложенные задачи в виртуальной среде. По завершении эпизодов он передает данные об успешности задач для дальнейшего обучения
✔️ Модуль оценки анализирует успешность обучения, определяя, достиг ли агент поставленных целей, и добавляет освоенные навыки в библиотеку
Эксперименты показали, что использование VLM позволяет эффективно обучать агента новым навыкам, разрабатывать динамические учебные планы и создавать более сложные последовательности действий для выполнения задач
🔺 Instruction Following with Goal-Conditioned Reinforcement Learning in Virtual Environments
Подход IGOR (Instruction Following with Goal-Conditioned Reinforcement Learning) разработан для того, чтобы агент мог следовать инструкциям в сложных средах
Основные модули системы включают:
✔️ Языковой модуль (Language Module), который преобразует инструкции в последовательности подзадач
✔️ Менеджер задач (Task Manager), который управляет этими подзадачами и передает их в удобном формате в модуль стратегии
✔️ Модуль стратегии (Policy Module) — агент на основе RL, обученный для выполнения подзадач, используя наблюдения за состоянием окружения и обученный методом PPO
Подход также предусматривает обучение по учебной программе (curriculum learning), где задачи, которые оказались сложными и требуют большего числа попыток, получают приоритет для повышения общего успеха агента. Виртуальные среды IGLU и Crafter использовались для тестирования эффективности подхода. В IGLU агент строил структуры по командам, а в Crafter выполнял достижения, такие как сбор ресурсов и создание предметов. В обоих случаях IGOR превзошел существующие решения
🔺 Общие выводы
✔️ В обеих работах эффективно используется разделение функций между языковым модулем, предлагающим подзадачи, и отдельным модулем стратегии, обучаемым с помощью обучения по учебной программе
✔️ Недостатки обоих подходов: фиксированный набор навыков, на основе которых строится план, и невозможность автоматической корректировки плана во время работы агента RL
Подписаться⤵️
Embodied AI Reading Club
Итоги встречи 08.11.2024 (презентация|запись)
#LLM #VLM #RL
Встреча была посвящена построению стратегии поведения по языковой инструкции в сложных мультимодальных средах
В данной работе представлена архитектура агента, использующая большие мультимодальные языковые модели (VLM) для автоматизации экспериментов по обучению с подкреплением (RL) в областях с физическим манипулятором. Цель состоит в автоматизации процесса обучения агента, который обычно требует участия человека, включая предложение, декомпозицию и выполнение задач, а также анализ прогресса
Основные компоненты системы:
Эксперименты показали, что использование VLM позволяет эффективно обучать агента новым навыкам, разрабатывать динамические учебные планы и создавать более сложные последовательности действий для выполнения задач
Подход IGOR (Instruction Following with Goal-Conditioned Reinforcement Learning) разработан для того, чтобы агент мог следовать инструкциям в сложных средах
Основные модули системы включают:
Подход также предусматривает обучение по учебной программе (curriculum learning), где задачи, которые оказались сложными и требуют большего числа попыток, получают приоритет для повышения общего успеха агента. Виртуальные среды IGLU и Crafter использовались для тестирования эффективности подхода. В IGLU агент строил структуры по командам, а в Crafter выполнял достижения, такие как сбор ресурсов и создание предметов. В обоих случаях IGOR превзошел существующие решения
Подписаться
Embodied AI Reading Club
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5
Всем привет!🔥
📆 Завтра (22 ноября) в 16:00
Данил Григорьев расскажет про
Темпоральную логику — от формальных спецификаций к интеллектуальным системам планирования
Рассмотрим два современных подхода: SELP и CoT-TL
🔺 SELP создает безопасные планы действий роботов из NL команд через Equivalence voting для надежной генерации LTL-спецификаций, Constrained decoding для обеспечения безопасности планов и Domain-specific fine-tuning для оптимизации эффективности
🔺 CoT-TL выполняет low-resourse translation команд в LTL-спецификации, используя Chain-of-thought reasoning для построения темпоральных формул, Semantic Role Labeling для анализа структуры команд и Model checking для валидации LTL-формул
Статьи:
1. SELP: Generating Safe and Efficient Task Plans for Robot Agents with Large Language Models
2. CoT-TL: Low-Resource Temporal Knowledge Representation of Planning Instructions Using Chain-of-Thought Reasoning
🍿 Ссылка на подключение
Подписаться⤵️
Embodied AI Reading Club
Данил Григорьев расскажет про
Темпоральную логику — от формальных спецификаций к интеллектуальным системам планирования
Рассмотрим два современных подхода: SELP и CoT-TL
Статьи:
1. SELP: Generating Safe and Efficient Task Plans for Robot Agents with Large Language Models
2. CoT-TL: Low-Resource Temporal Knowledge Representation of Planning Instructions Using Chain-of-Thought Reasoning
Подписаться
Embodied AI Reading Club
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6🔥1🤗1
Всем привет!🔥
📆 Завтра (6 декабря) в 16:00
Даниил Зелезецкий расскажет про
Современные методы обучения Actor-Critic Off-Policy алгоритмов
Рассмотрим подход SAVO для сред, где небольшое отклонение от оптимального действия может привести к сильному падению эффективности агента
🔺 Путём создания суррогатных акторов и критиков, SAVO позволяет более качественно исследовать среду, опираясь на «эффект толпы», что позволяет актору меньше попадать в локальные оптимумы
🔺 Кроме того, в алгоритме SAVO используются принципы оптимизации Tabu Search, что позволяет весам агента не попадать в те состояния, в которых они был ранее
Статья:
1. Mitigating Suboptimality Of Determenistic Policy Gradients In Complex Q-functions
🍿 Ссылка на подключение
Подписаться⤵️
Embodied AI Reading Club
Даниил Зелезецкий расскажет про
Современные методы обучения Actor-Critic Off-Policy алгоритмов
Рассмотрим подход SAVO для сред, где небольшое отклонение от оптимального действия может привести к сильному падению эффективности агента
Статья:
1. Mitigating Suboptimality Of Determenistic Policy Gradients In Complex Q-functions
Подписаться
Embodied AI Reading Club
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥12
Всем привет!🔥
Итоги встречи 15.11.2024
(презентация|запись)
#RL #Memory #LLM #VLM
На встрече были разобраны новые работы по использованию механизмов памяти при принятии решений в контексте VLM и RL агентов
🔺 Optimus-1: Hybrid Multimodal Memory Empowered Agents Excel in Long-Horizon Tasks
В данной работе рассматривается VLM агент, решающий сложные задачи в среде Minecraft
Авторы считают, что существующие агенты сталкиваются с трудностями при выполнении long-horizon задач в open-world сеттинге в связи с тем, что им не хватает знания о мире и его мультимодального описания
Для решения этих проблем авторы предлагают Hybrid Multimodal Memory (HMM) модуль, который:
✔️ преобразует знание в Hierarchical Directed Knowledge Graph, позволяющий явно представить знание о мире и изучить его
✔️ суммаризует историческую информацию в Abstracted Multimodal Experience Pool, который передает агентам дополнительную информацию для in-context обучения
Вместе с Knowledge-Guided Planner и Experience-Driven Reflector модулями, необходимыми для лучшего планирования и рефлексии агента для long-horizon задач, HMM образует мультимодального агента Optimus-1
Предложенный подход позволяет нивелировать различие между топовыми проприетарными и open-sourced VLM моделямями и достичь результатов, сравнимых с человеческими, при решении задач в Minecraft
🔺 AdaMemento: Adaptive Memory-Assisted Policy Optimization for Reinforcement Learning
Механизмы памяти помогают оптимизировать стратегию в постановке задачи с разреженными функциями вознаграждения
AdaMemento — адаптивный memory-enhanced RL фреймворк, позволяющий решать такие задачи. Он состоит из Memory-reflection module, позволяющего использовать как положительный, так и отрицательный опыт, обучаясь использовать локальные стратегии на основании текущих состояний, и Coarse-fine distinction module, позволяющего эффективно собирать информативные траектории в память за счет Fine-grained intrinsic-motivation paradigm, различающей небольшие различия (нюансы) в похожих состояниях
Использование данного подхода позволило получить существенно лучшие результаты по сравнению с другими бейзлайнами на такой тяжелой задаче как Atari/Montezuma's Revenge
🔺 Общие выводы
В обеих работах используются модули внешней памяти, позволяющие подкрепить принятие решения агента дополнительной информацией, что позволяет добиваться лучших результатов по сравнению с методами без таких модулей
Подписаться⤵️
Embodied AI Reading Club
Итоги встречи 15.11.2024
(презентация|запись)
#RL #Memory #LLM #VLM
На встрече были разобраны новые работы по использованию механизмов памяти при принятии решений в контексте VLM и RL агентов
В данной работе рассматривается VLM агент, решающий сложные задачи в среде Minecraft
Авторы считают, что существующие агенты сталкиваются с трудностями при выполнении long-horizon задач в open-world сеттинге в связи с тем, что им не хватает знания о мире и его мультимодального описания
Для решения этих проблем авторы предлагают Hybrid Multimodal Memory (HMM) модуль, который:
Вместе с Knowledge-Guided Planner и Experience-Driven Reflector модулями, необходимыми для лучшего планирования и рефлексии агента для long-horizon задач, HMM образует мультимодального агента Optimus-1
Предложенный подход позволяет нивелировать различие между топовыми проприетарными и open-sourced VLM моделямями и достичь результатов, сравнимых с человеческими, при решении задач в Minecraft
Механизмы памяти помогают оптимизировать стратегию в постановке задачи с разреженными функциями вознаграждения
AdaMemento — адаптивный memory-enhanced RL фреймворк, позволяющий решать такие задачи. Он состоит из Memory-reflection module, позволяющего использовать как положительный, так и отрицательный опыт, обучаясь использовать локальные стратегии на основании текущих состояний, и Coarse-fine distinction module, позволяющего эффективно собирать информативные траектории в память за счет Fine-grained intrinsic-motivation paradigm, различающей небольшие различия (нюансы) в похожих состояниях
Использование данного подхода позволило получить существенно лучшие результаты по сравнению с другими бейзлайнами на такой тяжелой задаче как Atari/Montezuma's Revenge
В обеих работах используются модули внешней памяти, позволяющие подкрепить принятие решения агента дополнительной информацией, что позволяет добиваться лучших результатов по сравнению с методами без таких модулей
Подписаться
Embodied AI Reading Club
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🗿1
Всем привет!🔥
Итоги встречи 22.11.2024 (презентация|запись)
#LLM #LTL #Planning
На встрече были разобраны подходы к использованию временной логики для формальных спецификаций и планирования
🔺 CoT-TL: Low-Resource Temporal Knowledge Representation of Planning Instructions Using Chain-of-Thought Reasoning
В данной работе представлен подход CoT-TL (Chain-of-Thought for Temporal Logic), позволяющий переводить инструкции на естественном языке в формальные спецификации линейной временной логики (LTL) для использования в планировании для автономных агентов
Основные модули системы:
✔️ Модуль семантической разметки анализирует текстовые инструкции, выделяя роли слов (например, действие, цель, путь), что помогает точнее интерпретировать задания
✔️ Модуль генерации LTL использует цепочки рассуждений (Chain-of-Thought) для пошагового преобразования текстовых описаний в формулы LTL, что повышает интерпретируемость и точность
✔️ Модуль проверки моделей проверяет синтаксическую корректность формул LTL и их применимость с помощью автоматов Бюхи.
Эксперименты на трех наборах данных (Drone Planning, CleanUp World, Pick-and-Place) показали:
✔️ Точность перевода текстовых инструкций в LTL: 79.6% для Drone Planning, 91.7% для CleanUp World и 90.0% для Pick-and-Place
✔️ CoT-TL на базе GPT-4 показал наивысшую точность среди существующих методов при ограниченных данных, превзойдя альтернативы, не использующие обучение (на 10–15% выше).
🔺 SELP: Generating Safe and Efficient Task Plans for Robot Agents with Large Language Models
Работа посвящена созданию безопасных и эффективных планов для роботизированных агентов с использованием больших языковых моделей (LLM). Предложен подход SELP (Safe Efficient LLM Planner), который включает три ключевых механизма:
✔️ Механизм голосования эквивалентности проверяет логическую эквивалентность нескольких формул LTL, выбирая наиболее вероятную
✔️ Ограниченное декодирование преобразует LTL в автоматы Бюхи для проверки последовательности действий, исключая небезопасные шаги
✔️ Специализированное дообучение позволяет LLM генерировать планы, оптимизированные по безопасности и эффективности
Эксперименты в задачах навигации дронов и манипуляции роботами продемонстрировали:
✔️ Увеличение показателя безопасности выполнения на 10.8% и эффективности выполнения на 19.8% в задачах навигации дронов
✔️ Улучшение безопасности на 20.4% для задач манипуляции объектами
🔺 Общие выводы
Обе работы демонстрируют перспективность использования линейной временной логики (LTL) для автоматизации планирования и выполнения сложных задач. Методы, такие как цепочки рассуждений и ограниченное декодирование, помогают обеспечить безопасность, интерпретируемость и точность выполнения
Основные ограничения связаны с:
✔️ Зависимостью от зафиксированных навыков и ограниченного набора данных для обучения
✔️ Ограниченной гибкостью в обработке динамических изменений в условиях выполнения задач
Тем не менее, интеграция LTL с крупными языковыми моделями открывает возможности для создания универсальных и надежных планировщиков для роботизированных систем
Подписаться⤵️
Embodied AI Reading Club
Итоги встречи 22.11.2024 (презентация|запись)
#LLM #LTL #Planning
На встрече были разобраны подходы к использованию временной логики для формальных спецификаций и планирования
В данной работе представлен подход CoT-TL (Chain-of-Thought for Temporal Logic), позволяющий переводить инструкции на естественном языке в формальные спецификации линейной временной логики (LTL) для использования в планировании для автономных агентов
Основные модули системы:
Эксперименты на трех наборах данных (Drone Planning, CleanUp World, Pick-and-Place) показали:
Работа посвящена созданию безопасных и эффективных планов для роботизированных агентов с использованием больших языковых моделей (LLM). Предложен подход SELP (Safe Efficient LLM Planner), который включает три ключевых механизма:
Эксперименты в задачах навигации дронов и манипуляции роботами продемонстрировали:
Обе работы демонстрируют перспективность использования линейной временной логики (LTL) для автоматизации планирования и выполнения сложных задач. Методы, такие как цепочки рассуждений и ограниченное декодирование, помогают обеспечить безопасность, интерпретируемость и точность выполнения
Основные ограничения связаны с:
Тем не менее, интеграция LTL с крупными языковыми моделями открывает возможности для создания универсальных и надежных планировщиков для роботизированных систем
Подписаться
Embodied AI Reading Club
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
Всем привет!🔥
📆 Завтра (27 декабря) в 16:00 на заключительной встрече в этом году Анатолий Онищенко расскажет про
Использование графового описания сцены при планировании с LLM
Сначала кратко рассмотрим подходы к планированию с использованием LLM, такие как ReAct и DELTA
Далее перейдём к методам, использующим графовое представление сцены:
🔺 SayPlan: генерирует план, предоставляя LLM текстовое описание API и графа, затем использует граф для проверки плана и получения обратной связи для корректировки
🔺 VeriGraph: строит граф сцены по изображению и проверяет решение с помощью визуальных языковых моделей (VLM)
Кроме того, отдельно выделим подходы для планирования и обновления графов сцены:
🔺 Multi-Modal 3D Scene Graph Updater: обновляет графы сцены, используя данные из разных источников
🔺 SWIFTSAGE: применяет два модуля LLM для быстрого и для продуманного планирования
Статьи:
1. ReAct: Synergizing Reasoning and Acting in Language Models
2. DELTA: Decomposed Efficient Long-Term Robot Task Planning using Large Language Models
3. SayPlan: Grounding Large Language Models using 3D Scene Graphs for Scalable Robot Task Planning
4. VeriGraph: Scene Graphs for Execution Verifiable Robot Planning
5. Multi-Modal 3D Scene Graph Updater for Shared and Dynamic Environments
6. SwiftSage: A Generative Agent with Fast and Slow Thinking for Complex Interactive Tasks
🍿 Ссылка на подключение
Подписаться⤵️
Embodied AI Reading Club
Использование графового описания сцены при планировании с LLM
Сначала кратко рассмотрим подходы к планированию с использованием LLM, такие как ReAct и DELTA
Далее перейдём к методам, использующим графовое представление сцены:
Кроме того, отдельно выделим подходы для планирования и обновления графов сцены:
Статьи:
1. ReAct: Synergizing Reasoning and Acting in Language Models
2. DELTA: Decomposed Efficient Long-Term Robot Task Planning using Large Language Models
3. SayPlan: Grounding Large Language Models using 3D Scene Graphs for Scalable Robot Task Planning
4. VeriGraph: Scene Graphs for Execution Verifiable Robot Planning
5. Multi-Modal 3D Scene Graph Updater for Shared and Dynamic Environments
6. SwiftSage: A Generative Agent with Fast and Slow Thinking for Complex Interactive Tasks
Подписаться
Embodied AI Reading Club
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4
Всем привет в Новом году!🔥
📆 Завтра (10 января) в 16:00
Алсу Сагирова расскажет про
Механизмы коммуникации и кооперации агентов в задачах multi-agent reinforcement learning (MARL)
Многоагентное обучение с подкреплением (MARL) эффективно применяется для решения кооперативных и соревновательных задач для мультиагентных систем в различных средах. Одной из проблем MARL является необходимость явного прогнозирования поведения агентов для обеспечения их кооперации. Мы рассмотрим два подхода, использующих знания агентов в неявном виде для их коммуникации и совместного решения задач
Статьи:
1. Scalable Multi-Agent Model-Based Reinforcement Learning
2. Recurrent Memory Improves Multi-agent Pathfinding
🍿 Ссылка на подключение
Подписаться⤵️
Embodied AI Reading Club
Алсу Сагирова расскажет про
Механизмы коммуникации и кооперации агентов в задачах multi-agent reinforcement learning (MARL)
Многоагентное обучение с подкреплением (MARL) эффективно применяется для решения кооперативных и соревновательных задач для мультиагентных систем в различных средах. Одной из проблем MARL является необходимость явного прогнозирования поведения агентов для обеспечения их кооперации. Мы рассмотрим два подхода, использующих знания агентов в неявном виде для их коммуникации и совместного решения задач
Статьи:
1. Scalable Multi-Agent Model-Based Reinforcement Learning
2. Recurrent Memory Improves Multi-agent Pathfinding
Подписаться
Embodied AI Reading Club
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8👍3❤1😱1
Всем привет!🔥
📆 Завтра (24 января) в 16:00
Григорий Бухтуев расскажет про
Интеграцию больших языковых моделей в обучение с подкреплением для решения сложных задач в робототехнике
При планировании с LLM необходимо иметь заранее готовую библиотеку навыков, которые может выполнить агент и из которых формируется план. Это ограничивает применение в задачах, для которых таких навыков ещё нет. На встрече рассмотрим как работы, которые частично решают эту проблему, так и в целом улучшающие качество планирования
Статьи:
1. Policy Adaptation via Language Optimization: Decomposing Tasks for Few-Shot Imitation
2. Eurekaverse: Environment Curriculum Generation via Large Language Models
3. SPIRE: Synergistic Planning, Imitation, and Reinforcement Learning for Long-Horizon Manipulation
4. Plan-Seq-Learn: Language Model Guided RL for Solving Long Horizon Robotic Tasks
5. GenSim: Generating Robotic Simulation Tasks via Large Language Models
6. GenSim2: Scaling Robot Data Generation with Multi-modal and Reasoning LLMs
🍿 Ссылка на подключение
Подписаться⤵️
Embodied AI Reading Club
Григорий Бухтуев расскажет про
Интеграцию больших языковых моделей в обучение с подкреплением для решения сложных задач в робототехнике
При планировании с LLM необходимо иметь заранее готовую библиотеку навыков, которые может выполнить агент и из которых формируется план. Это ограничивает применение в задачах, для которых таких навыков ещё нет. На встрече рассмотрим как работы, которые частично решают эту проблему, так и в целом улучшающие качество планирования
Статьи:
1. Policy Adaptation via Language Optimization: Decomposing Tasks for Few-Shot Imitation
2. Eurekaverse: Environment Curriculum Generation via Large Language Models
3. SPIRE: Synergistic Planning, Imitation, and Reinforcement Learning for Long-Horizon Manipulation
4. Plan-Seq-Learn: Language Model Guided RL for Solving Long Horizon Robotic Tasks
5. GenSim: Generating Robotic Simulation Tasks via Large Language Models
6. GenSim2: Scaling Robot Data Generation with Multi-modal and Reasoning LLMs
Подписаться
Embodied AI Reading Club
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥11👍4
Всем привет!🔥
📆 Сегодня (7 февраля) в 16:00
Дарья Гиталова расскажет про
Возможности повышения надежности ответов LLM: анализ неопределенности и способы её уменьшения
Рассмотрим исследование LLM в контексте следования инструкциям, обсудим методы разложения неопределенности, включая Input Clarification Ensembling, позволяющий уточнять вводные данные для уменьшения эпистемической неопределенности. Также обсудим как Random Walk Laplacian и графовая структура при построение направленной логики вывода модели могут помочь в задачах количественной оценки её неопределенности
Статьи:
1. Do LLMs Estimate Uncertainty Well In Instruction-Following?
2. Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling
3. LLM Uncertainty Quantification through Directional Entailment Graph and Claim Level Response Augmentation
🍿 Ссылка на подключение
Подписаться⤵️
Embodied AI Reading Club
Дарья Гиталова расскажет про
Возможности повышения надежности ответов LLM: анализ неопределенности и способы её уменьшения
Рассмотрим исследование LLM в контексте следования инструкциям, обсудим методы разложения неопределенности, включая Input Clarification Ensembling, позволяющий уточнять вводные данные для уменьшения эпистемической неопределенности. Также обсудим как Random Walk Laplacian и графовая структура при построение направленной логики вывода модели могут помочь в задачах количественной оценки её неопределенности
Статьи:
1. Do LLMs Estimate Uncertainty Well In Instruction-Following?
2. Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling
3. LLM Uncertainty Quantification through Directional Entailment Graph and Claim Level Response Augmentation
Подписаться
Embodied AI Reading Club
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👍1
Всем привет!🔥
📆 В эту пятницу (21 февраля) в 16:00
Егор Черепанов разберёт статью
Flow Q-Learning
Рассмотрим Flow Matching в контексте Offline RL Q-Learning, обсудим трудности, которые могут возникнуть при наивном применении Flow Matching, и предложенное решение этой проблемы с помощью техники one-step guidance. Этот подход включает обучение отдельных one-step стратегий с использованием RL и потоковой стратегии с BC, что позволяет избежать сложных проблем, связанных с guiding итеративных генеративных моделей, таких как recursive backpropagation
Статья:
1. Flow Q-Learning
🍿 Ссылка на подключение
Подписаться⤵️
Embodied AI Reading Club
Егор Черепанов разберёт статью
Flow Q-Learning
Рассмотрим Flow Matching в контексте Offline RL Q-Learning, обсудим трудности, которые могут возникнуть при наивном применении Flow Matching, и предложенное решение этой проблемы с помощью техники one-step guidance. Этот подход включает обучение отдельных one-step стратегий с использованием RL и потоковой стратегии с BC, что позволяет избежать сложных проблем, связанных с guiding итеративных генеративных моделей, таких как recursive backpropagation
Статья:
1. Flow Q-Learning
Подписаться
Embodied AI Reading Club
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥12🌭2🥴1