Embodied AI Reading Club
464 subscribers
19 photos
40 links
Канал книжного клуба команды Embodied agents Лаборатории Cognitive AI Systems AIRI
Download Telegram
Всем привет!🔥

📆В эту пятницу (6 июня) в 17:00 Дарья Гиталова расскажет про

Подходы к измерению и контролю неопределённости в planning- и reasoning-сценариях с LLM

Большие языковые модели всё чаще используются для планирования и генерации формальных знаний — от логических доказательств до инструкций для роботов. Однако их вывод сопровождается различными формами неопределённости, которые важно уметь выявлять и контролировать

В докладе рассматриваются современные методы выявления и калибровки неопределённости LLM — от вероятностных контекстно-свободных грамматик (PCFG) до attention-based маргинализации цепочек рассуждений. Обсудим, как грамматические структуры помогают предсказывать провалы в логических задачах, почему роботы «теряются» при расплывчатых референциях в пользовательских инструкциях и как количество примеров влияет на эпистемическую неопределённость в сложных задачах

Статьи:
1. REI-Bench: Can Embodied Agents Understand Vague Human Instructions in Task Planning?
2. Grammars of Formal Uncertainty: When to Trust LLMs in Automated Reasoning Tasks
3. Uncertainty Unveiled: Can Exposure to More In-context Examples Mitigate Uncertainty for Large Language Models?
4. Language Model Uncertainty Quantification with Attention Chain

🍿Ссылка на подключение

Подписаться⤵️
Embodied AI Reading Club
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8🔥6
Всем привет!🔥

📆В эту пятницу (4 июля) в 17:00 Алиса Петрова расскажет про

Как научить LLM задавать уточняющие вопросы и работать с неоднозначными инструкциями?

Современные LLM всё чаще используются в диалоговых агентах и инструментах автоматизации, но их работа часто страдает из-за неясных или двусмысленных запросов. Как научить модели распознавать неопределённость и просить уточнения? Какие типы неоднозначностей мешают им чаще всего? И как самоисправление помогает в использовании инструментов?

В докладе разберём ключевые подходы к генерации уточняющих вопросов — от предсказания будущих реплик в диалоге до классификации типов неоднозначностей. Обсудим, почему LLM часто молчат вместо того, чтобы переспросить, как моделировать контекст для лучшего уточнения и какие методы self-correction улучшают работу с инструментами

Статьи:
1. Learning to Ask: When LLM Agents Meet Unclear Instruction
2. Modeling Future Conversation Turns to Teach LLMs to Ask Clarifying Questions
3. Clarifying Ambiguities: on the Role of Ambiguity Types in Prompting Methods for Clarification Generation
4. AskToAct: Enhancing LLMs Tool Use via Self-Correcting Clarification

🍿Ссылка на подключение

Подписаться⤵️
Embodied AI Reading Club
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🔥4
Всем привет!🔥

📆Сегодня (8 августа) в 17:00 Даниил Казачков расскажет про то

Как ускорить мультимодальные модели без потери качества (эффективное сокращение визуальных токенов)

Современные мультимодальные модели способны хорошо обрабатывать тексты, изображения и видео. Но за эту универсальность приходится платить: за счет большего числа токенов от фото-видео данных, растет необходимость в больших вычислительных ресурсах, падает скорость инференса. Можно ли уменьшить количество визуальных токенов, не жертвуя точностью?

В докладе разберём ключевые подходы к сжатию визуальной информации в LLM-пайплайне: от удаления малозначимых токенов до их кластеризации и отбора максимально разнообразного подмножества. Обсудим, как решается задача отбора токенов без обучения и почему классические метрики важности не работают в эгоцентричных видео. Покажем, как архитектуры вроде PACT, EgoPrune, DivPrune и HiPrune делают визуально-языковые модели быстрее и легче, сохраняя при этом высокую точность на десятках датасетов

Статьи:
1. DivPrune: Diversity-based Visual Token Pruning for Large Multimodal Models
2. PACT: Pruning and Clustering-Based Token Reduction for Faster Visual Language Models
3. EgoPrune: Efficient Token Pruning for Egomotion Video Reasoning in Embodied Agent
4. HiPrune: Training-Free Visual Token Pruning via Hierarchical Attention in Vision-Language Models

🍿Ссылка на подключение

Подписаться⤵️
Embodied AI Reading Club
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥101
Всем привет!🔥

📆 В эту пятницу (29.08) в 17:00 Егор Черепанов расскажет про то

Как на самом деле тестировать память у RL-агентов

Сегодня в исследованиях RL почти каждая новая модель включает какой-то механизм памяти,  но насколько хорошо мы умеем проверять, действительно ли агент её использует?

Для обсуждения мы возьмём три свежих работы:
⚫️POBAX предлагает систематический набор задач, где частичная наблюдаемость делает память ключевым фактором. Эти задачи подобраны так, чтобы простое «увеличение модели» не помогало, и действительно требовалось хранить историю
⚫️Synthetic POMDPs идут ещё дальше: авторы формализуют понятие Memory Demand Structure и показывают, как синтетически конструировать среды с заранее известной «нагрузкой на память». Это позволяет строить тесты для конкретных гипотез
⚫️POPGym Arcade фокусируется на практической стороне: пиксельные среды с MDP/POMDP-близнецами, GPU-ускорение и уникальные инструменты для визуализации, какие именно наблюдения агент запомнил и как они влияют на будущее поведение

Обсудим, как такие инструменты можно использовать для выбора архитектуры, настройки агентов и выявления слабых мест памяти

Статьи:
1. Benchmarking Partial Observability in Reinforcement Learning with a Suite of Memory-Improvable Domains
2. Synthetic POMDPs to Challenge Memory-Augmented RL: Memory Demand Structure Modeling
3. POPGym Arcade: Parallel Pixelated POMDPs

🍿Ссылка на подключение

Подписаться⤵️
Embodied AI Reading Club
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥93👎1🤮1💩1🥴1