Всем привет!🔥
📆 Сегодня (23 мая) в 16:00
Егор Черепанов расскажет про
DBGFQN: компактный трансформер с двунаправленной памятью для POMDP
В частично наблюдаемых средах агенту доступна лишь ограниченная информация о состоянии мира, поэтому для принятия решений он должен опираться на память о прошлом. Классические RNN — лёгкие, но плохо запоминают долгосрочные зависимости; трансформеры справляются с этим лучше, однако становятся громоздкими: до 80 % параметров приходится на feed-forward блоки. Недавняя работа DBGFQN [1] показывает, что эти блоки можно вовсе убрать и заменить всего одним слоем двунаправленного GRU после self-attention. Это снижает число параметров на 25 %, ускоряет обучение и существенно повышает качество — вплоть до +80 п.п. успеха в сложных задачах с частичной наблюдаемостью
На встрече обсудим:
⚫️ Почему FFN-блок не обязателен и где он даже вредит
⚫️ Как двунаправленная GRU дополняет контекст на текущем шаге;
⚫️ Практические выводы для роботов и edge-RL: меньше вес — дольше батарея
Статьи:
1. Bi-directional Recurrence Improves Transformer in Partially Observable Markov Decision Processes
🍿 Ссылка на подключение
Подписаться⤵️
Embodied AI Reading Club
Егор Черепанов расскажет про
DBGFQN: компактный трансформер с двунаправленной памятью для POMDP
В частично наблюдаемых средах агенту доступна лишь ограниченная информация о состоянии мира, поэтому для принятия решений он должен опираться на память о прошлом. Классические RNN — лёгкие, но плохо запоминают долгосрочные зависимости; трансформеры справляются с этим лучше, однако становятся громоздкими: до 80 % параметров приходится на feed-forward блоки. Недавняя работа DBGFQN [1] показывает, что эти блоки можно вовсе убрать и заменить всего одним слоем двунаправленного GRU после self-attention. Это снижает число параметров на 25 %, ускоряет обучение и существенно повышает качество — вплоть до +80 п.п. успеха в сложных задачах с частичной наблюдаемостью
На встрече обсудим:
Статьи:
1. Bi-directional Recurrence Improves Transformer in Partially Observable Markov Decision Processes
Подписаться
Embodied AI Reading Club
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10🥴1
Всем привет!🔥
📆 В эту пятницу (6 июня) в 17:00 Дарья Гиталова расскажет про
Подходы к измерению и контролю неопределённости в planning- и reasoning-сценариях с LLM
Большие языковые модели всё чаще используются для планирования и генерации формальных знаний — от логических доказательств до инструкций для роботов. Однако их вывод сопровождается различными формами неопределённости, которые важно уметь выявлять и контролировать
В докладе рассматриваются современные методы выявления и калибровки неопределённости LLM — от вероятностных контекстно-свободных грамматик (PCFG) до attention-based маргинализации цепочек рассуждений. Обсудим, как грамматические структуры помогают предсказывать провалы в логических задачах, почему роботы «теряются» при расплывчатых референциях в пользовательских инструкциях и как количество примеров влияет на эпистемическую неопределённость в сложных задачах
Статьи:
1. REI-Bench: Can Embodied Agents Understand Vague Human Instructions in Task Planning?
2. Grammars of Formal Uncertainty: When to Trust LLMs in Automated Reasoning Tasks
3. Uncertainty Unveiled: Can Exposure to More In-context Examples Mitigate Uncertainty for Large Language Models?
4. Language Model Uncertainty Quantification with Attention Chain
🍿 Ссылка на подключение
Подписаться⤵️
Embodied AI Reading Club
Подходы к измерению и контролю неопределённости в planning- и reasoning-сценариях с LLM
Большие языковые модели всё чаще используются для планирования и генерации формальных знаний — от логических доказательств до инструкций для роботов. Однако их вывод сопровождается различными формами неопределённости, которые важно уметь выявлять и контролировать
В докладе рассматриваются современные методы выявления и калибровки неопределённости LLM — от вероятностных контекстно-свободных грамматик (PCFG) до attention-based маргинализации цепочек рассуждений. Обсудим, как грамматические структуры помогают предсказывать провалы в логических задачах, почему роботы «теряются» при расплывчатых референциях в пользовательских инструкциях и как количество примеров влияет на эпистемическую неопределённость в сложных задачах
Статьи:
1. REI-Bench: Can Embodied Agents Understand Vague Human Instructions in Task Planning?
2. Grammars of Formal Uncertainty: When to Trust LLMs in Automated Reasoning Tasks
3. Uncertainty Unveiled: Can Exposure to More In-context Examples Mitigate Uncertainty for Large Language Models?
4. Language Model Uncertainty Quantification with Attention Chain
Подписаться
Embodied AI Reading Club
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8🔥6
Всем привет!🔥
📆 В эту пятницу (4 июля) в 17:00 Алиса Петрова расскажет про
Как научить LLM задавать уточняющие вопросы и работать с неоднозначными инструкциями?
Современные LLM всё чаще используются в диалоговых агентах и инструментах автоматизации, но их работа часто страдает из-за неясных или двусмысленных запросов. Как научить модели распознавать неопределённость и просить уточнения? Какие типы неоднозначностей мешают им чаще всего? И как самоисправление помогает в использовании инструментов?
В докладе разберём ключевые подходы к генерации уточняющих вопросов — от предсказания будущих реплик в диалоге до классификации типов неоднозначностей. Обсудим, почему LLM часто молчат вместо того, чтобы переспросить, как моделировать контекст для лучшего уточнения и какие методы self-correction улучшают работу с инструментами
Статьи:
1. Learning to Ask: When LLM Agents Meet Unclear Instruction
2. Modeling Future Conversation Turns to Teach LLMs to Ask Clarifying Questions
3. Clarifying Ambiguities: on the Role of Ambiguity Types in Prompting Methods for Clarification Generation
4. AskToAct: Enhancing LLMs Tool Use via Self-Correcting Clarification
🍿 Ссылка на подключение
Подписаться⤵️
Embodied AI Reading Club
Как научить LLM задавать уточняющие вопросы и работать с неоднозначными инструкциями?
Современные LLM всё чаще используются в диалоговых агентах и инструментах автоматизации, но их работа часто страдает из-за неясных или двусмысленных запросов. Как научить модели распознавать неопределённость и просить уточнения? Какие типы неоднозначностей мешают им чаще всего? И как самоисправление помогает в использовании инструментов?
В докладе разберём ключевые подходы к генерации уточняющих вопросов — от предсказания будущих реплик в диалоге до классификации типов неоднозначностей. Обсудим, почему LLM часто молчат вместо того, чтобы переспросить, как моделировать контекст для лучшего уточнения и какие методы self-correction улучшают работу с инструментами
Статьи:
1. Learning to Ask: When LLM Agents Meet Unclear Instruction
2. Modeling Future Conversation Turns to Teach LLMs to Ask Clarifying Questions
3. Clarifying Ambiguities: on the Role of Ambiguity Types in Prompting Methods for Clarification Generation
4. AskToAct: Enhancing LLMs Tool Use via Self-Correcting Clarification
Подписаться
Embodied AI Reading Club
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🔥3
Всем привет!🔥
📆 Сегодня (8 августа) в 17:00 Даниил Казачков расскажет про то
Как ускорить мультимодальные модели без потери качества (эффективное сокращение визуальных токенов)
Современные мультимодальные модели способны хорошо обрабатывать тексты, изображения и видео. Но за эту универсальность приходится платить: за счет большего числа токенов от фото-видео данных, растет необходимость в больших вычислительных ресурсах, падает скорость инференса. Можно ли уменьшить количество визуальных токенов, не жертвуя точностью?
В докладе разберём ключевые подходы к сжатию визуальной информации в LLM-пайплайне: от удаления малозначимых токенов до их кластеризации и отбора максимально разнообразного подмножества. Обсудим, как решается задача отбора токенов без обучения и почему классические метрики важности не работают в эгоцентричных видео. Покажем, как архитектуры вроде PACT, EgoPrune, DivPrune и HiPrune делают визуально-языковые модели быстрее и легче, сохраняя при этом высокую точность на десятках датасетов
Статьи:
1. DivPrune: Diversity-based Visual Token Pruning for Large Multimodal Models
2. PACT: Pruning and Clustering-Based Token Reduction for Faster Visual Language Models
3. EgoPrune: Efficient Token Pruning for Egomotion Video Reasoning in Embodied Agent
4. HiPrune: Training-Free Visual Token Pruning via Hierarchical Attention in Vision-Language Models
🍿 Ссылка на подключение
Подписаться⤵️
Embodied AI Reading Club
Как ускорить мультимодальные модели без потери качества (эффективное сокращение визуальных токенов)
Современные мультимодальные модели способны хорошо обрабатывать тексты, изображения и видео. Но за эту универсальность приходится платить: за счет большего числа токенов от фото-видео данных, растет необходимость в больших вычислительных ресурсах, падает скорость инференса. Можно ли уменьшить количество визуальных токенов, не жертвуя точностью?
В докладе разберём ключевые подходы к сжатию визуальной информации в LLM-пайплайне: от удаления малозначимых токенов до их кластеризации и отбора максимально разнообразного подмножества. Обсудим, как решается задача отбора токенов без обучения и почему классические метрики важности не работают в эгоцентричных видео. Покажем, как архитектуры вроде PACT, EgoPrune, DivPrune и HiPrune делают визуально-языковые модели быстрее и легче, сохраняя при этом высокую точность на десятках датасетов
Статьи:
1. DivPrune: Diversity-based Visual Token Pruning for Large Multimodal Models
2. PACT: Pruning and Clustering-Based Token Reduction for Faster Visual Language Models
3. EgoPrune: Efficient Token Pruning for Egomotion Video Reasoning in Embodied Agent
4. HiPrune: Training-Free Visual Token Pruning via Hierarchical Attention in Vision-Language Models
Подписаться
Embodied AI Reading Club
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9❤1