Embodied AI Reading Club
454 subscribers
18 photos
39 links
Канал книжного клуба команды Embodied agents Лаборатории Cognitive AI Systems AIRI
Download Telegram
Channel photo updated
Channel name was changed to «Embodied AI Reading Club»
Всем привет!

Это канал книжного клуба команды Embodied agents 🤖Лаборатории Cognitive AI Systems AIRI

На наших встречах будем разбирать как работы по Embodied AI, планированию с LLM, RL для роботов, так и по другим релевантным темам

В канале будут анонсы ближайших встреч и материалы выступлений. Материалы прошлых выступление и предварительный план будущих можно посмотреть по ссылке

Предложения по выступлениям и статьям/темам для обсуждения пишите @AlexeyKKovalev
Embodied AI Reading Club pinned «Всем привет! Это канал книжного клуба команды Embodied agents 🤖Лаборатории Cognitive AI Systems AIRI На наших встречах будем разбирать как работы по Embodied AI, планированию с LLM, RL для роботов, так и по другим релевантным темам В канале будут анонсы…»
В эту пятницу 27 сенября в 15:00 Анастасия Иванова расскажет про

Методы определения неопределённости языковых моделей

В частности, про семантическую энтропию, решающую проблему получения разной энтропии у семантически эквивалентных предложений в различных формулировках (The capital of France is Paris = France’s capital is Paris). Также рассмотрим две статьи, в которых обсуждается, можно ли вычислить неуверенность модели элицитацией — извлечением эксплицитной информации про неуверенность модели от модели, а также можно ли с помощью определения неуверенности языковой модели уменьшить количество галлюцинаций и повысить reliability модели

Статьи:
1. Semantic Uncertainty: Linguistic Invariances for Uncertainty Estimation in Natural Language Generation
2. Can LLMs Express Their Uncertainty? An Empirical Evaluation of Confidence Elicitation in LLMs
3. Just Ask for Calibration: Strategies for Eliciting Calibrated Confidence Scores from Language Models Fine-Tuned with Human Feedback
4. Uncertainty-Based Abstention in LLMs Improves Safety and Reduces Hallucinations

Ссылка на подключение будет позже
🔥7
4 октября в 16:00 Ника Морозова расскажет про

Применение трансформерных моделей для Embodied AI

Трансформерные модели находят широкое применение в области воплощенного интеллекта, позволяя физическим агентам эффективно обрабатывать сенсорные данные и принимать решения в динамичных условиях. Трансформерные модели способны адаптироваться к изменениям в окружении, улучшая восприятие и взаимодействие с миром агента. Рассмотрим SOTA архитектуры трансформерных моделей в применении к Embodied AI

Статьи:
1. PoliFormer: Scaling On-Policy RL with Transformers Results in Masterful Navigators
2. ReLIC: A recipe for 64k steps In-Context Reinforcement Learning for Embodied AI
3. Octo: An Open-Source Generalist Robot Policy
4. OpenVLA: An Open-Source Vision-Language-Action Model
5. V-Former: Offline RL with Temporally-Extended Actions
6. Q-Transformer: Scalable Offline Reinforcement Learning via Autoregressive Q-Functions
7. Evaluating Real-World Robot Manipulation Policies in Simulation
8. Offline Pre-trained Multi-Agent Decision Transformer: One Big Sequence Model Tackles All SMAC Tasks

Ссылка на подключение будет позже
🔥12🎉1
Ссылка на встречу 27.09 по теме

Методы определения неопределённости языковых моделей

❗️Начало в 15:00
1
Итоги встречи 27.09.2024 (презентация|запись) 1/2
#LLM #uncertainty

Встреча была посвящена методам измерения неопределённости (больших) языковых моделей (LLM) в генерации следующих токенов

Традиционный подход вычисления такой неопределённости — это энтропия, считающаяся на основании логитов модели, однако у неё есть минусы

В работе «Semantic Uncertainty: Linguistic Invariances for Uncertainty Estimation in Natural Language Generation» [1] замечается, что у семантически эквивалентных предложений ("The capital of France is Paris" и "France’s capital is Paris.") разная энтропия, потому что она считается на основании вероятностей токенов, а не смыслов слов

Эту проблему решает предложенная в статье семантическая энтропия. Алгоритм её вычисления заключается в следующем:

1️⃣ С помощью LLM сэмплируется несколько вариантов продолжения текста по промпту

2️⃣ Среди них ищутся семантически эквивалентные предложения. Семантически эквивалентными являются такие предложения, что, если из предложения А следует предложение Б, и наоборот (процедуры из natural language entailment)

3️⃣ Вычисляется сумма энтропий семантически эквивалентных генераций — семантическая энтропия

Методы оценки неопределённости языковых моделей сравниваются на вопросно-ответных датасетах, потому что должно выполняться, что чем неувереннее генерация, тем менее вероятно, что ответ модели правильный. Эксперименты на GPT-like моделях (OPT с разным количеством параметров) и датасетах CoQA и TriviaQA в работе [1] показали, что семантическая энтропия лучше предсказывает перформанс модели, чем другие бейзлайны. Этот метод является unsupervised и использует только одну языковую модель, но не может быть использован в неизменном виде для black-box моделей (например, GPT-3.5 и старше), потому что опирается на логиты

В статье «Can LLMs Express Their Uncertainty? An Empirical Evaluation of Confidence Elicitation in LLMs» [2], напротив, предлагается Confidence Elicitation framework, подходящий для black-box моделей

Задача оценки неопределённости в этом фреймворке делится на три компонента: формулировка промпта, стратегия сэмлинга и агрегация результатов. Confidence Elicitation framework позволяет выбрать любое сочетание всех компонентов в качестве оценки неопределённости модели. Например, можно оценивать неопределенность с помощью Top-K промптинга (вербализация неуверенности через числа — ”Provide your K best guesses and the probability that each is correct (0% to 100%) for the following question."), Self-random семплинга (генерация последовательности по одному промпту несколько раз) и Consistency агрегации (доля вариантов, совпадающих с верным ответом)

Пользуясь фреймворком и большими языковыми моделями (Vicuna 13B, GPT-3 175B, GPT-3.5-turbo, GPT-4, LLaMA 2 70B), авторы сравнивают между собой множество стратегий оценки неопределённости. Эксперименты, среди прочего, показывают что:

1️⃣ LLMs чересчур уверены (overconfident), если вербализируют уверенность, т. е. отвечают на вопрос о своей уверенности в ответе

2️⃣ Стратегии промптинга частично уменьшают overconfidence модели

3️⃣ Не существует лучшей стратегии промптинга

4️⃣ Использование методов агрегации, опирающихся на вербализированную уверенность, лучше, чем Consistency-only агрегация

При этом в качестве метода оценки неопределённости на новой задаче можно попробовать Top-K prompting + Self-Random sampling + Avg-Conf / Pair-Rank aggregation.
🔥7👍3👏1🤩1
Итоги встречи 27.09.2024 (презентация|запись) 2/2
#LLM #uncertainty

Статья «Just Ask for Calibration: Strategies for Eliciting Calibrated Confidence Scores from Language Models Fine-Tuned with Human Feedback» [3] также посвящена оценке методов неопределённости LLM, но сравнивает другой набор методов и фокусируется на моделях, дообученных с RLHF

Помимо упомянутых ранее методов, в статье тестируется метод лингвистической вербализации неуверенности модели, когда модель должна рассказать про свою неуверенность в терминах естественного языка (шкала Almost certain, Likely, . . . , Almost no chance)

По результатам экспериментов с ChatGPT, GPT-4, Claude и на нескольких QA датасетах у больших RLHF-LMs более скалиброванными оказались вербализованные скоры неуверенности (числом или на естественном языке), чем внутренние вероятности (логиты)

Помимо этого, выяснилось, что сэмплинг улучшает скалиброванность, а Chain-of-thought prompting не улучшает скалиброванность методов с вербализацией

Также в предшествующих работах есть наблюдение, что confidence scores плохо скалиброваны (т. е. плохо отражают реальную неуверенность модели), если модель дообучалась с RLHF, и статья [3] подверждает это. Возможный выход — опираться на вербализованную числом или текстом неуверенность

Работа «Uncertainty-Based Abstention in LLMs Improves Safety and Reduces Hallucinations» [4] также фокусируется на моделях с RLHF, но отличается от предыдущих работ тем, что сравнивает разные методы оценки неопределённости для задачи abstention от ответа — отказа отвечать, если модель сильно не уверена в ответе (“I don’t know”)

Вербализованная неуверенность в статье называется внутридиалоговой неуверенностью (In-Dialogue Uncertainty) и сравнивается со статистической неуверенностью

Эксперименты показывают, что во всех рассмотренных авторами ситуациях верно подобранная мера внутридиалоговой неуверенности улучшает abstention, чего статистическая уверенность не делает. Кроме того, In-Dialogue uncertainty уменьшает количество галлюцинаций для вопросов, на которые невозможно ответить ("What color iPhone did Einstein prefer?")

Выводы
Рассмотренные работы показывают, что существует множество различных вариантов получения оценок неуверенности модели, в зависимости от задачи может быть полезен конкретный метод

Традиционно использующаяся энтропия не учитывает смысл текст [1, 2], и иногда полезными оказываются методы, основанные на вераблизации неуверенности [3]

Кроме того, оценку неопределённости модели удобно концептуализировать через prompting, sampling, aggregation [2]
🔥6👏1
‼️ Сегодня встреча книжного клуба отменяется

Следующая тема будет объявлена позже
😭14👌2👍1
Всем привет!

На этой неделе наверстываем упущенное 🔥

11 октября в 16:00 Ника Морозова расскажет про

Применение трансформерных моделей для Embodied AI

Трансформерные модели находят широкое применение в области воплощенного интеллекта, позволяя физическим агентам эффективно обрабатывать сенсорные данные и принимать решения в динамичных условиях. Трансформерные модели способны адаптироваться к изменениям в окружении, улучшая восприятие и взаимодействие с миром агента. Рассмотрим SOTA архитектуры трансформерных моделей в применении к Embodied AI

Статьи:
1. PoliFormer: Scaling On-Policy RL with Transformers Results in Masterful Navigators
2. ReLIC: A recipe for 64k steps In-Context Reinforcement Learning for Embodied AI
3. Octo: An Open-Source Generalist Robot Policy
4. OpenVLA: An Open-Source Vision-Language-Action Model
5. V-Former: Offline RL with Temporally-Extended Actions
6. Q-Transformer: Scalable Offline Reinforcement Learning via Autoregressive Q-Functions
7. Evaluating Real-World Robot Manipulation Policies in Simulation
8. Offline Pre-trained Multi-Agent Decision Transformer: One Big Sequence Model Tackles All SMAC Tasks

Ссылка на подключение будет позже
🔥14👍1
Ссылка на встречу 11.10 по теме

Применение трансформерных моделей для Embodied AI

❗️Начало в 16:00
👍7🔥7
Всем привет!

Завтра (18 октября) в 17:15 Ева Бакаева расскажет про

Vision-and-Language Navigation

В докладе будет представлен обзор различных задач и направлений области Vision-and-Language Navigation (VLN). Рассмотрим основные VLN бенчмарки, использование LLM и VLM для их решения и актуальные работы

Статьи:
1. Vision-and-Language Navigation: Interpreting visually-grounded navigation instructions in real environments
2. REVERIE: Remote Embodied Visual Referring Expression in Real Indoor Environments
3. Room-Across-Room: Multilingual Vision-and-Language Navigation with Dense Spatiotemporal Grounding
4. Touchdown: Natural Language Navigation and Spatial Reasoning in Visual Street Environments
5. Vision-based Navigation with Language-based Assistance via Imitation Learning with Indirect Intervention
6. CoWs on Pasture: Baselines and Benchmarks for Language-Driven Zero-Shot Object Navigation
7. Memory-Maze: Scenario Driven Benchmark and Visual Language Navigation Model for Guiding Blind People
8. LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language, Vision, and Action
9. NaVid: Video-based VLM Plans the Next Step for Vision-and-Language Navigation
10. BehAV: Behavioral Rule Guided Autonomy Using VLMs for Robot Navigation in Outdoor Scenes

Ссылка на подключение будет позже
🔥92
Ссылка на встречу 18.10 по теме

Vision-and-Language Navigation

❗️Начало в 17:15
👍4