Всем привет!
Это канал книжного клуба команды Embodied agents 🤖Лаборатории Cognitive AI Systems AIRI
На наших встречах будем разбирать как работы по Embodied AI, планированию с LLM, RL для роботов, так и по другим релевантным темам
В канале будут анонсы ближайших встреч и материалы выступлений. Материалы прошлых выступление и предварительный план будущих можно посмотреть по ссылке
Предложения по выступлениям и статьям/темам для обсуждения пишите @AlexeyKKovalev
Это канал книжного клуба команды Embodied agents 🤖Лаборатории Cognitive AI Systems AIRI
На наших встречах будем разбирать как работы по Embodied AI, планированию с LLM, RL для роботов, так и по другим релевантным темам
В канале будут анонсы ближайших встреч и материалы выступлений. Материалы прошлых выступление и предварительный план будущих можно посмотреть по ссылке
Предложения по выступлениям и статьям/темам для обсуждения пишите @AlexeyKKovalev
Embodied AI Reading Club pinned «Всем привет! Это канал книжного клуба команды Embodied agents 🤖Лаборатории Cognitive AI Systems AIRI На наших встречах будем разбирать как работы по Embodied AI, планированию с LLM, RL для роботов, так и по другим релевантным темам В канале будут анонсы…»
В эту пятницу 27 сенября в 15:00 Анастасия Иванова расскажет про
Методы определения неопределённости языковых моделей
В частности, про семантическую энтропию, решающую проблему получения разной энтропии у семантически эквивалентных предложений в различных формулировках (The capital of France is Paris = France’s capital is Paris). Также рассмотрим две статьи, в которых обсуждается, можно ли вычислить неуверенность модели элицитацией — извлечением эксплицитной информации про неуверенность модели от модели, а также можно ли с помощью определения неуверенности языковой модели уменьшить количество галлюцинаций и повысить reliability модели
Статьи:
1. Semantic Uncertainty: Linguistic Invariances for Uncertainty Estimation in Natural Language Generation
2. Can LLMs Express Their Uncertainty? An Empirical Evaluation of Confidence Elicitation in LLMs
3. Just Ask for Calibration: Strategies for Eliciting Calibrated Confidence Scores from Language Models Fine-Tuned with Human Feedback
4. Uncertainty-Based Abstention in LLMs Improves Safety and Reduces Hallucinations
Ссылка на подключение будет позже
Методы определения неопределённости языковых моделей
В частности, про семантическую энтропию, решающую проблему получения разной энтропии у семантически эквивалентных предложений в различных формулировках (The capital of France is Paris = France’s capital is Paris). Также рассмотрим две статьи, в которых обсуждается, можно ли вычислить неуверенность модели элицитацией — извлечением эксплицитной информации про неуверенность модели от модели, а также можно ли с помощью определения неуверенности языковой модели уменьшить количество галлюцинаций и повысить reliability модели
Статьи:
1. Semantic Uncertainty: Linguistic Invariances for Uncertainty Estimation in Natural Language Generation
2. Can LLMs Express Their Uncertainty? An Empirical Evaluation of Confidence Elicitation in LLMs
3. Just Ask for Calibration: Strategies for Eliciting Calibrated Confidence Scores from Language Models Fine-Tuned with Human Feedback
4. Uncertainty-Based Abstention in LLMs Improves Safety and Reduces Hallucinations
Ссылка на подключение будет позже
🔥7
4 октября в 16:00 Ника Морозова расскажет про
Применение трансформерных моделей для Embodied AI
Трансформерные модели находят широкое применение в области воплощенного интеллекта, позволяя физическим агентам эффективно обрабатывать сенсорные данные и принимать решения в динамичных условиях. Трансформерные модели способны адаптироваться к изменениям в окружении, улучшая восприятие и взаимодействие с миром агента. Рассмотрим SOTA архитектуры трансформерных моделей в применении к Embodied AI
Статьи:
1. PoliFormer: Scaling On-Policy RL with Transformers Results in Masterful Navigators
2. ReLIC: A recipe for 64k steps In-Context Reinforcement Learning for Embodied AI
3. Octo: An Open-Source Generalist Robot Policy
4. OpenVLA: An Open-Source Vision-Language-Action Model
5. V-Former: Offline RL with Temporally-Extended Actions
6. Q-Transformer: Scalable Offline Reinforcement Learning via Autoregressive Q-Functions
7. Evaluating Real-World Robot Manipulation Policies in Simulation
8. Offline Pre-trained Multi-Agent Decision Transformer: One Big Sequence Model Tackles All SMAC Tasks
Ссылка на подключение будет позже
Применение трансформерных моделей для Embodied AI
Трансформерные модели находят широкое применение в области воплощенного интеллекта, позволяя физическим агентам эффективно обрабатывать сенсорные данные и принимать решения в динамичных условиях. Трансформерные модели способны адаптироваться к изменениям в окружении, улучшая восприятие и взаимодействие с миром агента. Рассмотрим SOTA архитектуры трансформерных моделей в применении к Embodied AI
Статьи:
1. PoliFormer: Scaling On-Policy RL with Transformers Results in Masterful Navigators
2. ReLIC: A recipe for 64k steps In-Context Reinforcement Learning for Embodied AI
3. Octo: An Open-Source Generalist Robot Policy
4. OpenVLA: An Open-Source Vision-Language-Action Model
5. V-Former: Offline RL with Temporally-Extended Actions
6. Q-Transformer: Scalable Offline Reinforcement Learning via Autoregressive Q-Functions
7. Evaluating Real-World Robot Manipulation Policies in Simulation
8. Offline Pre-trained Multi-Agent Decision Transformer: One Big Sequence Model Tackles All SMAC Tasks
Ссылка на подключение будет позже
🔥12🎉1
Ссылка на встречу 27.09 по теме
Методы определения неопределённости языковых моделей
❗️Начало в 15:00
Методы определения неопределённости языковых моделей
❗️Начало в 15:00
❤1
Итоги встречи 27.09.2024 (презентация|запись) 1/2
#LLM #uncertainty
Встреча была посвящена методам измерения неопределённости (больших) языковых моделей (LLM) в генерации следующих токенов
Традиционный подход вычисления такой неопределённости — это энтропия, считающаяся на основании логитов модели, однако у неё есть минусы
В работе «Semantic Uncertainty: Linguistic Invariances for Uncertainty Estimation in Natural Language Generation» [1] замечается, что у семантически эквивалентных предложений ("The capital of France is Paris" и "France’s capital is Paris.") разная энтропия, потому что она считается на основании вероятностей токенов, а не смыслов слов
Эту проблему решает предложенная в статье семантическая энтропия. Алгоритм её вычисления заключается в следующем:
1️⃣ С помощью LLM сэмплируется несколько вариантов продолжения текста по промпту
2️⃣ Среди них ищутся семантически эквивалентные предложения. Семантически эквивалентными являются такие предложения, что, если из предложения А следует предложение Б, и наоборот (процедуры из natural language entailment)
3️⃣ Вычисляется сумма энтропий семантически эквивалентных генераций — семантическая энтропия
Методы оценки неопределённости языковых моделей сравниваются на вопросно-ответных датасетах, потому что должно выполняться, что чем неувереннее генерация, тем менее вероятно, что ответ модели правильный. Эксперименты на GPT-like моделях (OPT с разным количеством параметров) и датасетах CoQA и TriviaQA в работе [1] показали, что семантическая энтропия лучше предсказывает перформанс модели, чем другие бейзлайны. Этот метод является unsupervised и использует только одну языковую модель, но не может быть использован в неизменном виде для black-box моделей (например, GPT-3.5 и старше), потому что опирается на логиты
В статье «Can LLMs Express Their Uncertainty? An Empirical Evaluation of Confidence Elicitation in LLMs» [2], напротив, предлагается Confidence Elicitation framework, подходящий для black-box моделей
Задача оценки неопределённости в этом фреймворке делится на три компонента: формулировка промпта, стратегия сэмлинга и агрегация результатов. Confidence Elicitation framework позволяет выбрать любое сочетание всех компонентов в качестве оценки неопределённости модели. Например, можно оценивать неопределенность с помощью Top-K промптинга (вербализация неуверенности через числа — ”Provide your K best guesses and the probability that each is correct (0% to 100%) for the following question."), Self-random семплинга (генерация последовательности по одному промпту несколько раз) и Consistency агрегации (доля вариантов, совпадающих с верным ответом)
Пользуясь фреймворком и большими языковыми моделями (Vicuna 13B, GPT-3 175B, GPT-3.5-turbo, GPT-4, LLaMA 2 70B), авторы сравнивают между собой множество стратегий оценки неопределённости. Эксперименты, среди прочего, показывают что:
1️⃣ LLMs чересчур уверены (overconfident), если вербализируют уверенность, т. е. отвечают на вопрос о своей уверенности в ответе
2️⃣ Стратегии промптинга частично уменьшают overconfidence модели
3️⃣ Не существует лучшей стратегии промптинга
4️⃣ Использование методов агрегации, опирающихся на вербализированную уверенность, лучше, чем Consistency-only агрегация
При этом в качестве метода оценки неопределённости на новой задаче можно попробовать Top-K prompting + Self-Random sampling + Avg-Conf / Pair-Rank aggregation.
#LLM #uncertainty
Встреча была посвящена методам измерения неопределённости (больших) языковых моделей (LLM) в генерации следующих токенов
Традиционный подход вычисления такой неопределённости — это энтропия, считающаяся на основании логитов модели, однако у неё есть минусы
В работе «Semantic Uncertainty: Linguistic Invariances for Uncertainty Estimation in Natural Language Generation» [1] замечается, что у семантически эквивалентных предложений ("The capital of France is Paris" и "France’s capital is Paris.") разная энтропия, потому что она считается на основании вероятностей токенов, а не смыслов слов
Эту проблему решает предложенная в статье семантическая энтропия. Алгоритм её вычисления заключается в следующем:
1️⃣ С помощью LLM сэмплируется несколько вариантов продолжения текста по промпту
2️⃣ Среди них ищутся семантически эквивалентные предложения. Семантически эквивалентными являются такие предложения, что, если из предложения А следует предложение Б, и наоборот (процедуры из natural language entailment)
3️⃣ Вычисляется сумма энтропий семантически эквивалентных генераций — семантическая энтропия
Методы оценки неопределённости языковых моделей сравниваются на вопросно-ответных датасетах, потому что должно выполняться, что чем неувереннее генерация, тем менее вероятно, что ответ модели правильный. Эксперименты на GPT-like моделях (OPT с разным количеством параметров) и датасетах CoQA и TriviaQA в работе [1] показали, что семантическая энтропия лучше предсказывает перформанс модели, чем другие бейзлайны. Этот метод является unsupervised и использует только одну языковую модель, но не может быть использован в неизменном виде для black-box моделей (например, GPT-3.5 и старше), потому что опирается на логиты
В статье «Can LLMs Express Their Uncertainty? An Empirical Evaluation of Confidence Elicitation in LLMs» [2], напротив, предлагается Confidence Elicitation framework, подходящий для black-box моделей
Задача оценки неопределённости в этом фреймворке делится на три компонента: формулировка промпта, стратегия сэмлинга и агрегация результатов. Confidence Elicitation framework позволяет выбрать любое сочетание всех компонентов в качестве оценки неопределённости модели. Например, можно оценивать неопределенность с помощью Top-K промптинга (вербализация неуверенности через числа — ”Provide your K best guesses and the probability that each is correct (0% to 100%) for the following question."), Self-random семплинга (генерация последовательности по одному промпту несколько раз) и Consistency агрегации (доля вариантов, совпадающих с верным ответом)
Пользуясь фреймворком и большими языковыми моделями (Vicuna 13B, GPT-3 175B, GPT-3.5-turbo, GPT-4, LLaMA 2 70B), авторы сравнивают между собой множество стратегий оценки неопределённости. Эксперименты, среди прочего, показывают что:
1️⃣ LLMs чересчур уверены (overconfident), если вербализируют уверенность, т. е. отвечают на вопрос о своей уверенности в ответе
2️⃣ Стратегии промптинга частично уменьшают overconfidence модели
3️⃣ Не существует лучшей стратегии промптинга
4️⃣ Использование методов агрегации, опирающихся на вербализированную уверенность, лучше, чем Consistency-only агрегация
При этом в качестве метода оценки неопределённости на новой задаче можно попробовать Top-K prompting + Self-Random sampling + Avg-Conf / Pair-Rank aggregation.
🔥7👍3👏1🤩1
Итоги встречи 27.09.2024 (презентация|запись) 2/2
#LLM #uncertainty
Статья «Just Ask for Calibration: Strategies for Eliciting Calibrated Confidence Scores from Language Models Fine-Tuned with Human Feedback» [3] также посвящена оценке методов неопределённости LLM, но сравнивает другой набор методов и фокусируется на моделях, дообученных с RLHF
Помимо упомянутых ранее методов, в статье тестируется метод лингвистической вербализации неуверенности модели, когда модель должна рассказать про свою неуверенность в терминах естественного языка (шкала Almost certain, Likely, . . . , Almost no chance)
По результатам экспериментов с ChatGPT, GPT-4, Claude и на нескольких QA датасетах у больших RLHF-LMs более скалиброванными оказались вербализованные скоры неуверенности (числом или на естественном языке), чем внутренние вероятности (логиты)
Помимо этого, выяснилось, что сэмплинг улучшает скалиброванность, а Chain-of-thought prompting не улучшает скалиброванность методов с вербализацией
Также в предшествующих работах есть наблюдение, что confidence scores плохо скалиброваны (т. е. плохо отражают реальную неуверенность модели), если модель дообучалась с RLHF, и статья [3] подверждает это. Возможный выход — опираться на вербализованную числом или текстом неуверенность
Работа «Uncertainty-Based Abstention in LLMs Improves Safety and Reduces Hallucinations» [4] также фокусируется на моделях с RLHF, но отличается от предыдущих работ тем, что сравнивает разные методы оценки неопределённости для задачи abstention от ответа — отказа отвечать, если модель сильно не уверена в ответе (“I don’t know”)
Вербализованная неуверенность в статье называется внутридиалоговой неуверенностью (In-Dialogue Uncertainty) и сравнивается со статистической неуверенностью
Эксперименты показывают, что во всех рассмотренных авторами ситуациях верно подобранная мера внутридиалоговой неуверенности улучшает abstention, чего статистическая уверенность не делает. Кроме того, In-Dialogue uncertainty уменьшает количество галлюцинаций для вопросов, на которые невозможно ответить ("What color iPhone did Einstein prefer?")
Выводы
Рассмотренные работы показывают, что существует множество различных вариантов получения оценок неуверенности модели, в зависимости от задачи может быть полезен конкретный метод
Традиционно использующаяся энтропия не учитывает смысл текст [1, 2], и иногда полезными оказываются методы, основанные на вераблизации неуверенности [3]
Кроме того, оценку неопределённости модели удобно концептуализировать через prompting, sampling, aggregation [2]
#LLM #uncertainty
Статья «Just Ask for Calibration: Strategies for Eliciting Calibrated Confidence Scores from Language Models Fine-Tuned with Human Feedback» [3] также посвящена оценке методов неопределённости LLM, но сравнивает другой набор методов и фокусируется на моделях, дообученных с RLHF
Помимо упомянутых ранее методов, в статье тестируется метод лингвистической вербализации неуверенности модели, когда модель должна рассказать про свою неуверенность в терминах естественного языка (шкала Almost certain, Likely, . . . , Almost no chance)
По результатам экспериментов с ChatGPT, GPT-4, Claude и на нескольких QA датасетах у больших RLHF-LMs более скалиброванными оказались вербализованные скоры неуверенности (числом или на естественном языке), чем внутренние вероятности (логиты)
Помимо этого, выяснилось, что сэмплинг улучшает скалиброванность, а Chain-of-thought prompting не улучшает скалиброванность методов с вербализацией
Также в предшествующих работах есть наблюдение, что confidence scores плохо скалиброваны (т. е. плохо отражают реальную неуверенность модели), если модель дообучалась с RLHF, и статья [3] подверждает это. Возможный выход — опираться на вербализованную числом или текстом неуверенность
Работа «Uncertainty-Based Abstention in LLMs Improves Safety and Reduces Hallucinations» [4] также фокусируется на моделях с RLHF, но отличается от предыдущих работ тем, что сравнивает разные методы оценки неопределённости для задачи abstention от ответа — отказа отвечать, если модель сильно не уверена в ответе (“I don’t know”)
Вербализованная неуверенность в статье называется внутридиалоговой неуверенностью (In-Dialogue Uncertainty) и сравнивается со статистической неуверенностью
Эксперименты показывают, что во всех рассмотренных авторами ситуациях верно подобранная мера внутридиалоговой неуверенности улучшает abstention, чего статистическая уверенность не делает. Кроме того, In-Dialogue uncertainty уменьшает количество галлюцинаций для вопросов, на которые невозможно ответить ("What color iPhone did Einstein prefer?")
Выводы
Рассмотренные работы показывают, что существует множество различных вариантов получения оценок неуверенности модели, в зависимости от задачи может быть полезен конкретный метод
Традиционно использующаяся энтропия не учитывает смысл текст [1, 2], и иногда полезными оказываются методы, основанные на вераблизации неуверенности [3]
Кроме того, оценку неопределённости модели удобно концептуализировать через prompting, sampling, aggregation [2]
🔥6👏1
‼️ Сегодня встреча книжного клуба отменяется
Следующая тема будет объявлена позже
Следующая тема будет объявлена позже
😭14👌2👍1
Всем привет!
На этой неделе наверстываем упущенное 🔥
11 октября в 16:00 Ника Морозова расскажет про
Применение трансформерных моделей для Embodied AI
Трансформерные модели находят широкое применение в области воплощенного интеллекта, позволяя физическим агентам эффективно обрабатывать сенсорные данные и принимать решения в динамичных условиях. Трансформерные модели способны адаптироваться к изменениям в окружении, улучшая восприятие и взаимодействие с миром агента. Рассмотрим SOTA архитектуры трансформерных моделей в применении к Embodied AI
Статьи:
1. PoliFormer: Scaling On-Policy RL with Transformers Results in Masterful Navigators
2. ReLIC: A recipe for 64k steps In-Context Reinforcement Learning for Embodied AI
3. Octo: An Open-Source Generalist Robot Policy
4. OpenVLA: An Open-Source Vision-Language-Action Model
5. V-Former: Offline RL with Temporally-Extended Actions
6. Q-Transformer: Scalable Offline Reinforcement Learning via Autoregressive Q-Functions
7. Evaluating Real-World Robot Manipulation Policies in Simulation
8. Offline Pre-trained Multi-Agent Decision Transformer: One Big Sequence Model Tackles All SMAC Tasks
Ссылка на подключение будет позже
На этой неделе наверстываем упущенное 🔥
11 октября в 16:00 Ника Морозова расскажет про
Применение трансформерных моделей для Embodied AI
Трансформерные модели находят широкое применение в области воплощенного интеллекта, позволяя физическим агентам эффективно обрабатывать сенсорные данные и принимать решения в динамичных условиях. Трансформерные модели способны адаптироваться к изменениям в окружении, улучшая восприятие и взаимодействие с миром агента. Рассмотрим SOTA архитектуры трансформерных моделей в применении к Embodied AI
Статьи:
1. PoliFormer: Scaling On-Policy RL with Transformers Results in Masterful Navigators
2. ReLIC: A recipe for 64k steps In-Context Reinforcement Learning for Embodied AI
3. Octo: An Open-Source Generalist Robot Policy
4. OpenVLA: An Open-Source Vision-Language-Action Model
5. V-Former: Offline RL with Temporally-Extended Actions
6. Q-Transformer: Scalable Offline Reinforcement Learning via Autoregressive Q-Functions
7. Evaluating Real-World Robot Manipulation Policies in Simulation
8. Offline Pre-trained Multi-Agent Decision Transformer: One Big Sequence Model Tackles All SMAC Tasks
Ссылка на подключение будет позже
🔥14👍1
👍7🔥7
Всем привет!
Завтра (18 октября) в 17:15 Ева Бакаева расскажет про
Vision-and-Language Navigation
В докладе будет представлен обзор различных задач и направлений области Vision-and-Language Navigation (VLN). Рассмотрим основные VLN бенчмарки, использование LLM и VLM для их решения и актуальные работы
Статьи:
1. Vision-and-Language Navigation: Interpreting visually-grounded navigation instructions in real environments
2. REVERIE: Remote Embodied Visual Referring Expression in Real Indoor Environments
3. Room-Across-Room: Multilingual Vision-and-Language Navigation with Dense Spatiotemporal Grounding
4. Touchdown: Natural Language Navigation and Spatial Reasoning in Visual Street Environments
5. Vision-based Navigation with Language-based Assistance via Imitation Learning with Indirect Intervention
6. CoWs on Pasture: Baselines and Benchmarks for Language-Driven Zero-Shot Object Navigation
7. Memory-Maze: Scenario Driven Benchmark and Visual Language Navigation Model for Guiding Blind People
8. LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language, Vision, and Action
9. NaVid: Video-based VLM Plans the Next Step for Vision-and-Language Navigation
10. BehAV: Behavioral Rule Guided Autonomy Using VLMs for Robot Navigation in Outdoor Scenes
Ссылка на подключение будет позже
Завтра (18 октября) в 17:15 Ева Бакаева расскажет про
Vision-and-Language Navigation
В докладе будет представлен обзор различных задач и направлений области Vision-and-Language Navigation (VLN). Рассмотрим основные VLN бенчмарки, использование LLM и VLM для их решения и актуальные работы
Статьи:
1. Vision-and-Language Navigation: Interpreting visually-grounded navigation instructions in real environments
2. REVERIE: Remote Embodied Visual Referring Expression in Real Indoor Environments
3. Room-Across-Room: Multilingual Vision-and-Language Navigation with Dense Spatiotemporal Grounding
4. Touchdown: Natural Language Navigation and Spatial Reasoning in Visual Street Environments
5. Vision-based Navigation with Language-based Assistance via Imitation Learning with Indirect Intervention
6. CoWs on Pasture: Baselines and Benchmarks for Language-Driven Zero-Shot Object Navigation
7. Memory-Maze: Scenario Driven Benchmark and Visual Language Navigation Model for Guiding Blind People
8. LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language, Vision, and Action
9. NaVid: Video-based VLM Plans the Next Step for Vision-and-Language Navigation
10. BehAV: Behavioral Rule Guided Autonomy Using VLMs for Robot Navigation in Outdoor Scenes
Ссылка на подключение будет позже
🔥9❤2
👍4
Всем привет!
Завтра (25 октября ) в 16:00 Никита Качаев расскажет про:
Эффективный Online RL с использованием offline данных
Рассмотрим, как использование предварительно неразмеченных offline данных может ускорить exploration и повысить sample efficiency для off-policy алгоритмов в задачах с разреженными вознаграждениями, а также обсудим подходы к объединению онлайн и офлайн обучения без введения дополнительных регуляризаций с использованием on-policy алгоритмов
Статьи:
1. Uni-O4: Unifying Online and Offline Deep Reinforcement Learning with Multi-Step On-Policy Optimization
Ссылка на подключение будет позже
Завтра (25 октября ) в 16:00 Никита Качаев расскажет про:
Эффективный Online RL с использованием offline данных
Рассмотрим, как использование предварительно неразмеченных offline данных может ускорить exploration и повысить sample efficiency для off-policy алгоритмов в задачах с разреженными вознаграждениями, а также обсудим подходы к объединению онлайн и офлайн обучения без введения дополнительных регуляризаций с использованием on-policy алгоритмов
Статьи:
1. Uni-O4: Unifying Online and Offline Deep Reinforcement Learning with Multi-Step On-Policy Optimization
Ссылка на подключение будет позже
🔥10👍2
Итоги встречи 18.10.2024 (презентация|запись)
#VLN #LLM #VLM
Встреча была посвящена обзору задач и подходов в Vision-and-Language Navigation (VLN)
🔺 До 2020 года VLN модели представлены преимущественно рекуррентными нейронными сетями, обрабатывающими последовательность конкатенированных эмбеддингов изображений и текстовых инструкций. После 2020 года произошел сдвиг в сторону графовых нейронных сетей и предобученных LLM/VLM
🔺 VLN задачи (полезная обзорная статья) можно классифицировать по:
✔️ типу среды — дискретная или непрерывная
✔️ communication complexity — может ли агент взаимодействовать с оракулом, знающим правильное действие. И если может, то каким способом
✔️ task objective — как агент достигает своей цели на основе первоначальных инструкций оракула (fine/coarse-grained navigation, есть ли взаимодействие со средой)
🔺 Основные VLN бенчмарки это: R2R, RxR, REVERIE, Touchdown, VLNA, FAO. На встрече рассмотрели, как они устроены и их baselin'ы
🔺 Обсудили несколько актуальных работ, использующих предобученные LLM и VLM:
✔️ В NaVid предложен подход на основе дообучения Vicuna-7B, работающий только с видео (RGB изображения), без использования какой-либо дополнительной информации (карта, одометрия, глубина). При этом, как утверждают авторы, при Sim-to-Real переносе их подход показывает 66% Success Rate на 200 инструкциях в четырех indoor сценах
✔️ В BehAV текстовый запрос на естественном языке разделяется на behavioral и navigation компоненты с помощью LLM. После чего с помощью general knowlege предобученной VLM на изображениях выделяются области повышенного интереса, по которым стоится behavioral cost map. Эта карта кодирует расположение объектов в пространстве и связывает их с затратами (cost), обусловленными правилами поведения. Например, при инструкции «избегай лестниц», объектам, классифицируемым как «лестница» будет присваиваться высокая затрата и агент начнет их избегать
✔️ В LM-Nav на первом этапе с помощью LLM из текстового запросы выделяются ориентиры (landmark), точнее их описание, например «white building» или «stop sign». На втором этапе с помощью VLM (авторы используют CLIP) ориентиры сопоставляются с наблюдениями и уже эта информация используется предобученной visual navigation model (ViNG) для навигации
Во время обсуждения был задан очень хороший вопрос:
«Насколько реалистичен сценарий использования языковых инструкций (подробных, длинных, со сложным описанием действий) в indoor сценах для навигации?»
Пишите свои варианты ответов в комментариях!
#VLN #LLM #VLM
Встреча была посвящена обзору задач и подходов в Vision-and-Language Navigation (VLN)
Во время обсуждения был задан очень хороший вопрос:
«Насколько реалистичен сценарий использования языковых инструкций (подробных, длинных, со сложным описанием действий) в indoor сценах для навигации?»
Пишите свои варианты ответов в комментариях!
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3👏1