Forwarded from Embodied AI Reading Club
Всем привет!🔥
📆 Сегодня (11 апреля) в 16:00
Никита Качаев расскажет про
Трансформерные модели для роботизированной 3D манипуляции
На текущий момент ключевыми направлениями исследований в данной области являются многозадачность, обобщение на ранее не встречающиеся сценарии и точная манипуляция. Помимо этого, в последнее время набирает популярность тема памяти в задачах робототехники. В ряде недавно вышедших работ были представлены гибридные трансформерные модели PerAct, RVT-2, ARP+ и SAM2Act, которые благодаря использованию продвинутых perception модулей и трансформерных архитектур способны эффективно решать многие сложные задачи. В докладе основной фокус будет сделан на работе [1]
Статьи:
1. SAM2Act: Integrating Visual Foundation Model with A Memory Architecture for Robotic Manipulation
2. RVT-2: Learning Precise Manipulation from Few Demonstrations
3. SAM-E: Leveraging Visual Foundation Model with Sequence Imitation for Embodied Manipulation
4. Autoregressive Action Sequence Learning for Robotic Manipulation
5. SAM 2: Segment Anything in Images and Videos
🍿 Ссылка на подключение
Подписаться⤵️
Embodied AI Reading Club
Никита Качаев расскажет про
Трансформерные модели для роботизированной 3D манипуляции
На текущий момент ключевыми направлениями исследований в данной области являются многозадачность, обобщение на ранее не встречающиеся сценарии и точная манипуляция. Помимо этого, в последнее время набирает популярность тема памяти в задачах робототехники. В ряде недавно вышедших работ были представлены гибридные трансформерные модели PerAct, RVT-2, ARP+ и SAM2Act, которые благодаря использованию продвинутых perception модулей и трансформерных архитектур способны эффективно решать многие сложные задачи. В докладе основной фокус будет сделан на работе [1]
Статьи:
1. SAM2Act: Integrating Visual Foundation Model with A Memory Architecture for Robotic Manipulation
2. RVT-2: Learning Precise Manipulation from Few Demonstrations
3. SAM-E: Leveraging Visual Foundation Model with Sequence Imitation for Embodied Manipulation
4. Autoregressive Action Sequence Learning for Robotic Manipulation
5. SAM 2: Segment Anything in Images and Videos
Подписаться
Embodied AI Reading Club
Please open Telegram to view this post
VIEW IN TELEGRAM
🥰4🔥3
🔥🔥🔥
В понедельник презентуем магистерскую программу ЦКМ 🦾
«Методы и технологии искусственного интеллекта»
Приходите послушать или подключайтесь онлайн! 😉
В понедельник презентуем магистерскую программу ЦКМ 🦾
«Методы и технологии искусственного интеллекта»
Приходите послушать или подключайтесь онлайн! 😉
🔥1
Forwarded from Абитуриенты магистратуры ФПМИ
Набор на программу откроют директор ЦКМ, д.ф-м.н Александр Панов и куратор магистерской программы, к.ф.-м.н. Алексей Ковалёв. Они расскажут про читаемые курсы, процесс поступления и карьерные возможности.
Центр когнитивного моделирования — это:🔹 две лаборатории: Когнитивных динамических систем и Интеллектуального транспорта;🔹 сотрудники и студенты публикуют больше 10 статей уровня Q1/A/A* в год;🔹 широкий охват направлений ИИ в исследованиях: RL, NLP, CV, Robotics и другие.
Студенты Центра:
После прохождения обучения вы сможете остаться работать в Центре или устроиться в компании-партнёры. На презентации мы уделим особое внимание карьерным возможностям и рассмотрим различные треки.
Больше информации о Центре Когнитивного Моделирования можно узнать на сайте или в социальных сетях: ВК, Телеграм.
#анонс_презентация2025
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8👍5❤3💩1🤡1
Forwarded from Институт AIRI
This media is not supported in your browser
VIEW IN TELEGRAM
Отметили четырёхлетие Института!
Все сердца AIRI сегодня — для вас ❤️
Все сердца AIRI сегодня — для вас ❤️
❤15🔥2
Forwarded from Center for Cognitive Modeling
⭐️ — Уже через 5 минут начинаем презентацию магистрской программы Центра!
Приходите в поточную аудиторию Физтех.Арктики на 4 этаже за полезной информацией, приятной компанией и свежими стикерами!
Приходите в поточную аудиторию Физтех.Арктики на 4 этаже за полезной информацией, приятной компанией и свежими стикерами!
👍6👎2🔥2💩2❤1🤡1
Media is too big
VIEW IN TELEGRAM
Скоро будут фото и видео с ICLR 2025, так что самое время разобрать архив с прошлого 😁
➡️ Мнение Иошуа Бенджио о том, стоит ли заморачиваться с определением AGI 🤖
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8❤🔥4🥰1😁1
Forwarded from Институт AIRI
Чтобы вам было легче собрать всё нужное для заявки на «Лето с AIRI 2025», мы подготовили пошаговую инструкцию ⤵️
◼️ Добавьте резюме — прикрепите его к форме заявки по ссылке. В резюме важно указать ваш опыт: где вы учились, какие у вас есть проекты, стажировки, научные публикации или pet-проекты. Можно добавить, какими технологиями владеете, что изучали, если есть — ссылки на GitHub, личный сайт или портфолио.
◼️ Загрузите Research Proposal: выберите статью уровня Core A/A* (в рамках направлений Школы, указанных на сайте), проанализируйте метод, выделите сильные и слабые стороны, предложите развитие, проведите минимальные эксперименты. Ориентируйтесь на статьи, принятые на таких конференциях, как: NeurIPS, ICML, ICLR, AAAI, ACL, EMNLP, CVPR, ICCV, ECCV, KDD, IROS, ICRA (полный список).
◼️ Запишите мотивационное видео до 2-х минут: расскажите, почему хотите на Школу, и как это поможет вам в карьере. Не обязательно снимать что-то профессиональное, можно записать на телефон или просто как кружочек в Telegram.
Если планируете участвовать — не откладывайте. Прием заявок открыт до 29 апреля 23:59📌
Если планируете участвовать — не откладывайте. Прием заявок открыт до 29 апреля 23:59
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2🔥1
Есть такое объяснения как частица приобретает массу
«Частица, движущаяся сквозь хиггсовское поле, приобретает массу таким же образом, как знаменитость, появившись на вечеринке, собирает вокруг себя своих почитателей, то есть «обрастает» массой. При этом толпа будет перемещаться по комнате вслед за знаменитостью»
Обычно такой знаменитостью изображают Альберта Эйнштейна
На ICLR эту роль успешно исполнял Ян Лекун. Видишь толпу пиэчдишников – значит в центре Лекун
«Частица, движущаяся сквозь хиггсовское поле, приобретает массу таким же образом, как знаменитость, появившись на вечеринке, собирает вокруг себя своих почитателей, то есть «обрастает» массой. При этом толпа будет перемещаться по комнате вслед за знаменитостью»
Обычно такой знаменитостью изображают Альберта Эйнштейна
На ICLR эту роль успешно исполнял Ян Лекун. Видишь толпу пиэчдишников – значит в центре Лекун
🔥12😁6❤1
Forwarded from Center for Cognitive Modeling
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥17❤2
В номинации «Постер дня» однозначно побеждает статья Turning Up the Heat: Min-p Sampling for Creative and Coherent LLM Outputs
Кстати, oral и авторы тоже были на стиле
Кстати, oral и авторы тоже были на стиле
❤5👍1
Субъективная подборка статей за первый день ICLR 2025
#ICLR2025 #Day1
1. On the Modeling Capabilities of Large Language Models for Sequential Decision Making — применяют LLM как для моделирования стратегии, так и в качестве функции вознаграждения
2. MrSteve: Instruction-Following Agents in Minecraft with What-Where-When Memory — добавили агенту в Minecraft иерархическую память
3. ADAM: An Embodied Causal Agent in Open-World Environments — обычно агенты полагаются на заранее известное верное дерево развития технологий (деревянная кирка = дерево + палка). В этой работе предлагают отказаться от априорных знаний (на самом деле используют испорченное дерево развития без нужных или с лишними связями) и стоить его в процессе взаимодействия со средой
4. TraceVLA: Visual Trace Prompting Enhances Spatial-Temporal Awareness for Generalist Robotic Policies — дообучают OpenVLA на картинках, на которых нарисована траектория гриппера, тем самым улучшая значения метрик. На инференсе подается как картинка с камеры, так и она же с дорисованным «трейсом»
5. ThinkBot: Embodied Instruction Following with Thought Chain Reasoning — CoT для Embodied AI в духе ALFRED. Очень созвучна с ECoT. Чуть лучше модифицированного Promptera c переобученным детектором объектов и памятью
6. EMOS: Embodiment-aware Heterogeneous Multi-robot Operating System with LLM Agents — LLM-планировщик для группы роботов
7. ManiSkill-HAB: A Benchmark for Low-Level Manipulation in Home Rearrangement Tasks — интересная среда на основе ManiSkill от подмножества авторов ManiSkill3. Ещё бы навигация по сцене была бы не через телепортацию
8. Dream to Manipulate: Compositional World Models Empowering Robot Imitation Learning with Imagination — real2sim2real подход. Снимаем сцены, моделируем с помощью Gaussian Splatting, генерируем в полученной среде новые траектории, дообучаем на этом стратегию — Profit!
9. HASARD: A Benchmark for Vision-Based Safe Reinforcement Learning in Embodied Agents — бенч для Safe RL на основе VizDoom
10. VICtoR: Learning Hierarchical Vision-Instruction Correlation Rewards for Long-horizon Manipulation — ещё одна reward-модель
11. Drama: Mamba-Enabled Model-Based Reinforcement Learning Is Sample and Parameter Efficient — Mamba-2 как бэкбон. Бьёт IRIS. Странно что нет сравнения с R2I, возможно из-за того, что эксперименты на Atari100K, или, как пишут авторы, чуть хуже результаты чем у DreamerV3
12. What Matters in Learning from Large-Scale Datasets for Robot Manipulation — пытаются ответить на вопрос как надо собирать демонстрации, чтобы модели лучше обучались. Некоторые тейкэвеи выглядят сомнительно, например про разнообразие поз камеры при сборе данных
13. GROOT-2: Weakly Supervised Multimodal Instruction Following Agents — ещё один агент для Minecraft'а и не только
#ICLR2025 #Day1
1. On the Modeling Capabilities of Large Language Models for Sequential Decision Making — применяют LLM как для моделирования стратегии, так и в качестве функции вознаграждения
2. MrSteve: Instruction-Following Agents in Minecraft with What-Where-When Memory — добавили агенту в Minecraft иерархическую память
3. ADAM: An Embodied Causal Agent in Open-World Environments — обычно агенты полагаются на заранее известное верное дерево развития технологий (деревянная кирка = дерево + палка). В этой работе предлагают отказаться от априорных знаний (на самом деле используют испорченное дерево развития без нужных или с лишними связями) и стоить его в процессе взаимодействия со средой
4. TraceVLA: Visual Trace Prompting Enhances Spatial-Temporal Awareness for Generalist Robotic Policies — дообучают OpenVLA на картинках, на которых нарисована траектория гриппера, тем самым улучшая значения метрик. На инференсе подается как картинка с камеры, так и она же с дорисованным «трейсом»
5. ThinkBot: Embodied Instruction Following with Thought Chain Reasoning — CoT для Embodied AI в духе ALFRED. Очень созвучна с ECoT. Чуть лучше модифицированного Promptera c переобученным детектором объектов и памятью
6. EMOS: Embodiment-aware Heterogeneous Multi-robot Operating System with LLM Agents — LLM-планировщик для группы роботов
7. ManiSkill-HAB: A Benchmark for Low-Level Manipulation in Home Rearrangement Tasks — интересная среда на основе ManiSkill от подмножества авторов ManiSkill3. Ещё бы навигация по сцене была бы не через телепортацию
8. Dream to Manipulate: Compositional World Models Empowering Robot Imitation Learning with Imagination — real2sim2real подход. Снимаем сцены, моделируем с помощью Gaussian Splatting, генерируем в полученной среде новые траектории, дообучаем на этом стратегию — Profit!
9. HASARD: A Benchmark for Vision-Based Safe Reinforcement Learning in Embodied Agents — бенч для Safe RL на основе VizDoom
10. VICtoR: Learning Hierarchical Vision-Instruction Correlation Rewards for Long-horizon Manipulation — ещё одна reward-модель
11. Drama: Mamba-Enabled Model-Based Reinforcement Learning Is Sample and Parameter Efficient — Mamba-2 как бэкбон. Бьёт IRIS. Странно что нет сравнения с R2I, возможно из-за того, что эксперименты на Atari100K, или, как пишут авторы, чуть хуже результаты чем у DreamerV3
12. What Matters in Learning from Large-Scale Datasets for Robot Manipulation — пытаются ответить на вопрос как надо собирать демонстрации, чтобы модели лучше обучались. Некоторые тейкэвеи выглядят сомнительно, например про разнообразие поз камеры при сборе данных
13. GROOT-2: Weakly Supervised Multimodal Instruction Following Agents — ещё один агент для Minecraft'а и не только
👍9