В строю RT прибыло!
В новой статье Deepmind предлагает AutoRT — подход к сбору датасета для роботов в реальной среде
Идея такая:
1) робот исследует среду (Exploration)
2) с помощью VLM получает описание сцены и объектов, на основе этой информации с помощью LLM генерируются потенциальные задачи для выполнение (Task Generation)
3) эти задачи проверяются на выполнимость (Affordance) и, если они в теории могут быть выполнены роботом, им назначается одна из стратегий (скрипт, RT-2, управление телеоператором), иначе они отклоняются
4) после чего робот приступает к выполнению задачи (Data Collection)
При этом упор делается именно на разнообразие и вариативность задач, что с одной стороны всегда хорошо, а с другой, как пишут сами авторы, примеров для одной и той же задачи получается мало и обучить на этом хорошо какой-либо навык довольно сложно (нельзя)
Однако: we note that the focus of AutoRT was on collecting diverse data, not on achieving high success rates (П — правильное позиционирование)
В новой статье Deepmind предлагает AutoRT — подход к сбору датасета для роботов в реальной среде
Идея такая:
1) робот исследует среду (Exploration)
2) с помощью VLM получает описание сцены и объектов, на основе этой информации с помощью LLM генерируются потенциальные задачи для выполнение (Task Generation)
3) эти задачи проверяются на выполнимость (Affordance) и, если они в теории могут быть выполнены роботом, им назначается одна из стратегий (скрипт, RT-2, управление телеоператором), иначе они отклоняются
4) после чего робот приступает к выполнению задачи (Data Collection)
При этом упор делается именно на разнообразие и вариативность задач, что с одной стороны всегда хорошо, а с другой, как пишут сами авторы, примеров для одной и той же задачи получается мало и обучить на этом хорошо какой-либо навык довольно сложно (нельзя)
Однако: we note that the focus of AutoRT was on collecting diverse data, not on achieving high success rates (П — правильное позиционирование)
🔥5
Если резюмировать, то чуть более хитрый способ генерировать задачи, чем просто с помощью ChatGPT. Авторы также пишут про возможность учитывать ограничения робота (robot constitution) при генерации задач, но это более-менее общий подход при планировании с LLM и не удивительно, что он используется и при генерации. Но! Авторы используют модифицированные три закона робототехники Азимова для промптинга LLMки!
Дополнительно авторы делают упор на то, что их подход позволяет управлять большим количеством роботов при небольшом количестве операторов (1 человек на 3-5 роботов). Хотя это и упрощает сбор датасета, учитывая Success Rate в эпизодах с заскриптованным выполнением (21%) против 82% при управлении человеком, считать это преимуществом довольно сложно
FOUNDATIONAL RULES =
F1. A robot may not injure a human being.
F2. A robot must protect its own existence as long as such protection does not conflict with F1.
F3. A robot must obey orders given it by human beings except where such orders would conflict with F1 or F2.
Дополнительно авторы делают упор на то, что их подход позволяет управлять большим количеством роботов при небольшом количестве операторов (1 человек на 3-5 роботов). Хотя это и упрощает сбор датасета, учитывая Success Rate в эпизодах с заскриптованным выполнением (21%) против 82% при управлении человеком, считать это преимуществом довольно сложно
👍1🔥1
Из интересных результатов — низкий Success Rate (меньше 5%) у RT-2 при выполнении задач, что авторы связывают с отличием собранных данных, от тех, на которых модель изначально обучалась
В целом статья больше техническая, без каких-либо интересных инсайтов. Но, как всегда, размах поражает — 53 робота, 4 офисных здания, 7 месяцев реальных испытания и 77000 сэмплов в датасете.
И, как всегда, код и данные мы вряд ли увидим 🥲
#papers
В целом статья больше техническая, без каких-либо интересных инсайтов. Но, как всегда, размах поражает — 53 робота, 4 офисных здания, 7 месяцев реальных испытания и 77000 сэмплов в датасете.
И, как всегда, код и данные мы вряд ли увидим 🥲
#papers
❤2🔥1💔1
Друзья, с Днём российсикой науки и 300-летием Российском академии наук! 🎉
Уже 11 лет моя жизнь связана с наукой (и техникой) и 7 с РАН. И хотя путь от инженера третьей категории до научного сотрудника/доцента с учёной степенью был непрост и полон сложных решений, но он был невероятно увлекателен! А когда я задумываюсь, сколько ещё предстоить достичь, то захватывает дух!
Но больше всего меня радует то, что общаясь со студентами и молодежью (к которой я себя всё ещё причисляю 😋), я вижу, что интерес к науке растет! И это вдохновляет двигаться вперед, служить примером, и показывать путь в науку молодежи, как когда-то показали мне 🌅
Так что, Друзья, поздравляю вас и пусть тяга к знаниям и открытию нового вдохновляет и вас! 🎉👩🎓👨🎓🎉
Уже 11 лет моя жизнь связана с наукой (и техникой) и 7 с РАН. И хотя путь от инженера третьей категории до научного сотрудника/доцента с учёной степенью был непрост и полон сложных решений, но он был невероятно увлекателен! А когда я задумываюсь, сколько ещё предстоить достичь, то захватывает дух!
Но больше всего меня радует то, что общаясь со студентами и молодежью (к которой я себя всё ещё причисляю 😋), я вижу, что интерес к науке растет! И это вдохновляет двигаться вперед, служить примером, и показывать путь в науку молодежи, как когда-то показали мне 🌅
Так что, Друзья, поздравляю вас и пусть тяга к знаниям и открытию нового вдохновляет и вас! 🎉👩🎓👨🎓🎉
🔥16👍7❤3🤝2
В воскресенье 11 февраля в 13:00
выступаю с лекцией «Воплощенный искусственный интеллект» 🤖 в рамках «Дней Науки» в павильоне Сбера на выставке-форуме «Россия»!
Приходите послушать 🤗
Трансляцию можно будет посмотреть на сайте
выступаю с лекцией «Воплощенный искусственный интеллект» 🤖 в рамках «Дней Науки» в павильоне Сбера на выставке-форуме «Россия»!
Приходите послушать 🤗
Трансляцию можно будет посмотреть на сайте
russia.sber.ru
Приглашаем в павильон Сбера на выставке «Россия» на ВДНХ!
Мультимедийные экспозиции, лекции от ведущих экспертов, подарки от Сбера. Ждем вас с 4 ноября по 8 июля.
🔥8👍3❤🔥1🥰1
Media is too big
VIEW IN TELEGRAM
Генерация видео по тексту выходит на новый уровень!
OpenAI выкатила модель Sora 🔥🔥🔥
Ждем статью ⌛️
Промпт к видео:
OpenAI выкатила модель Sora 🔥🔥🔥
Ждем статью ⌛️
Промпт к видео:
Photorealistic closeup video of two pirate ships battling each other as they sail inside a cup of coffee.
🔥5😱1
🎉Вот это новость!🎉
И снова можно попланировать с LLM! 🔥🔥🔥
Подавайтесь сами и зовите друзей!😁🤗
И снова можно попланировать с LLM! 🔥🔥🔥
Подавайтесь сами и зовите друзей!😁🤗
💩3🔥2
Forwarded from Center for Cognitive Modeling
Оплачиваемая стажировка в Центре когнитивного моделирования ФПМИ МФТИ предполагает работу над прикладными или поисковыми проектами в составе опытной команды, написание статей в ведущие конференции и журналы.
Стажировка проходит в рамках одного из направлений:
— Планирование поведения воплощенных агентов с помощью больших языковых моделей
— Обучение с подкреплением на основе трансформерных архитектур с памятью
— Обнаружение, сегментация, трекинг и прогнозирование траектории движения 3D-объектов по данным камер и радаров
— Построение трехмерных семантических и мультимодальных карт местности
— Определение позы и одометрии робота по изображениям его RGB-D камер
В процессе вашей работы вы сможете погрузиться в:
— Разработку новых SOTA алгоритмов
— Написание публикаций и участие в международных конференциях со своими результатами
— Cовременные проблемы внедрения передовых методов искусственного интеллекта для решения практических задач
Стажировку можно совмещать с написанием вашего бакалаврского или магистерского диплома. После успешного окончания стажировки возможно трудоустройство в лаборатории Центра, поступление в магистратуру и аспирантуру, продолжение работы в компаниях партнерах.
Для заявки достаточно заполнить анкету
Вопросы можно задать нам в сообщениях или по почте: [email protected], @rvainberg
Подробнее читайте на сайте
#стажировка #CV #RL #LLM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6💩3🫡2👍1👎1
AIRI в честь празднования Дня российской науки запустил классный флешмоб #AIRI_вдохновляет. Присоединяюсь и хочу рассказать про свою первую научную статью
В науку я пришел не то, чтобы очень рано, и первую статью писал на первом курсе магистратуры (а я, на минутку, сначала специалитет заканчивал). И совсем не по искусственному интеллекту. Тогда я работал в аэрокосмической области 🚀
В статье мы исследовали как разброс параметров электронных компонентов – резисторов и конденсаторов – влияет на выходные параметры аналогового усилителя системы стабилизации одноосного гиростабилизатора 🛰
Простыми словами: представьте, что монтажник 👨🔧 собирает электронную схему и ему надо впаять резистор сопротивлением 1000 Ом. Он открывает коробочку с надписью 1000 Ом и не глядя берет оттуда резистор, считая, что он нужного сопротивления. Но на самом деле, все резисторы имеют разброс параметров, например ± 10%, и по факту резистор может быть сопротивлением как 900, так и 1100 Ом. Элементов в схеме много и все они влияют на коэффициент усиления, а точнее на амплитудно-фазовую частотную характеристику, что в свою очередь вляет на гиростабилизатор – прибор, который должен быть очень точным!
Чтобы понять, насколько это влияние велико, мы провели полный факторный эксперимент, моделируя систему в MATLAB
Помню, как было волнительно и интересно работать над статьёй – до этого мне казалось, что написать научную статью это что-то фантастическое, и точно не про меня 🙅♂️. А получилось так, что через три года я полностью сменил область и ушёл в науку. Вот как бывает😉
А какая история у вашей первой научной статьи?
В науку я пришел не то, чтобы очень рано, и первую статью писал на первом курсе магистратуры (а я, на минутку, сначала специалитет заканчивал). И совсем не по искусственному интеллекту. Тогда я работал в аэрокосмической области 🚀
В статье мы исследовали как разброс параметров электронных компонентов – резисторов и конденсаторов – влияет на выходные параметры аналогового усилителя системы стабилизации одноосного гиростабилизатора 🛰
Простыми словами: представьте, что монтажник 👨🔧 собирает электронную схему и ему надо впаять резистор сопротивлением 1000 Ом. Он открывает коробочку с надписью 1000 Ом и не глядя берет оттуда резистор, считая, что он нужного сопротивления. Но на самом деле, все резисторы имеют разброс параметров, например ± 10%, и по факту резистор может быть сопротивлением как 900, так и 1100 Ом. Элементов в схеме много и все они влияют на коэффициент усиления, а точнее на амплитудно-фазовую частотную характеристику, что в свою очередь вляет на гиростабилизатор – прибор, который должен быть очень точным!
Чтобы понять, насколько это влияние велико, мы провели полный факторный эксперимент, моделируя систему в MATLAB
Помню, как было волнительно и интересно работать над статьёй – до этого мне казалось, что написать научную статью это что-то фантастическое, и точно не про меня 🙅♂️. А получилось так, что через три года я полностью сменил область и ушёл в науку. Вот как бывает😉
А какая история у вашей первой научной статьи?
❤5🔥5❤🔥4
Forwarded from Center for Cognitive Modeling
🎓 — Семинар 20. Иерархическое планирование с помощью больших языковых моделей (LLM) для воплощенных агентов | Александр Корчемный
Для выполнения сложных сценариев в реальном окружении или в симуляторе, воплощенный агент должен обладать возможностью планирования. В случае, если задача формулируется на естественном языке, с этим могут помочь большие языковые модели (LLM). Однако существуют проблемы с неоднозначностью естественного языка или соотнесения предсказанного плана с возможностями агента в среде.
Мы предлагаем использовать иерархическую структуру планировщика для улучшения предсказанного плана, когда отдельные LLM-агенты отвечают за отдельные подзадачи в планировании.
📹 Трансляция Youtube
Подключайтесь к живому обсуждению и задавайте вопросы в прямом эфире! Ждем всех!
#семинары #LLM #Planning
Для выполнения сложных сценариев в реальном окружении или в симуляторе, воплощенный агент должен обладать возможностью планирования. В случае, если задача формулируется на естественном языке, с этим могут помочь большие языковые модели (LLM). Однако существуют проблемы с неоднозначностью естественного языка или соотнесения предсказанного плана с возможностями агента в среде.
Мы предлагаем использовать иерархическую структуру планировщика для улучшения предсказанного плана, когда отдельные LLM-агенты отвечают за отдельные подзадачи в планировании.
📹 Трансляция Youtube
Подключайтесь к живому обсуждению и задавайте вопросы в прямом эфире! Ждем всех!
#семинары #LLM #Planning
❤🔥5👍2⚡1🔥1🤩1
🔥 7 марта на OpenTalks.AI 🔥
Буду рассказывать про «LLM-based agents and their planning capabilities» в рамках трека «Intellect for robots and drones: LLM and planning» 🤖
Трек получился интересный, предчувствую классные доклады от коллег из Sber Robotics Lab 🦾
📍Где? Тбилиси, Pullman Axis Towers Tbilisi
🕒 Когда? Начало трека в 15:00
Буду рассказывать про «LLM-based agents and their planning capabilities» в рамках трека «Intellect for robots and drones: LLM and planning» 🤖
Трек получился интересный, предчувствую классные доклады от коллег из Sber Robotics Lab 🦾
📍Где? Тбилиси, Pullman Axis Towers Tbilisi
🕒 Когда? Начало трека в 15:00
opentalks.ai
OpenTalks.AI - Timetable 2024
🔥8🥰4
Forwarded from Институт AIRI
До следующего #AIRIseminars осталось меньше недели, значит, пришло время рассказать все подробности📌
⚫ Дата и время: 28 февраля в 17:00 офлайн на Арме и онлайн YouTube-канале AIRI
⚫ Докладчик: Айбек Аланов, AIRI, ВШЭ
⚫ Оппонент: Григорий Бартош, University of Amsterdam
⚫ Исследователи обсудят тему редактирования изображений с помощью диффузионных моделей
Все подробности и регистрация на сайте, до встречи!💡
Все подробности и регистрация на сайте, до встречи!
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1
Forwarded from Институт AIRI
Ищем исследователей в научные группы AIRI 😁
📎 Medical foundation model research data scientist CV+NLP (Middle+)
Кандидат будет заниматься разработкой, тестированием и поддержкой SSL моделей мед. ИИ, обучением низкоуровневых представлений различных модальностей, обучением мультимодальных моделей при частичной или отсутствующей разметке, разработкой кода обучения для моделей мед. ИИ, анализом и выбором подходов к решению поставленных задач, взаимодействием с разработчиками и врачами.
📎 Senior/Middle NLP Researcher в группу Domain-specific NLP
Ищем человека для проведения исследований с применением больших языковых моделей, графов знаний и многозадачного обучения.
📎 Middle RL Researcher в группу Neural Symbolic Integration
Кандидат будет заниматься исследованием на стыке больших трансформенных мультимодальных моделей и обучения с подкреплением. Задачи будут состоять из анализа и обзора последних статей по теме, разработки новых алгоритмов.
📎 Senior Computer Vision Engineer в медицинскую группу
Ищем опытного датасаентиста по компьютерному зрению на совместные проекты AIRI и SberMedAI для разработки продуктов для медицины (КТ, РГ, МРТ) на основе алгоритмов компьютерного зрения.
📎 Computer Vision Engineer
В задачи будет входить: разработка, тестирование и поддержка моделей мед. ИИ, разработка кода обучения для моделей медицинского ИИ, анализ и выбор подходов к решению поставленных задач, взаимодействие с врачами.
📎 Reinforcement learning in multi-modal medical imaging (Junior)
Кандидат будет заниматься: обучением низкоуровневых представлений различных модальностей и поиском оптимальных метрик близости для таких представлений, обучением моделей при частичной или отсутствующей разметке, взаимодействием с командой, разрабатывающей SSL модели мед. ИИ, разработкой кода обучения для моделей мед. ИИ, анализом и выбором подходов к решению поставленных задач, взаимодействием с разработчиками и врачами.
Откликайтесь на интересующие вас вакансии и делитесь этим постом с теми, кому может быть интересна работа в AIRI💡
Кандидат будет заниматься разработкой, тестированием и поддержкой SSL моделей мед. ИИ, обучением низкоуровневых представлений различных модальностей, обучением мультимодальных моделей при частичной или отсутствующей разметке, разработкой кода обучения для моделей мед. ИИ, анализом и выбором подходов к решению поставленных задач, взаимодействием с разработчиками и врачами.
Ищем человека для проведения исследований с применением больших языковых моделей, графов знаний и многозадачного обучения.
Кандидат будет заниматься исследованием на стыке больших трансформенных мультимодальных моделей и обучения с подкреплением. Задачи будут состоять из анализа и обзора последних статей по теме, разработки новых алгоритмов.
Ищем опытного датасаентиста по компьютерному зрению на совместные проекты AIRI и SberMedAI для разработки продуктов для медицины (КТ, РГ, МРТ) на основе алгоритмов компьютерного зрения.
В задачи будет входить: разработка, тестирование и поддержка моделей мед. ИИ, разработка кода обучения для моделей медицинского ИИ, анализ и выбор подходов к решению поставленных задач, взаимодействие с врачами.
Кандидат будет заниматься: обучением низкоуровневых представлений различных модальностей и поиском оптимальных метрик близости для таких представлений, обучением моделей при частичной или отсутствующей разметке, взаимодействием с командой, разрабатывающей SSL модели мед. ИИ, разработкой кода обучения для моделей мед. ИИ, анализом и выбором подходов к решению поставленных задач, взаимодействием с разработчиками и врачами.
Откликайтесь на интересующие вас вакансии и делитесь этим постом с теми, кому может быть интересна работа в AIRI
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4