BaseLine

Всем привет!

Хочу поделиться с вами нашей совсем свежей статьей:

🔥

Don’t Blind Your VLA: Aligning Visual Representations for OOD Generalization

🔥

Предлагаем метод выравнивания визуальных представлений в VLA моделях во время SFT дообучения на маленьких робототехнических датасетах, который помогает сохранять и улучшать навыки визуально-языкового (VL) понимания.

Помимо этого, для оценки переноса знаний от VLM к VLA и VL-понимания независимо от выполнения низкоуровневых действий, мы предложили VL-Think — бенчмарк для тестирования VLA на знания из повседневной жизни.

Ключевые находки🦾:
⚫️Наивное SFT дообучение на робототехнических данных вызывает проблемы с фокусом внимания на релевантных объектах, возникает коллапс языковых представлений и забывание в VLA моделях
⚫️Наш метод дает значимый прирост в сравнении с наивным SFT почти во всех OOD-сеттингах обобщаемости (Vision, Semantic, Execution)
⚫️Линейный пробинг показывает, что предложенный метод улучшает VL представления относительно претрейна и SFT чекпоинтов

Upvotes на huggingface daily papers крайне приветствуются!😉
https://huggingface.co/papers/2510.25616

Please open Telegram to view this post

VIEW IN TELEGRAM

huggingface.co

Paper page - Don't Blind Your VLA: Aligning Visual Representations for OOD
Generalization

Join the discussion on this paper page

🔥15👍3

744 viewsedited 19:33

BaseLine

Снова начинаем набор на стажировку!

Приходите делать классный рисерч🤗

158 views09:43

BaseLine

Forwarded from Center for Cognitive Modeling

🪼 — Объявляем набор на стажировку в области искусственного интеллекта и робототехники в Центр когнитивного моделирования (Robotics, LLM, RL, CV, Planning)!

Ни для кого не секрет — будущее за искусственным интеллектом. Не просто следить за прогрессом, а создавать его вместе с ведущими учёными страны, участвовать в международных конференциях, получать опыт в прикладных и исследовательских проектах можно у нас на оплачиваемой стажировке.

На выбор предоставляется 20 проектов, которые включают:
🔹обучение с подкреплением
🔹компьютерное зрение
🔹планирование поведения и управление
🔹большие языковые модели
🔹и другое

Два шага для подачи заявки:
1️⃣ выбрать подходящие проекты на сайте
2️⃣ заполнить форму

Стажировку можно совмещать с написанием диплома, но не с другой работой. После успешного окончания возможно трудоустройство в лаборатории Центра, продолжение работы в компаниях-партнерах.

🔥Если у вас больше опыта и вы готовы выйти на полную ставку, то следите за новостями, совсем скоро мы выложим вакансии в Центр.

Прием заявок до 24 ноября 2025 включительно!

Вопросы можно задать в сообщениях @fissun.

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥6❤2👍2💩1

109 views09:43

BaseLine

🔥 Замечательная новость🔥

В понедельник Никита расскажет про нашу новую статью по VLA

Deep dive из первых рук 🦾

❤5

135 views17:01

BaseLine

Forwarded from Al Talent Hub

📃

Специальный выпуск #ReadingClub на горячую тему

В ПН: 17 ноября, 19:00 МСК

Свежая статья AIRI, которая заслуживает внимания:

📕

Don’t Blind Your VLA: новый метод выравнивания представлений в Visuon-Language-Action моделях

В программе:
→ Почему наивное SFT рушит VL представления, внимание и вызывает забывание в VLA
→ Новый метод выравнивания визуальных представлений VLA для лучшего обобщения
→ VL-Think — бенчмарк для VLA моделей, на понимание реального мира

🎤

Эксперт: Никита Качаев — инженер-исследователь Лаборатории когнитивных систем ИИ AIRI, магистрант AI Talent Hub

🔽

Разберемся, почему VLA-модели после дообучения начинают «забывать», терять фокус и тексто-языковое понимание при обучении на малых робототехнических датасетах, и как метод выравнивания визуальных представлений помогает это исправить. А также на примере результатов на бенчмарке VL-Think посмотрим, насколько хорошо VLA модели усваивают знания из повседневной жизни.

➡️

ЗАРЕГИСТРИРОВАТЬСЯ

Reading Club — держим в курсе научных прорывов 😎

#AITalentHub #ITMO #NapoleonIT

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥6

107 views17:01

About

Blog

Apps

Platform