Всем привет!
Хочу поделиться с вами нашей совсем свежей статьей:
🔥 Don’t Blind Your VLA: Aligning Visual Representations for OOD Generalization🔥
Предлагаем метод выравнивания визуальных представлений в VLA моделях во время SFT дообучения на маленьких робототехнических датасетах, который помогает сохранять и улучшать навыки визуально-языкового (VL) понимания.
Помимо этого, для оценки переноса знаний от VLM к VLA и VL-понимания независимо от выполнения низкоуровневых действий, мы предложили VL-Think — бенчмарк для тестирования VLA на знания из повседневной жизни.
Ключевые находки🦾:
⚫️ Наивное SFT дообучение на робототехнических данных вызывает проблемы с фокусом внимания на релевантных объектах, возникает коллапс языковых представлений и забывание в VLA моделях
⚫️ Наш метод дает значимый прирост в сравнении с наивным SFT почти во всех OOD-сеттингах обобщаемости (Vision, Semantic, Execution)
⚫️ Линейный пробинг показывает, что предложенный метод улучшает VL представления относительно претрейна и SFT чекпоинтов
Upvotes на huggingface daily papers крайне приветствуются!😉
https://huggingface.co/papers/2510.25616
Хочу поделиться с вами нашей совсем свежей статьей:
Предлагаем метод выравнивания визуальных представлений в VLA моделях во время SFT дообучения на маленьких робототехнических датасетах, который помогает сохранять и улучшать навыки визуально-языкового (VL) понимания.
Помимо этого, для оценки переноса знаний от VLM к VLA и VL-понимания независимо от выполнения низкоуровневых действий, мы предложили VL-Think — бенчмарк для тестирования VLA на знания из повседневной жизни.
Ключевые находки🦾:
Upvotes на huggingface daily papers крайне приветствуются!😉
https://huggingface.co/papers/2510.25616
Please open Telegram to view this post
VIEW IN TELEGRAM
huggingface.co
Paper page - Don't Blind Your VLA: Aligning Visual Representations for OOD
Generalization
Generalization
Join the discussion on this paper page
🔥15👍3
Forwarded from Center for Cognitive Modeling
Ни для кого не секрет —
На выбор предоставляется 20 проектов, которые включают:
Два шага для подачи заявки:
Стажировку можно совмещать с написанием диплома, но не с другой работой. После успешного окончания возможно трудоустройство в лаборатории Центра, продолжение работы в компаниях-партнерах.
Прием заявок до 24 ноября 2025 включительно!
Вопросы можно задать в сообщениях @fissun.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6❤2👍2💩1
🔥 Замечательная новость🔥
В понедельник Никита расскажет про нашу новую статью по VLA
Deep dive из первых рук 🦾
В понедельник Никита расскажет про нашу новую статью по VLA
Deep dive из первых рук 🦾
❤5
Forwarded from Al Talent Hub
В ПН: 17 ноября, 19:00 МСК
Свежая статья AIRI, которая заслуживает внимания:
В программе:
→ Почему наивное SFT рушит VL представления, внимание и вызывает забывание в VLA
→ Новый метод выравнивания визуальных представлений VLA для лучшего обобщения
→ VL-Think — бенчмарк для VLA моделей, на понимание реального мира
Разберемся, почему VLA-модели после дообучения начинают «забывать», терять фокус и тексто-языковое понимание при обучении на малых робототехнических датасетах, и как метод выравнивания визуальных представлений помогает это исправить. А также на примере результатов на бенчмарке VL-Think посмотрим, насколько хорошо VLA модели усваивают знания из повседневной жизни.
Reading Club — держим в курсе научных прорывов
#AITalentHub #ITMO #NapoleonIT
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6