BaseLine

Сегодня расскажу про нашу свежую статью «When Models Lie, We Learn: Multilingual Span-Level Hallucination Detection with PsiloQA», которую приняли на EMNLP 🎉
Кстати, если работа вам понравилась прошу проголосовать за нее на HuggingFace Daily Papers.

В работе мы предложили метод генерации синтетических данных, содержащих естественные (не инсценированные) галлюцинации, размеченные на уровне спанов. Но ценность этой работы — не только в содержании, а ещё и в том, как она родилась.
Я давно убеждён: NLP — это прикладная область. А в прикладных областях особое значение имеют соревнования — от Kaggle до академических вроде SemEval, DSTC и других.
Участие в них позволяет:
1️⃣ прокачивать технические навыки
2️⃣ понимать, что коммьюнити считает актуальным и сложным
3️⃣ находить идеи, достойные статьи
Эта работа — как раз результат одного из таких опытов.

📜О чём статья

Мы разработали пайплайн для генерации датасета с естественными галлюцинациями. Мы не просили LLM намеренно ошибаться (как в HalluEval), а детектировали реальные примеры. Так мы получили многоязычный датасет PsiloQA для поспановой (span-level) детекции галлюцинаций и протестировали на нём разные подходы.

⚙️Как работает пайплайн

1️⃣ Берём пару первых абзацев статьи из Википедии (или любого источника знаний).
2️⃣С помощью GPT-4o получаем вопрос–ответ для этого контекста.
3️⃣ Просим открытую модель ответить на этот же вопрос. Получаем ответ-кандидат.
4️⃣ GPT-4o, имея контекст, вопрос, исходный ответ и ответ-кандидат, размечает галлюцинации в кандидате.
5️⃣ Делаем постфильтрацию (убираем пустые или отказные примеры).

📈Результаты

1️⃣Пайплан позволяет генерировать датасеты разных доменов, размеров и языков с минимальными затратами.
2️⃣Все галлюцинации — естественные, LLM никто не просил галлюцинировать намеренно. Таким образом, для детекции можно использовать методы на основе внутренних представлений моделей, тем более что мы добавили инфрмации о модели.
3️⃣Датасет подходит для тестирования LLM на множестве языков.
4️⃣Кросспроверка показала: при обучении на нашем датасете мы почти всегда получали лучшие результаты при тестах на других, вручную размеченных датасетах.

🌐Рандомные галлюцинации

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥7👍3❤1

408 views13:42

BaseLine

0:38

This media is not supported in your browser

VIEW IN TELEGRAM

0:05

This media is not supported in your browser

VIEW IN TELEGRAM

IROS ещё не начался, но роботов уже показывают

🔥11👏1

557 views14:30

BaseLine

Всем привет!

Хочу поделиться с вами нашей совсем свежей статьей:

🔥

Don’t Blind Your VLA: Aligning Visual Representations for OOD Generalization

🔥

Предлагаем метод выравнивания визуальных представлений в VLA моделях во время SFT дообучения на маленьких робототехнических датасетах, который помогает сохранять и улучшать навыки визуально-языкового (VL) понимания.

Помимо этого, для оценки переноса знаний от VLM к VLA и VL-понимания независимо от выполнения низкоуровневых действий, мы предложили VL-Think — бенчмарк для тестирования VLA на знания из повседневной жизни.

Ключевые находки🦾:
⚫️Наивное SFT дообучение на робототехнических данных вызывает проблемы с фокусом внимания на релевантных объектах, возникает коллапс языковых представлений и забывание в VLA моделях
⚫️Наш метод дает значимый прирост в сравнении с наивным SFT почти во всех OOD-сеттингах обобщаемости (Vision, Semantic, Execution)
⚫️Линейный пробинг показывает, что предложенный метод улучшает VL представления относительно претрейна и SFT чекпоинтов

Upvotes на huggingface daily papers крайне приветствуются!😉
https://huggingface.co/papers/2510.25616

Please open Telegram to view this post

VIEW IN TELEGRAM

huggingface.co

Paper page - Don't Blind Your VLA: Aligning Visual Representations for OOD
Generalization

Join the discussion on this paper page

🔥15👍3

932 viewsedited 19:33

BaseLine

Снова начинаем набор на стажировку!

Приходите делать классный рисерч🤗

261 views09:43

BaseLine

Forwarded from Center for Cognitive Modeling

🪼 — Объявляем набор на стажировку в области искусственного интеллекта и робототехники в Центр когнитивного моделирования (Robotics, LLM, RL, CV, Planning)!

Ни для кого не секрет — будущее за искусственным интеллектом. Не просто следить за прогрессом, а создавать его вместе с ведущими учёными страны, участвовать в международных конференциях, получать опыт в прикладных и исследовательских проектах можно у нас на оплачиваемой стажировке.

На выбор предоставляется 20 проектов, которые включают:
🔹обучение с подкреплением
🔹компьютерное зрение
🔹планирование поведения и управление
🔹большие языковые модели
🔹и другое

Два шага для подачи заявки:
1️⃣ выбрать подходящие проекты на сайте
2️⃣ заполнить форму

Стажировку можно совмещать с написанием диплома, но не с другой работой. После успешного окончания возможно трудоустройство в лаборатории Центра, продолжение работы в компаниях-партнерах.

🔥Если у вас больше опыта и вы готовы выйти на полную ставку, то следите за новостями, совсем скоро мы выложим вакансии в Центр.

Прием заявок до 24 ноября 2025 включительно!

Вопросы можно задать в сообщениях @fissun.

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥6❤2👍2💩1

216 views09:43

BaseLine

🔥 Замечательная новость🔥

В понедельник Никита расскажет про нашу новую статью по VLA

Deep dive из первых рук 🦾

❤5

228 views17:01

BaseLine

Forwarded from Al Talent Hub

📃

Специальный выпуск #ReadingClub на горячую тему

В ПН: 17 ноября, 19:00 МСК

Свежая статья AIRI, которая заслуживает внимания:

📕

Don’t Blind Your VLA: новый метод выравнивания представлений в Visuon-Language-Action моделях

В программе:
→ Почему наивное SFT рушит VL представления, внимание и вызывает забывание в VLA
→ Новый метод выравнивания визуальных представлений VLA для лучшего обобщения
→ VL-Think — бенчмарк для VLA моделей, на понимание реального мира

🎤

Эксперт: Никита Качаев — инженер-исследователь Лаборатории когнитивных систем ИИ AIRI, магистрант AI Talent Hub

🔽

Разберемся, почему VLA-модели после дообучения начинают «забывать», терять фокус и тексто-языковое понимание при обучении на малых робототехнических датасетах, и как метод выравнивания визуальных представлений помогает это исправить. А также на примере результатов на бенчмарке VL-Think посмотрим, насколько хорошо VLA модели усваивают знания из повседневной жизни.

➡️

ЗАРЕГИСТРИРОВАТЬСЯ

Reading Club — держим в курсе научных прорывов 😎

#AITalentHub #ITMO #NapoleonIT

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥7

249 views17:01

BaseLine

Forwarded from Институт AIRI

Завтра стартует международная конференция по искусственному интеллекту AI Journey 2025

🚀

Событие пройдёт с 19 по 21 ноября и будет включать три тематических блока: общество, бизнес и наука. В этом году Институт AIRI представит 25 докладов, 15 постеров и 6 стендов.

Подробная программа и трансляция на сайте. До встречи в онлайне!

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥6❤1

145 views17:29

BaseLine

Во всю идет AIJ — одно из крупнейших событий по ИИ в России

Приходите к нашим постерам и демостенду пообщаться😉 Расскажем про наши свежие наработки

А завтра на секции «Воплощенный ИИ» буду рассказывать про

«Применение больших языковых и визуально-языковых моделей в робототехнике»

Приходите послушать🤗

🔥15❤8

398 views11:52

BaseLine

Forwarded from Center for Cognitive Modeling

🪼 — Выступления сотрудников ЦКМ на AI Journey

11:15-11:30 AI Frontiers
Как большие языковые модели учатся планировать и рассуждать с помощью поисковых алгоритмов, Алексей Скрынник от AIRI

Современные большие языковые модели могут значительно расширять возможности автоматического рассуждения и планирования, если их дополнить стратегиями поиска. В докладе рассматриваются три основных подхода: неструктурированный поиск, эволюционный поиск и дерево поиска. Эти методы позволяют моделям исследовать несколько альтернативных траекторий рассуждений, корректировать ошибки на промежуточных шагах и выбирать наиболее перспективные решения.

11:55 - 12:15 Live studio
Рассуждающие модели воплощённого ИИ, Александр Панов

В докладе будет представлен обзор вариантов реализации рассуждений в нейросетевых моделях, используемых в задачах воплощенного ИИ - навигации и манипуляции. Обсудим, как связаны планирование действий и рассуждения, а также ограничения в современных поведенческих моделях (VLA). Разберем также последние работы нашей лаборатории в области интеграции обучаемых и классических подходов для повышения эффективности методов планирования и рассуждений в задачах воплощенного ИИ.

13:00-14:30 Главный зал
Форсайт: каким будет ИИ через 10 лет, Дмитрий Юдин среди участников

15:15-15:30 AI Frontiers
Применение больших языковых и визуально-языковых моделей в робототехнике, Алексей Ковалёв

Большие языковые и визуально-языковые модели (LLM и VLM) получили широкое распространение во множестве приложений и все активнее используются в робототехнике. На лекции мы обсудим, как такие модели помогают роботам распознавать неоднозначные инструкции, формировать планы действий и исправлять ошибки, возникающие при их выполнении.

15:30-15:45 AI Frontiers
Как большие языковые модели понимают 3D-пространство, Дмитрий Юдин

Развитие технологий пространственного ИИ — одно из важнейших современных направлений в робототехнике и беспилотном транспорте. В этом докладе мы рассмотрим концепции пространственного понимания, пространственных рассуждений и связанные с ними задачи. Обсудим потенциал современных MLLM для решения задач, связанных с визуальными ответами на вопросы, поиском трёхмерных объектов, генерацией графов трёхмерных сцен, созданием описаний 3D-сцен и др. Мы также обсудим ограничения популярных LLM в случае описания трёхмерной сцены только текстом. Рассмотрим современные решения для пространственного понимания, использующие модальности изображений, текста, облаков точек и графов. Кратко рассмотрим недавние разработки команд AIRI и МФТИ в этой области. Кроме того, мы обсудим перспективные нерешённые проблемы для дальнейшего развития.

Переходите по ссылкам и смотрите нас онлайн!

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥9

118 views09:17

About

Blog

Apps

Platform