Forwarded from Рандомные галлюцинации
Сегодня расскажу про нашу свежую статью «When Models Lie, We Learn: Multilingual Span-Level Hallucination Detection with PsiloQA», которую приняли на EMNLP 🎉
Кстати, если работа вам понравилась прошу проголосовать за нее на HuggingFace Daily Papers.
В работе мы предложили метод генерации синтетических данных, содержащих естественные (не инсценированные) галлюцинации, размеченные на уровне спанов. Но ценность этой работы — не только в содержании, а ещё и в том, как она родилась.
Я давно убеждён: NLP — это прикладная область. А в прикладных областях особое значение имеют соревнования — от Kaggle до академических вроде SemEval, DSTC и других.
Участие в них позволяет:
1️⃣ прокачивать технические навыки
2️⃣ понимать, что коммьюнити считает актуальным и сложным
3️⃣ находить идеи, достойные статьи
Эта работа — как раз результат одного из таких опытов.
📜О чём статья
Мы разработали пайплайн для генерации датасета с естественными галлюцинациями. Мы не просили LLM намеренно ошибаться (как в HalluEval), а детектировали реальные примеры. Так мы получили многоязычный датасет PsiloQA для поспановой (span-level) детекции галлюцинаций и протестировали на нём разные подходы.
⚙️Как работает пайплайн
1️⃣ Берём пару первых абзацев статьи из Википедии (или любого источника знаний).
2️⃣ С помощью GPT-4o получаем вопрос–ответ для этого контекста.
3️⃣ Просим открытую модель ответить на этот же вопрос. Получаем ответ-кандидат.
4️⃣ GPT-4o, имея контекст, вопрос, исходный ответ и ответ-кандидат, размечает галлюцинации в кандидате.
5️⃣ Делаем постфильтрацию (убираем пустые или отказные примеры).
📈Результаты
1️⃣ Пайплан позволяет генерировать датасеты разных доменов, размеров и языков с минимальными затратами.
2️⃣ Все галлюцинации — естественные, LLM никто не просил галлюцинировать намеренно. Таким образом, для детекции можно использовать методы на основе внутренних представлений моделей, тем более что мы добавили инфрмации о модели.
3️⃣ Датасет подходит для тестирования LLM на множестве языков.
4️⃣ Кросспроверка показала: при обучении на нашем датасете мы почти всегда получали лучшие результаты при тестах на других, вручную размеченных датасетах.
🌐Рандомные галлюцинации
Кстати, если работа вам понравилась прошу проголосовать за нее на HuggingFace Daily Papers.
В работе мы предложили метод генерации синтетических данных, содержащих естественные (не инсценированные) галлюцинации, размеченные на уровне спанов. Но ценность этой работы — не только в содержании, а ещё и в том, как она родилась.
Я давно убеждён: NLP — это прикладная область. А в прикладных областях особое значение имеют соревнования — от Kaggle до академических вроде SemEval, DSTC и других.
Участие в них позволяет:
Эта работа — как раз результат одного из таких опытов.
📜О чём статья
Мы разработали пайплайн для генерации датасета с естественными галлюцинациями. Мы не просили LLM намеренно ошибаться (как в HalluEval), а детектировали реальные примеры. Так мы получили многоязычный датасет PsiloQA для поспановой (span-level) детекции галлюцинаций и протестировали на нём разные подходы.
⚙️Как работает пайплайн
📈Результаты
🌐Рандомные галлюцинации
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7👍3❤1
IROS ещё не начался, но роботов уже показывают
🔥11👏1
Всем привет!
Хочу поделиться с вами нашей совсем свежей статьей:
🔥 Don’t Blind Your VLA: Aligning Visual Representations for OOD Generalization🔥
Предлагаем метод выравнивания визуальных представлений в VLA моделях во время SFT дообучения на маленьких робототехнических датасетах, который помогает сохранять и улучшать навыки визуально-языкового (VL) понимания.
Помимо этого, для оценки переноса знаний от VLM к VLA и VL-понимания независимо от выполнения низкоуровневых действий, мы предложили VL-Think — бенчмарк для тестирования VLA на знания из повседневной жизни.
Ключевые находки🦾:
⚫️ Наивное SFT дообучение на робототехнических данных вызывает проблемы с фокусом внимания на релевантных объектах, возникает коллапс языковых представлений и забывание в VLA моделях
⚫️ Наш метод дает значимый прирост в сравнении с наивным SFT почти во всех OOD-сеттингах обобщаемости (Vision, Semantic, Execution)
⚫️ Линейный пробинг показывает, что предложенный метод улучшает VL представления относительно претрейна и SFT чекпоинтов
Upvotes на huggingface daily papers крайне приветствуются!😉
https://huggingface.co/papers/2510.25616
Хочу поделиться с вами нашей совсем свежей статьей:
Предлагаем метод выравнивания визуальных представлений в VLA моделях во время SFT дообучения на маленьких робототехнических датасетах, который помогает сохранять и улучшать навыки визуально-языкового (VL) понимания.
Помимо этого, для оценки переноса знаний от VLM к VLA и VL-понимания независимо от выполнения низкоуровневых действий, мы предложили VL-Think — бенчмарк для тестирования VLA на знания из повседневной жизни.
Ключевые находки🦾:
Upvotes на huggingface daily papers крайне приветствуются!😉
https://huggingface.co/papers/2510.25616
Please open Telegram to view this post
VIEW IN TELEGRAM
huggingface.co
Paper page - Don't Blind Your VLA: Aligning Visual Representations for OOD
Generalization
Generalization
Join the discussion on this paper page
🔥15👍3
Forwarded from Center for Cognitive Modeling
Ни для кого не секрет —
На выбор предоставляется 20 проектов, которые включают:
Два шага для подачи заявки:
Стажировку можно совмещать с написанием диплома, но не с другой работой. После успешного окончания возможно трудоустройство в лаборатории Центра, продолжение работы в компаниях-партнерах.
Прием заявок до 24 ноября 2025 включительно!
Вопросы можно задать в сообщениях @fissun.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6❤2👍2💩1
🔥 Замечательная новость🔥
В понедельник Никита расскажет про нашу новую статью по VLA
Deep dive из первых рук 🦾
В понедельник Никита расскажет про нашу новую статью по VLA
Deep dive из первых рук 🦾
❤5
Forwarded from Al Talent Hub
В ПН: 17 ноября, 19:00 МСК
Свежая статья AIRI, которая заслуживает внимания:
В программе:
→ Почему наивное SFT рушит VL представления, внимание и вызывает забывание в VLA
→ Новый метод выравнивания визуальных представлений VLA для лучшего обобщения
→ VL-Think — бенчмарк для VLA моделей, на понимание реального мира
Разберемся, почему VLA-модели после дообучения начинают «забывать», терять фокус и тексто-языковое понимание при обучении на малых робототехнических датасетах, и как метод выравнивания визуальных представлений помогает это исправить. А также на примере результатов на бенчмарке VL-Think посмотрим, насколько хорошо VLA модели усваивают знания из повседневной жизни.
Reading Club — держим в курсе научных прорывов
#AITalentHub #ITMO #NapoleonIT
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7
Forwarded from Институт AIRI
Завтра стартует международная конференция по искусственному интеллекту AI Journey 2025 🚀
Событие пройдёт с 19 по 21 ноября и будет включать три тематических блока: общество, бизнес и наука. В этом году Институт AIRI представит 25 докладов, 15 постеров и 6 стендов.
Подробная программа и трансляция на сайте. До встречи в онлайне!
Событие пройдёт с 19 по 21 ноября и будет включать три тематических блока: общество, бизнес и наука. В этом году Институт AIRI представит 25 докладов, 15 постеров и 6 стендов.
Подробная программа и трансляция на сайте. До встречи в онлайне!
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6❤1
Во всю идет AIJ — одно из крупнейших событий по ИИ в России
Приходите к нашим постерам и демостенду пообщаться😉 Расскажем про наши свежие наработки
А завтра на секции «Воплощенный ИИ» буду рассказывать про
«Применение больших языковых и визуально-языковых моделей в робототехнике»
Приходите послушать🤗
Приходите к нашим постерам и демостенду пообщаться😉 Расскажем про наши свежие наработки
А завтра на секции «Воплощенный ИИ» буду рассказывать про
«Применение больших языковых и визуально-языковых моделей в робототехнике»
Приходите послушать🤗
🔥15❤8
Forwarded from Center for Cognitive Modeling
11:15-11:30 AI Frontiers
Как большие языковые модели учатся планировать и рассуждать с помощью поисковых алгоритмов, Алексей Скрынник от AIRI
Современные большие языковые модели могут значительно расширять возможности автоматического рассуждения и планирования, если их дополнить стратегиями поиска. В докладе рассматриваются три основных подхода: неструктурированный поиск, эволюционный поиск и дерево поиска. Эти методы позволяют моделям исследовать несколько альтернативных траекторий рассуждений, корректировать ошибки на промежуточных шагах и выбирать наиболее перспективные решения.
11:55 - 12:15 Live studio
Рассуждающие модели воплощённого ИИ, Александр Панов
В докладе будет представлен обзор вариантов реализации рассуждений в нейросетевых моделях, используемых в задачах воплощенного ИИ - навигации и манипуляции. Обсудим, как связаны планирование действий и рассуждения, а также ограничения в современных поведенческих моделях (VLA). Разберем также последние работы нашей лаборатории в области интеграции обучаемых и классических подходов для повышения эффективности методов планирования и рассуждений в задачах воплощенного ИИ.
13:00-14:30 Главный зал
Форсайт: каким будет ИИ через 10 лет, Дмитрий Юдин среди участников
15:15-15:30 AI Frontiers
Применение больших языковых и визуально-языковых моделей в робототехнике, Алексей Ковалёв
Большие языковые и визуально-языковые модели (LLM и VLM) получили широкое распространение во множестве приложений и все активнее используются в робототехнике. На лекции мы обсудим, как такие модели помогают роботам распознавать неоднозначные инструкции, формировать планы действий и исправлять ошибки, возникающие при их выполнении.
15:30-15:45 AI Frontiers
Как большие языковые модели понимают 3D-пространство, Дмитрий Юдин
Развитие технологий пространственного ИИ — одно из важнейших современных направлений в робототехнике и беспилотном транспорте. В этом докладе мы рассмотрим концепции пространственного понимания, пространственных рассуждений и связанные с ними задачи. Обсудим потенциал современных MLLM для решения задач, связанных с визуальными ответами на вопросы, поиском трёхмерных объектов, генерацией графов трёхмерных сцен, созданием описаний 3D-сцен и др. Мы также обсудим ограничения популярных LLM в случае описания трёхмерной сцены только текстом. Рассмотрим современные решения для пространственного понимания, использующие модальности изображений, текста, облаков точек и графов. Кратко рассмотрим недавние разработки команд AIRI и МФТИ в этой области. Кроме того, мы обсудим перспективные нерешённые проблемы для дальнейшего развития.
Переходите по ссылкам и смотрите нас онлайн!
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9