This media is not supported in your browser
VIEW IN TELEGRAM
Social event ACL 2025
А лингвисты умеют отдыхать😁
А лингвисты умеют отдыхать😁
🔥14👍1
Forwarded from Институт AIRI
Рассказываем про конференцию, которая пройдет в Казани 17 сентября ⤵️
Конференция «ИИ–ЗАМАН» станет отдельным научным треком на международном форуме Kazan Digital Week 2025.
Исследователи AIRI выступают кураторами трех направлений:
Подать статью можно до 20 августа — публикации планируются в Springer LNCS и в журнале «Электронные библиотеки». Отобранные статьи будут также рекомендованы в журнал Optical Memory and Neural Networks. Подать можно как новые статьи, так и ранее опубликованные работы.
Подробнее про подачу статей — по ссылке.
Конференция «ИИ–ЗАМАН» станет отдельным научным треком на международном форуме Kazan Digital Week 2025.
Исследователи AIRI выступают кураторами трех направлений:
⚫️ Андрей Кузнецов — Компьютерное зрение⚫️ Елена Тутубалина — Обработка естественного языка⚫️ Алексей Ковалёв — Воплощённый ИИ и робототехника
Подать статью можно до 20 августа — публикации планируются в Springer LNCS и в журнале «Электронные библиотеки». Отобранные статьи будут также рекомендованы в журнал Optical Memory and Neural Networks. Подать можно как новые статьи, так и ранее опубликованные работы.
Подробнее про подачу статей — по ссылке.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤9🔥4
Forwarded from Институт AIRI
Провели «ИИ–ЗАМАН» в Казани, делимся впечатлениями ⤵️
Научная конференция стала частью форума Kazan Digital Week, деловая программа которого включает в себя более 160 секций, структурированных по 10 тематическим направлениям. В форуме приняли участие 1,2 тысячи спикеров из более, чем 70 стран. На «ИИ–ЗАМАН» были представлены участники практически из всех регионов России, где ведутся исследования в области ИИ. Есть и иностранные участники, среди которых представители США, Китая и Индии.
17 сентября на конференции «ИИ–ЗАМАН», которую мы организовали совместно с Академией наук Республики Татарстан при поддержке Ассоциации содействия цифровому развитию Республики Татарстан и Авито, выступили директор лаборатории FusionBrain Андрей Кузнецов, руководитель группы «Прикладное NLP» Елена Тутубалина, руководитель лаборатории Safe AI Lab AIRI-МТУСИ Олег Рогов, генеральный директор AIRI Иван Оселедец, научный сотрудник группы «Воплощённые агенты» Татьяна Земскова и директор лаборатории когнитивных систем ИИ Института AIRI Александр Панов. Также инженер-исследователь группы «Прикладное NLP» AIRI Михаил Чайчук представил проект «The Benefits of Query-Based KGQA Systems for Complex and Temporal Questions in LLM Era» на постерной сессии.
📎 Подробнее про конференцию «ИИ–ЗАМАН» читайте в материале по итогам пресс-конференции.
Делимся фотографиями из Казани!
Научная конференция стала частью форума Kazan Digital Week, деловая программа которого включает в себя более 160 секций, структурированных по 10 тематическим направлениям. В форуме приняли участие 1,2 тысячи спикеров из более, чем 70 стран. На «ИИ–ЗАМАН» были представлены участники практически из всех регионов России, где ведутся исследования в области ИИ. Есть и иностранные участники, среди которых представители США, Китая и Индии.
17 сентября на конференции «ИИ–ЗАМАН», которую мы организовали совместно с Академией наук Республики Татарстан при поддержке Ассоциации содействия цифровому развитию Республики Татарстан и Авито, выступили директор лаборатории FusionBrain Андрей Кузнецов, руководитель группы «Прикладное NLP» Елена Тутубалина, руководитель лаборатории Safe AI Lab AIRI-МТУСИ Олег Рогов, генеральный директор AIRI Иван Оселедец, научный сотрудник группы «Воплощённые агенты» Татьяна Земскова и директор лаборатории когнитивных систем ИИ Института AIRI Александр Панов. Также инженер-исследователь группы «Прикладное NLP» AIRI Михаил Чайчук представил проект «The Benefits of Query-Based KGQA Systems for Complex and Temporal Questions in LLM Era» на постерной сессии.
Делимся фотографиями из Казани!
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7👍2
Forwarded from Рандомные галлюцинации
Сегодня расскажу про нашу свежую статью «When Models Lie, We Learn: Multilingual Span-Level Hallucination Detection with PsiloQA», которую приняли на EMNLP 🎉
Кстати, если работа вам понравилась прошу проголосовать за нее на HuggingFace Daily Papers.
В работе мы предложили метод генерации синтетических данных, содержащих естественные (не инсценированные) галлюцинации, размеченные на уровне спанов. Но ценность этой работы — не только в содержании, а ещё и в том, как она родилась.
Я давно убеждён: NLP — это прикладная область. А в прикладных областях особое значение имеют соревнования — от Kaggle до академических вроде SemEval, DSTC и других.
Участие в них позволяет:
1️⃣ прокачивать технические навыки
2️⃣ понимать, что коммьюнити считает актуальным и сложным
3️⃣ находить идеи, достойные статьи
Эта работа — как раз результат одного из таких опытов.
📜О чём статья
Мы разработали пайплайн для генерации датасета с естественными галлюцинациями. Мы не просили LLM намеренно ошибаться (как в HalluEval), а детектировали реальные примеры. Так мы получили многоязычный датасет PsiloQA для поспановой (span-level) детекции галлюцинаций и протестировали на нём разные подходы.
⚙️Как работает пайплайн
1️⃣ Берём пару первых абзацев статьи из Википедии (или любого источника знаний).
2️⃣ С помощью GPT-4o получаем вопрос–ответ для этого контекста.
3️⃣ Просим открытую модель ответить на этот же вопрос. Получаем ответ-кандидат.
4️⃣ GPT-4o, имея контекст, вопрос, исходный ответ и ответ-кандидат, размечает галлюцинации в кандидате.
5️⃣ Делаем постфильтрацию (убираем пустые или отказные примеры).
📈Результаты
1️⃣ Пайплан позволяет генерировать датасеты разных доменов, размеров и языков с минимальными затратами.
2️⃣ Все галлюцинации — естественные, LLM никто не просил галлюцинировать намеренно. Таким образом, для детекции можно использовать методы на основе внутренних представлений моделей, тем более что мы добавили инфрмации о модели.
3️⃣ Датасет подходит для тестирования LLM на множестве языков.
4️⃣ Кросспроверка показала: при обучении на нашем датасете мы почти всегда получали лучшие результаты при тестах на других, вручную размеченных датасетах.
🌐Рандомные галлюцинации
Кстати, если работа вам понравилась прошу проголосовать за нее на HuggingFace Daily Papers.
В работе мы предложили метод генерации синтетических данных, содержащих естественные (не инсценированные) галлюцинации, размеченные на уровне спанов. Но ценность этой работы — не только в содержании, а ещё и в том, как она родилась.
Я давно убеждён: NLP — это прикладная область. А в прикладных областях особое значение имеют соревнования — от Kaggle до академических вроде SemEval, DSTC и других.
Участие в них позволяет:
Эта работа — как раз результат одного из таких опытов.
📜О чём статья
Мы разработали пайплайн для генерации датасета с естественными галлюцинациями. Мы не просили LLM намеренно ошибаться (как в HalluEval), а детектировали реальные примеры. Так мы получили многоязычный датасет PsiloQA для поспановой (span-level) детекции галлюцинаций и протестировали на нём разные подходы.
⚙️Как работает пайплайн
📈Результаты
🌐Рандомные галлюцинации
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6👍3❤1
IROS ещё не начался, но роботов уже показывают
🔥10👏1
Всем привет!
Хочу поделиться с вами нашей совсем свежей статьей:
🔥 Don’t Blind Your VLA: Aligning Visual Representations for OOD Generalization🔥
Предлагаем метод выравнивания визуальных представлений в VLA моделях во время SFT дообучения на маленьких робототехнических датасетах, который помогает сохранять и улучшать навыки визуально-языкового (VL) понимания.
Помимо этого, для оценки переноса знаний от VLM к VLA и VL-понимания независимо от выполнения низкоуровневых действий, мы предложили VL-Think — бенчмарк для тестирования VLA на знания из повседневной жизни.
Ключевые находки🦾:
⚫️ Наивное SFT дообучение на робототехнических данных вызывает проблемы с фокусом внимания на релевантных объектах, возникает коллапс языковых представлений и забывание в VLA моделях
⚫️ Наш метод дает значимый прирост в сравнении с наивным SFT почти во всех OOD-сеттингах обобщаемости (Vision, Semantic, Execution)
⚫️ Линейный пробинг показывает, что предложенный метод улучшает VL представления относительно претрейна и SFT чекпоинтов
Upvotes на huggingface daily papers крайне приветствуются!😉
https://huggingface.co/papers/2510.25616
Хочу поделиться с вами нашей совсем свежей статьей:
Предлагаем метод выравнивания визуальных представлений в VLA моделях во время SFT дообучения на маленьких робототехнических датасетах, который помогает сохранять и улучшать навыки визуально-языкового (VL) понимания.
Помимо этого, для оценки переноса знаний от VLM к VLA и VL-понимания независимо от выполнения низкоуровневых действий, мы предложили VL-Think — бенчмарк для тестирования VLA на знания из повседневной жизни.
Ключевые находки🦾:
Upvotes на huggingface daily papers крайне приветствуются!😉
https://huggingface.co/papers/2510.25616
Please open Telegram to view this post
VIEW IN TELEGRAM
huggingface.co
Paper page - Don't Blind Your VLA: Aligning Visual Representations for OOD
Generalization
Generalization
Join the discussion on this paper page
🔥15👍3