AI подтвердил способность к нейрогенезу у взрослых людей
В недавнем исследовании с помощью AI учёные обнаружили клетки-предшественницы нейронов в гиппокампе у взрослых людей. Ранее считалось, что они есть только у детей. Это открытие ещё раз подтвердило, что взрослый мозг всё же способен создавать новые нейроны и сохраняет способность к нейрогенезу на протяжении жизни.
Ещё в 2013 году учёные подтвердили, что в гиппокампе взрослых людей возможен нейрогенез — образование новых нейронов. Позже были обнаружены стволовые клетки и незрелые нейроны, но недоставало ключевого звена — нейральных клеток-предшественниц.
Что сделали учёные?
По итогам эксперимента нейросеть нашла нужные клетки в 9 из 14 случаев. А в тестах участков мозга, не связанных с нейрогенезом, она точно зафиксировала их отсутствие.
Открытие учёных может приблизить нас к созданию терапии, способной восстанавливать функции мозга при психических и нейродегенеративных заболеваниях.
👍 — мозг продолжает удивлять
🤔 — жду AI для оцифровки памяти
В недавнем исследовании с помощью AI учёные обнаружили клетки-предшественницы нейронов в гиппокампе у взрослых людей. Ранее считалось, что они есть только у детей. Это открытие ещё раз подтвердило, что взрослый мозг всё же способен создавать новые нейроны и сохраняет способность к нейрогенезу на протяжении жизни.
Ещё в 2013 году учёные подтвердили, что в гиппокампе взрослых людей возможен нейрогенез — образование новых нейронов. Позже были обнаружены стволовые клетки и незрелые нейроны, но недоставало ключевого звена — нейральных клеток-предшественниц.
Что сделали учёные?
🔘 Обучили AI распознавать молекулярные отпечатки клеток-предшественниц на образцах мозга, пожертвованных для эксперимента🔘 Протестировали модель на мышах с точностью до 83%🔘 Применили её к образцам мозга взрослых людей
По итогам эксперимента нейросеть нашла нужные клетки в 9 из 14 случаев. А в тестах участков мозга, не связанных с нейрогенезом, она точно зафиксировала их отсутствие.
Открытие учёных может приблизить нас к созданию терапии, способной восстанавливать функции мозга при психических и нейродегенеративных заболеваниях.
👍 — мозг продолжает удивлять
🤔 — жду AI для оцифровки памяти
Please open Telegram to view this post
VIEW IN TELEGRAM
👍20🤔6❤1
Можем ли мы прочитать «мысли» рассуждающих моделей? 💡
Рассказываем, как разработчики пытаются интерпретировать их «мышление».
Как понять нейросеть
При решении задачи «нейроны» LLM активируются непредсказуемо и могут отвечать за множество концепций одновременно. Чтобы понять логику нейросети, нужно выявить группу активных нейронов, важных для решения конкретной задачи. Это похоже на небольшой набор понятий, которыми пользуются люди, рассуждая о той или иной ситуации.
В 2024 году OpenAI предложила использовать для выявления искомых групп нейронов разрежённые автокодировщики. Они сжимают общее состояние большой модели со множеством связей в компактный код (вектор «признаков»), а потом восстанавливают его. В этом коде активно лишь малое количество нейронных связей, и они неизбежно отвечают за что-то конкретное и осмысленное — иначе автокодировщик просто не сможет восстановить исходное состояние. Таким образом исследователи нашли у GPT-4 около 16 миллионов относительно интерпретируемых признаков (паттернов), каждый из которых отвечает за какую-то осмысленную концепцию.
Распутать цепь рассуждений
Весной 2025 года Anthropic выложила в открытый доступ circuit-tracer. Этот инструмент позволяет выяснить, как связаны между собой токены и какие цепи рассуждений выводит модель от промпта к ответу. Для этого используется атрибутивный граф — это ассоциативный граф, всем вершинам которого дополнительно приписаны некоторые подмножества атрибутов. Они помогают найти зависимости между рассуждениями модели и активацией тех или иных нейронов и слоёв модели. Таким способом компания исследовала свою модель Claude 3.5 Haiku.
❤️— если хотите узнать, мечтают ли андроиды об электроовцах
Рассказываем, как разработчики пытаются интерпретировать их «мышление».
Как понять нейросеть
При решении задачи «нейроны» LLM активируются непредсказуемо и могут отвечать за множество концепций одновременно. Чтобы понять логику нейросети, нужно выявить группу активных нейронов, важных для решения конкретной задачи. Это похоже на небольшой набор понятий, которыми пользуются люди, рассуждая о той или иной ситуации.
В 2024 году OpenAI предложила использовать для выявления искомых групп нейронов разрежённые автокодировщики. Они сжимают общее состояние большой модели со множеством связей в компактный код (вектор «признаков»), а потом восстанавливают его. В этом коде активно лишь малое количество нейронных связей, и они неизбежно отвечают за что-то конкретное и осмысленное — иначе автокодировщик просто не сможет восстановить исходное состояние. Таким образом исследователи нашли у GPT-4 около 16 миллионов относительно интерпретируемых признаков (паттернов), каждый из которых отвечает за какую-то осмысленную концепцию.
Распутать цепь рассуждений
Весной 2025 года Anthropic выложила в открытый доступ circuit-tracer. Этот инструмент позволяет выяснить, как связаны между собой токены и какие цепи рассуждений выводит модель от промпта к ответу. Для этого используется атрибутивный граф — это ассоциативный граф, всем вершинам которого дополнительно приписаны некоторые подмножества атрибутов. Они помогают найти зависимости между рассуждениями модели и активацией тех или иных нейронов и слоёв модели. Таким способом компания исследовала свою модель Claude 3.5 Haiku.
Выяснилось, что модель может планировать ответ на много слов вперёд. Например, заранее подбирать рифмы в стихах или приходить к ответу раньше, чем она напечатает его на естественном языке. Она проводит параллельные вычисления для математических задач и комбинирует эти подходы — при этом иначе объясняет свою логику пользователям.
Кроме того, в модели одновременно срабатывают конкурирующие механизмы — например, установка составлять грамматически целостное высказывание заставляет её продолжать рассуждения на «опасные темы» вопреки этическим ограничениям.
❤️— если хотите узнать, мечтают ли андроиды об электроовцах
Please open Telegram to view this post
VIEW IN TELEGRAM
❤14👍2💯1
Please open Telegram to view this post
VIEW IN TELEGRAM
LLM для бизнеса: как оценить способности моделей?
Ещё пару лет назад достаточно было прогнать LLM по нескольким стандартным бенчмаркам, чтобы оценить её навыки. Но модели развиваются быстро, и лидерборды уже не отражают их реальные способности.
Чтобы подобрать LLM для своих задач, специалистам приходится комбинировать метрики и проводить внутренние тесты. Коллеги из LLM Arena запускают исследование, чтобы понять, какие данные, инструменты и сигналы помогают оценить модель и выяснить, подходит ли она для продукта.
Если вы ML-инженер, дата-сайентист или продакт-менеджер, пройдите опрос и поделитесь ссылкой с коллегами — сделайте свой вклад в комьюнити.
📺 Участвовать в опросе
Ещё пару лет назад достаточно было прогнать LLM по нескольким стандартным бенчмаркам, чтобы оценить её навыки. Но модели развиваются быстро, и лидерборды уже не отражают их реальные способности.
❌ Классические бенчмарки фокусируются на отдельных узких задачах — рассуждениях, арифметике, написании кода, работе с фактами❌ Креативность, стиль и поведение в реальных пользовательских сценариях невозможно оценить с помощью стандартных метрик❌ Разработчики — осознанно или нет — подгоняют модели под классические тесты. Они попадают в топы лидербордов, не всегда справляясь с комплексными задачами
Чтобы подобрать LLM для своих задач, специалистам приходится комбинировать метрики и проводить внутренние тесты. Коллеги из LLM Arena запускают исследование, чтобы понять, какие данные, инструменты и сигналы помогают оценить модель и выяснить, подходит ли она для продукта.
Если вы ML-инженер, дата-сайентист или продакт-менеджер, пройдите опрос и поделитесь ссылкой с коллегами — сделайте свой вклад в комьюнити.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3
Где рождается будущее AI 💵
С 26 по 28 июля в Шанхае проходит Всемирная конференция по искусственному интеллекту WAIC 2025. На ней ведущие специалисты со всего мира делятся опытом, обсуждают и задают тренды в развитии AI. В этом году мероприятие собрало свыше 1200 экспертов со всего мира, включая 12 лауреатов Нобелевской премии и премии Тьюринга.
WAIC 2025 проходит под девизом «Глобальная солидарность в эпоху ИИ». От лица Сбера и России по теме выступил Андрей Белевцев, старший вице-президент и руководитель блока «Технологическое развитие» Сбербанка. Он подсветил проблемы безопасного и этичного использования AI.
Андрей рассказал, что в России действует Кодекс этики AI, разработанный Альянсом в сфере искусственного интеллекта с учётом рекомендаций ЮНЕСКО. К кодексу уже присоединились более 930 организаций, включая 60 зарубежных. Андрей также пригласил всех слушателей на Х Международную конференцию AI Journey, которая пройдёт в конце года в Москве. В прошлом году на ней участники из 14 стран и 17 ассоциаций объединились в AI Alliance Network.
📺 Следите за обновлениями в канале и первыми увидите кружок, в котором мы покажем, какая атмосфера царит на конференции. Кроме того, завтра на WAIC 2025 пройдёт международная сессия AI Journey и научный форсайт-трек AI Horizons, о чём отдельно расскажем в следующем посте 📆
Подписывайтесь на наш канал👈
С 26 по 28 июля в Шанхае проходит Всемирная конференция по искусственному интеллекту WAIC 2025. На ней ведущие специалисты со всего мира делятся опытом, обсуждают и задают тренды в развитии AI. В этом году мероприятие собрало свыше 1200 экспертов со всего мира, включая 12 лауреатов Нобелевской премии и премии Тьюринга.
Более 800 компаний представили 3 000 разработок и исследований, в том числе свыше 40 больших AI-моделей, 50 AI-терминалов, 60 моделей интеллектуальных роботов и другие новинки. Например, сразу несколько стартапов представили роботов-массажёров и умные девайсы для детей. А некоторые экспонаты, такие как робот-помощник хирурга, заставляют участников почувствовать себя героями научно-фантастического фильма.
WAIC 2025 проходит под девизом «Глобальная солидарность в эпоху ИИ». От лица Сбера и России по теме выступил Андрей Белевцев, старший вице-президент и руководитель блока «Технологическое развитие» Сбербанка. Он подсветил проблемы безопасного и этичного использования AI.
Андрей рассказал, что в России действует Кодекс этики AI, разработанный Альянсом в сфере искусственного интеллекта с учётом рекомендаций ЮНЕСКО. К кодексу уже присоединились более 930 организаций, включая 60 зарубежных. Андрей также пригласил всех слушателей на Х Международную конференцию AI Journey, которая пройдёт в конце года в Москве. В прошлом году на ней участники из 14 стран и 17 ассоциаций объединились в AI Alliance Network.
Подписывайтесь на наш канал
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7👍2🔥1
Завершается второй день WAIC 2025 📆
В этом году в центре внимания были роботы и различные сенсоры, с помощью которых AI внедряют в промышленности и повседневной жизни🤖 Наши эксперты также представили на выставке несколько разработок и самые последние новинки!
Завтра расскажем о самом интересном на WAIC 2025, а также поделимся деталями с международной сессии AI Journey и научной форсайт-сессии AI Horizons📺
❤️ — если захотелось в Шанхай
В этом году в центре внимания были роботы и различные сенсоры, с помощью которых AI внедряют в промышленности и повседневной жизни
Завтра расскажем о самом интересном на WAIC 2025, а также поделимся деталями с международной сессии AI Journey и научной форсайт-сессии AI Horizons
❤️ — если захотелось в Шанхай
Please open Telegram to view this post
VIEW IN TELEGRAM
❤9
Что обсуждают в Китае? Конечно же, Лабубу нейросети 🐲
27 июля ведущие российские и китайские эксперты выступили на международной сессии AI Journey и форсайт-треке AI Horizons в рамках WAIC 2025 в Шанхае. WAIC — крупнейшая в Восточной Азии и одна из ведущих мировых конференций по искусственному интеллекту, задающая тренды для глобального AI-сообщества.
Эксперты обсудили эволюцию генеративных моделей, трансформацию цифровых сервисов и новые вызовы для индустрии. А на научной форсайт-сессии AI Horizons прошла дискуссия о будущем технологий, перспективных тенденциях в области AI, путях преодоления разрыва в исследованиях и развитии этой сферы.
На сцене AI Journey:
На форуме гости могли ознакомиться с российскими решениями: GigaChat, Kandinsky, SymFormer. А также узнать подробнее про инициативы SberDevices, Института AIRI и AI Alliance Network. Это был по-настоящему продуктивный диалог! Надеемся на новые встречи и желаем нашим зарубежным коллегам успехов.
❤️ — за международное сотрудничество
Подписывайтесь на наш канал👈
27 июля ведущие российские и китайские эксперты выступили на международной сессии AI Journey и форсайт-треке AI Horizons в рамках WAIC 2025 в Шанхае. WAIC — крупнейшая в Восточной Азии и одна из ведущих мировых конференций по искусственному интеллекту, задающая тренды для глобального AI-сообщества.
Эксперты обсудили эволюцию генеративных моделей, трансформацию цифровых сервисов и новые вызовы для индустрии. А на научной форсайт-сессии AI Horizons прошла дискуссия о будущем технологий, перспективных тенденциях в области AI, путях преодоления разрыва в исследованиях и развитии этой сферы.
На сцене AI Journey:
🔘 Андрей Белевцев (Сбер) выступил на тему «Создание масштабного эффекта для бизнеса с помощью GenAI»🔘 Максим Ерёменко (Сбер) рассказал, как технологии ИИ приближают будущее🔘 Иван Оселедец (AIRI) представил результаты работы команды AIRI за последние полгода🔘 Алексей Наумов (ВШЭ) выступил с докладом о результатах исследования, посвящённого оцениванию потенциалов Шрёдингера
На форуме гости могли ознакомиться с российскими решениями: GigaChat, Kandinsky, SymFormer. А также узнать подробнее про инициативы SberDevices, Института AIRI и AI Alliance Network. Это был по-настоящему продуктивный диалог! Надеемся на новые встречи и желаем нашим зарубежным коллегам успехов.
❤️ — за международное сотрудничество
Подписывайтесь на наш канал
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👍6🔥3👏3
This media is not supported in your browser
VIEW IN TELEGRAM
Почему AI такой «прожорливый» и что с этим делать? 😋
Современные модели требуют мощных вычислений, а значит, тратят много электроэнергии, времени и оставляют внушительный углеродный след. Чтобы сократить эти издержки, специалисты разрабатывают технологии, которые делают AI легче, быстрее и экологичнее. В нашем обзоре — решения, позволяющие представить будущее AI-моделей.
⬇️ Уменьшение модели без потери качества
🤸 Гибкая архитектура
⌨️ Новое «железо» и источники энергии
🕐 Обучение без обучения
🥅 Edge AI и децентрализация
Снижение энергопотребления напрямую зависит от скорости внедрения новых технологий. А экономичность становится не просто приятным бонусом, а обязательным условием для лидерства в этой сфере.
Что думаете про сокращение издержек?
🤔 — мощный AI невозможно сделать экономичным
👍 — вижу проблему, но, думаю, оптимизация поможет
❤️ — лично использую энергоэффективные AI-решения
Современные модели требуют мощных вычислений, а значит, тратят много электроэнергии, времени и оставляют внушительный углеродный след. Чтобы сократить эти издержки, специалисты разрабатывают технологии, которые делают AI легче, быстрее и экологичнее. В нашем обзоре — решения, позволяющие представить будущее AI-моделей.
🔘 Квантование преобразует 32-битные числа в более компактные 8-битные, уменьшая объём вычислений без существенного ущерба для точности🔘 Бинаризация заменяет все веса простыми бинарными значениями (0 и 1), что делает модель исключительно лёгкой, но резко снижает качество ответов на сложные вопросы🔘 Прунинг «обрезает» лишние нейронные связи, сохраняя только наиболее значимые элементы
🔘 Mixture of Experts и Sparse Transformers работают избирательно, активируя только необходимые модули, пока остальные остаются неактивными🔘 Метод Early Exit позволяет модели завершать вычисления досрочно, если вероятность положительного результата достаточно высока🔘 Sparsity-aware алгоритмы задействуют лишь часть сети в зависимости от конкретной задачи
🔘 Специализированные аппаратные ускорители вроде TPU от Google превосходят традиционные GPU по энергоэффективности в разы, но подходят не для всех моделей🔘 Возобновляемая энергия: солнечные, ветряные электростанции и даже компактные ядерные реакторы. Крупнейшие технологические компании (Google, Microsoft, IBM) активно тестируют и используют альтернативные источники электричества🔘 Cистемы жидкостного охлаждения не только сокращают расход воды, но и существенно продлевают срок службы оборудования, создавая устойчивую экосистему для развития искусственного интеллекта
🔘 Zero-shot и few-shot learning алгоритмы решают задачи без обучения на конкретных примерах. Например, CLIP от OpenAI, который анализирует и сопоставляет изображения с текстом без предварительной настройки🔘 Self-learning (самообучение) — подход, при котором модели совершенствуются на основе предугадывания недостающих или неразмеченных данных (например, Contrastive Learning в компьютерном зрении)🔘 Meta-learning (обучение обучению) — алгоритмы вроде MAML позволяют моделям быстро адаптироваться к новым задачам, используя опыт предыдущих решений
🔘 Локальные вычисления: вместо отправки данных в облако модели работают прямо на устройстве (смартфоны, камеры, IoT-датчики), экономя трафик и энергию🔘 Федеративное обучение позволяет обучать модели на распределённых устройствах без передачи сырых данных в центральный сервер🔘 Блокчейн и децентрализованные сети (например, Bittensor) создают рынок вычислительных ресурсов, где участники получают вознаграждение за предоставление своих мощностей для AI-задач
Снижение энергопотребления напрямую зависит от скорости внедрения новых технологий. А экономичность становится не просто приятным бонусом, а обязательным условием для лидерства в этой сфере.
Что думаете про сокращение издержек?
🤔 — мощный AI невозможно сделать экономичным
👍 — вижу проблему, но, думаю, оптимизация поможет
❤️ — лично использую энергоэффективные AI-решения
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10🤔7❤2🔥1
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
GigaChat
Исследователи Сбера на конференции ACL
Стартовала ACL 2025 — одна из главных конференций в сфере компьютерной лингвистики: отбор проходят только 20% статей
Наши коллеги Валентин Мамедов, Иван Басков, Сергей Порхун, Даниил Смирнов, Сергей Аверкиев и Артём…
Стартовала ACL 2025 — одна из главных конференций в сфере компьютерной лингвистики: отбор проходят только 20% статей
Наши коллеги Валентин Мамедов, Иван Басков, Сергей Порхун, Даниил Смирнов, Сергей Аверкиев и Артём…
👍9🔥7❤2👏2
This media is not supported in your browser
VIEW IN TELEGRAM
SMILES-2025: как прошла летняя ML-школа в Харбине 🏆
Две недели в Харбинском политехническом университете — одном из сильнейших технических вузов Китая и мира — пролетели незаметно.
Участники прослушали более 30 лекций и посетили практические семинары. Они исследовали современные архитектуры, тестировали модели, решали задачи по генерации по изображениям и тексту, изучали свойства больших языковых моделей и их возможности в научных сценариях. А на постерной сессии представили свои научные работы и идеи.
В этом году эксперты Cбера не только подготовили учебные материалы и провели лекции, но и выступили менторами практических проектов учащихся.
В финале студенты представили на конкурс более 30 проектов по обработке естественного языка, компьютерному зрению, генеративным моделям, математическим основам AI и его применению в прикладных задачах.
Работы, которые были отмечены дополнительно специальной номинацией Сбера и получили призы:
🔘 Постер «Оптимизация графов в AutoML с помощью LLM», Илларион Иов
🔘 Командный проект «ИИ агенты для прогнозирования общественного восприятия», Дарья Дубинина, Фернандо Леон, Тимур Закарин, Людмила Завадская
SMILES — отличная площадка для нетворкинга, обмена опытом и демонстрации технологическому сообществу экспертизы и передовых решений🚀
Две недели в Харбинском политехническом университете — одном из сильнейших технических вузов Китая и мира — пролетели незаметно.
Участники прослушали более 30 лекций и посетили практические семинары. Они исследовали современные архитектуры, тестировали модели, решали задачи по генерации по изображениям и тексту, изучали свойства больших языковых моделей и их возможности в научных сценариях. А на постерной сессии представили свои научные работы и идеи.
В этом году эксперты Cбера не только подготовили учебные материалы и провели лекции, но и выступили менторами практических проектов учащихся.
В финале студенты представили на конкурс более 30 проектов по обработке естественного языка, компьютерному зрению, генеративным моделям, математическим основам AI и его применению в прикладных задачах.
Победители конкурса проектов🔘 1 место — «LLM-агенты для прогнозирования общественного восприятия центробанков», Дарья Дубинина, Фернандо Леон, Тимур Закарин, Людмила Завадская. Проект получил специальный приз от Сбера🔘 2 место — «Предиктивное обучение представлений через согласование будущих состояний», Александр Югай, Хан Цуй🔘 3 место — «Моделирование вознаграждений для генерации текста по изображениям», Мария Ковалева, Лев Новицкий, Даниил Князев
Работы, которые были отмечены дополнительно специальной номинацией Сбера и получили призы:
Итоги постерной сессии🔘 1 место — «Вся сила в уверенности: few-shot дообучение языковых моделей с подкреплением», Пэнъи Ли🔘 2 место — «Предотвращение переобучения в задачах генерации изображений: регуляризация эмбеддингов и карт внимания», Арина Чумаченко🔘 3 место — «Нейросетевые методы генерации структурированных сеток», Бари Хайруллин
SMILES — отличная площадка для нетворкинга, обмена опытом и демонстрации технологическому сообществу экспертизы и передовых решений
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6👍4❤2
🐲 Факты, графы и никаких галлюцинаций ⛔️
LLM генерируют ответы на основе фактов, но их знания ограничены обучающей выборкой. Чтобы отвечать достоверно на актуальные или узкоспециализированные запросы, модели нужно регулярно дообучать на свежих данных. Здесь на помощь приходят RAG-системы. При генерации ответов они подтягивают релевантные данные из внешних источников или внутренних баз данных.
Но как оценить, насколько хорошо система справляется с этой задачей? Наша команда из SberAI вместе с коллегами из ITMO, МИСИС, ВШЭ и MWS AI разработала DRAGON — первый динамический бенчмарк для оценки RAG-систем на русском языке в сфере новостей.
Как работает DRAGON?
После того, как подграфы выделены, они передаются в языковую модель, которая с помощью специально подготовленного промпта генерирует вопросно-ответные пары. По ним бенчмарк затем оценивает RAG-системы.
Автогенерация вопросов не гарантирует качества, поэтому финально применяется многоступенчатая фильтрация:
🎉 После фильтрации отбираются по 150 лучших вопросов на каждый тип подграфа. Итоговый тест включает только те примеры, что прошли проверку на смысловую связность, сложность и качество.
Бенчмарк защищён от утечек за счёт регулярного обновления тестового датасета и использует извлечение графов знаний из текста для точной работы с фактами.
Репозиторий с кодом на GitHub💻
🔥 — если прогоните свою модель через DRAGON
LLM генерируют ответы на основе фактов, но их знания ограничены обучающей выборкой. Чтобы отвечать достоверно на актуальные или узкоспециализированные запросы, модели нужно регулярно дообучать на свежих данных. Здесь на помощь приходят RAG-системы. При генерации ответов они подтягивают релевантные данные из внешних источников или внутренних баз данных.
Но как оценить, насколько хорошо система справляется с этой задачей? Наша команда из SberAI вместе с коллегами из ITMO, МИСИС, ВШЭ и MWS AI разработала DRAGON — первый динамический бенчмарк для оценки RAG-систем на русском языке в сфере новостей.
Как работает DRAGON?
Вопросы для тестового набора формируются на основе четырех типов подграфов:1️⃣ Извлечение фактов из текста
LLM получает новостные статьи из открытых источников и извлекает из них факты в формате триплетов: субъект — отношение — объект. Например, «Россия — нарастила — добычу нефти». Это позволяет превратить неструктурированный текст в формальные логические утверждения2️⃣ Нормализация сущностей
В тексте встречаются разные формы одного объекта (например, «РФ», «Россия», «Российская Федерация»). Система приводит их к единой форме с учётом контекста, чтобы сделать граф более однородным3️⃣ Фильтрация
Триплеты, которые уже содержатся в открытых базах знаний (например, Wikidata), удаляются. Это позволяет исключить ситуацию, когда модель «угадывает» ответ, опираясь на обучающие данные, а не на данные из поиска4️⃣ Построение RDF-графа знаний
Очищенные и нормализованные триплеты объединяются в один граф, отражающий связи между сущностями. Этот граф разбивается на подграфы, каждый из которых используется как основа для генерации вопросов — от простых до логически сложных
🔘 Simple — по одному факту из триплета🔘 Set — перечисление связанных сущностей🔘 Conditional — с логическим условием🔘 Multi-hop — требует цепочки рассуждений
После того, как подграфы выделены, они передаются в языковую модель, которая с помощью специально подготовленного промпта генерирует вопросно-ответные пары. По ним бенчмарк затем оценивает RAG-системы.
Автогенерация вопросов не гарантирует качества, поэтому финально применяется многоступенчатая фильтрация:
1️⃣ языковая корректность: вопросы проходят проверку моделью, обученной на RuCoLA. Отсеиваются некорректные, неестественные или синтаксически ошибочные формулировки2️⃣ проверка сущностей: с помощью Natasha извлекаются именованные сущности из статьи. Если они не упоминаются в вопросе или ответе, то пример считается слишком общим и удаляется3️⃣ проверка на тривиальность: вопросы прогоняются через модели вроде Qwen 2.5 7B и LLaMA 3 8B без контекста. Если они легко угадывают ответ, задача считается тривиальной и исключается4️⃣ сопоставление с подграфом: упомянутые в вопросе сущности сравниваются с RDF-подграфом (по расстоянию Левенштейна). Отбрасываются примеры без соответствий или с «лишними» сущностями5️⃣ финальная оценка: отфильтрованные примеры также проходят проверку через POLLUX-7B
Бенчмарк защищён от утечек за счёт регулярного обновления тестового датасета и использует извлечение графов знаний из текста для точной работы с фактами.
Репозиторий с кодом на GitHub
🔥 — если прогоните свою модель через DRAGON
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7🔥5👍2