Все мы хотим, чтобы языковые модели генерировали не только связный текст, но и точные, формализованные ответы — например, в формате JSON, SQL или корректного программного кода.
Это особенно важно, если результат генерации используется дальше в системе: вставляется в пайплайн, передаётся другим сервисам или парсится автоматически. Один пропущенный символ — и всё ломается.
Избежать таких ошибок помогает структурированная генерация.
В карточках — кратко о том, как она работает и какие есть подходы. А по ссылке — полная статья со всеми подробностями.
Это особенно важно, если результат генерации используется дальше в системе: вставляется в пайплайн, передаётся другим сервисам или парсится автоматически. Один пропущенный символ — и всё ломается.
Избежать таких ошибок помогает структурированная генерация.
В карточках — кратко о том, как она работает и какие есть подходы. А по ссылке — полная статья со всеми подробностями.
🔥8👍3
Всем привет! Продолжаем обозревать статьи, представленные на ICML.
Сегодня кратко рассмотрим статью, которая посвящена проблемам оценки качества наборов данных для графового машинного обучения.
В машинном обучении принято сравнивать новые алгоритмы с предыдущими на различных датасетах. Однако в контексте графового машинного обучения возникает вопрос: всегда ли такой подход корректен?
Авторы статьи предлагают набор количественных характеристик, которые помогают оценить, насколько выразительны структура графа и признаки вершин, а также насколько они подходят для решения конкретной задачи — например, классификации вершин.
Такая оценка позволяет исключить как слишком простые графы, на которых любая модель покажет высокий результат, так и слишком сложные, где ни одна модель не сможет выучить закономерности, поскольку таргет не связан с признаками или структурой графа.
Детали
Авторы разработали два алгоритма:
1. Алгоритм возмущений графа, позволяющий оценить, насколько задача действительно зависит от структуры или признаков графа.
2. Метод оценки информативности графа, основанный на анализе того, как при возмущениях меняются важные графовые метрики и расстояния.
Результаты
Методы были применены к нескольким открытым датасетам из биоинформатики и социальных сетей. Были выявлены:
🔸 Датасеты с релевантным таргетом.
🔸 Датасеты с нерелевантным таргетом.
🔸 Графы, которые не подходят для ранжирования алгоритмов машинного обучения.
Предложенный подход помогает оптимизировать тестирование новых алгоритмов машинного обучения. В дальнейшем авторы планируют уточнить разработанный метод, например, для подсчета аналогичных критериев для заданного класса моделей или для заданного класса задач.
Предыдущие обзоры статей с ICML от команды AI VK:
🔸 Высокопроизводительные трансформеры на базе MatMuls
#ICML #обзорстатьи
Сегодня кратко рассмотрим статью, которая посвящена проблемам оценки качества наборов данных для графового машинного обучения.
В машинном обучении принято сравнивать новые алгоритмы с предыдущими на различных датасетах. Однако в контексте графового машинного обучения возникает вопрос: всегда ли такой подход корректен?
Авторы статьи предлагают набор количественных характеристик, которые помогают оценить, насколько выразительны структура графа и признаки вершин, а также насколько они подходят для решения конкретной задачи — например, классификации вершин.
Такая оценка позволяет исключить как слишком простые графы, на которых любая модель покажет высокий результат, так и слишком сложные, где ни одна модель не сможет выучить закономерности, поскольку таргет не связан с признаками или структурой графа.
Детали
Авторы разработали два алгоритма:
1. Алгоритм возмущений графа, позволяющий оценить, насколько задача действительно зависит от структуры или признаков графа.
2. Метод оценки информативности графа, основанный на анализе того, как при возмущениях меняются важные графовые метрики и расстояния.
Результаты
Методы были применены к нескольким открытым датасетам из биоинформатики и социальных сетей. Были выявлены:
Предложенный подход помогает оптимизировать тестирование новых алгоритмов машинного обучения. В дальнейшем авторы планируют уточнить разработанный метод, например, для подсчета аналогичных критериев для заданного класса моделей или для заданного класса задач.
Предыдущие обзоры статей с ICML от команды AI VK:
#ICML #обзорстатьи
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8👀4👍3🍾2
Сегодня рассмотрим статью про метод «определение аппаратно‑программной платформы» (HSPI), который позволяет по вход‑выходному поведению модели машинного обучения определить, на каком GPU и с каким программным стеком она запущена.
Большие языковые модели и современные сверточные нейронные сети требуют существенных вычислительных ресурсов для решения реальных задач. По этой причине популярным решением становится аренда вычислительных мощностей, на которых проходит инференс, например, LLM-ок.
Возникает вопрос: как проверить, что поставщик железа и софта добросовестно выполняет свои обязательства? То есть, не инферит менее поздние модели на более старых видеокартах? Эту задачу попытался решить коллектив авторов из ICL, UoC и Google Deepmind.
Детали
Основная идея работы — посмотреть на задачи классификации и подобрать картинки или промпты, для которых на выходы модели будут влиять как железо, так и софт из-за различия в арифметических операциях, например — округления.
В контексте задачи классификации отличие двух архитектур будет ярко проявляться на границе между двумя классами, когда различные способы округления и упорядочивания в арифметических операциях будут приводить к различиям в классе, который предсказывает модель.
Авторы рассматривают два алгоритма: HSPI-BI (работает только на лейблах, предсказанных моделькой) и HSPI-LD (работает с вероятностями принадлежности определенному классу).
Результаты
Рассматривалось два сценария: White-Box — когда есть доступ к значениям в каждом нейроне, и Black-Box — когда есть доступ только к выходу модели. В качестве бэйзлайна рассматривался Random Guess. Авторам удалось существенно превзойти точность случайных угадываний в обеих постановках: в White-Box-сценарии точность детектирования типа железа и софта варьировалась от 83% до 100%. В Black-Box-сценарии удалось превзойти random guess примерно в три раза: 25% против 60%.
Авторы планируют дальше развивать предложенный ими метод, так как некоторые архитектуры неразличимы для текущей версии алгоритма. Кроме того, не исследована зависимость результатов от размера батча, что планируется исследовать в будущем.
Предыдущие обзоры статей с ICML от команды AI VK:
🔸 Высокопроизводительные трансформеры на базе MatMuls;
🔸 Проблемы оценки качества наборов данных для графового машинного обучения
Большие языковые модели и современные сверточные нейронные сети требуют существенных вычислительных ресурсов для решения реальных задач. По этой причине популярным решением становится аренда вычислительных мощностей, на которых проходит инференс, например, LLM-ок.
Возникает вопрос: как проверить, что поставщик железа и софта добросовестно выполняет свои обязательства? То есть, не инферит менее поздние модели на более старых видеокартах? Эту задачу попытался решить коллектив авторов из ICL, UoC и Google Deepmind.
Детали
Основная идея работы — посмотреть на задачи классификации и подобрать картинки или промпты, для которых на выходы модели будут влиять как железо, так и софт из-за различия в арифметических операциях, например — округления.
В контексте задачи классификации отличие двух архитектур будет ярко проявляться на границе между двумя классами, когда различные способы округления и упорядочивания в арифметических операциях будут приводить к различиям в классе, который предсказывает модель.
Авторы рассматривают два алгоритма: HSPI-BI (работает только на лейблах, предсказанных моделькой) и HSPI-LD (работает с вероятностями принадлежности определенному классу).
Результаты
Рассматривалось два сценария: White-Box — когда есть доступ к значениям в каждом нейроне, и Black-Box — когда есть доступ только к выходу модели. В качестве бэйзлайна рассматривался Random Guess. Авторам удалось существенно превзойти точность случайных угадываний в обеих постановках: в White-Box-сценарии точность детектирования типа железа и софта варьировалась от 83% до 100%. В Black-Box-сценарии удалось превзойти random guess примерно в три раза: 25% против 60%.
Авторы планируют дальше развивать предложенный ими метод, так как некоторые архитектуры неразличимы для текущей версии алгоритма. Кроме того, не исследована зависимость результатов от размера батча, что планируется исследовать в будущем.
Предыдущие обзоры статей с ICML от команды AI VK:
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8❤5🤔2💯2
Участники соревнуются в трёх треках, разделённых по возрасту и уровню подготовки. Для одного из треков VK подготовил задание: нужно создать модель, которая сможет заранее предсказывать, сколько раз пользователи посмотрят рекламное объявление.
С 9 июля участники уже начали решать задачи, но регистрация, квалификационный и основной этапы продолжаются до 22 сентября — ещё можно присоединиться.
Победителей объявят в ноябре, а призовой фонд составляет внушительные 15,6 миллиона рублей.
Организатор конкурса: Сбер. Соорганизатор: Альянс в сфере искусственного интеллекта.
Все подробности — на сайте https://aiijc.com/ru/
Please open Telegram to view this post
VIEW IN TELEGRAM
Aiijc
AI Challenge – международный конкурс по искусственному интеллекту для молодежи
Мы подготовили для тебя по-настоящему интересные задачи. Принимай участие в нашем конкурсе!
🔥7❤4👀3🙊2👍1
Всем привет. Подготовили краткий обзор статьи про странности LLM при простых запросах.
Существует два широко известных эффекта в мире LLM.
🔸 Один из них – воронка внимания (attention sink): эффект, при котором первый токен в последовательности получает «большее внимание» (значение функции активации), чем остальные. Причём это проявляется не только на первом слое трансформерной архитектуры.
🔸 Другой эффект – странное поведение языковых моделей на последовательностях с повторяющимися токенами или на задачах, в которых LLM просят просто повторить заданное слово. В таких случаях модель часто выдаёт странный ответ или раскрывает часть обучающей выборки. Последнее может быть критичным с точки зрения конфиденциальности.
В своей работе авторы показывают, что оба данных эффекта тесно взаимосвязаны: плохо предсказуемое поведение LLM на последовательностях с повторяющимися токенами возникает по тем же причинам, что и воронка внимания.
Детали
Авторы эмпирически исследуют активации нейронной сети для последовательностей с повторяющимися токенами и первого токена в обычных предложениях. Из численных экспериментов делают вывод о том, что эти паттерны похожи, поэтому механизм, в целом, одинаковый. Свой вывод они подтверждают теоремой, которая говорит, что эмбеддинги последовательности, в которой этот токен повторяется n раз, стремится к представлению одиночного токена при n, стремящемся к бесконечности.
Помимо этого, авторы предлагают патч, который позволяет нормализовать работу LLM на последовательностях с повторяющимися токенами. Главным достоинством данного патча является то, что он не сильно портит результаты модели на других задачах. Последнее подтверждается численными экспериментами: метрики упали не более чем на 3%, а в некоторых случаях даже возросли.
Результаты
Основных результата два:
🔸 воронка внимания – одна из ключевых причин аномалий при обработке последовательностей с повторяющимися токенами;
🔸 патч, который частично решает проблему без существенного проседания метрик на других задачах.
Важно, что, по мнению авторов, они первые в мире, кто это осознал и опубликовал вышеупонятую связь.
Авторы статьи заявляют, что предложенный ими метод впервые позволил частично расшифровать внутренние механизмы работы больших языковых моделей (LLM), благодаря чему была выявлена взаимосвязь между двумя ключевыми паттернами функционирования LLM.
Они подчеркивают важность интерпретируемости и планируют дальше развивать свою работу в этом направлении.
🔹 Что думаете по поводу работы? Сталкивались ли вы с похожими эффектами? С какими аномалиями в работе с LLM вы сталкивались?
Предыдущие обзоры статей с ICML от команды AI VK:
🔸 Высокопроизводительные трансформеры на базе MatMuls;
🔸 Проблемы оценки качества наборов данных для графового машинного обучения;
🔸 Метод HSPI — определение железа и ПО по поведению ML-модели.
#ICML #обзорстатьи
Существует два широко известных эффекта в мире LLM.
В своей работе авторы показывают, что оба данных эффекта тесно взаимосвязаны: плохо предсказуемое поведение LLM на последовательностях с повторяющимися токенами возникает по тем же причинам, что и воронка внимания.
Детали
Авторы эмпирически исследуют активации нейронной сети для последовательностей с повторяющимися токенами и первого токена в обычных предложениях. Из численных экспериментов делают вывод о том, что эти паттерны похожи, поэтому механизм, в целом, одинаковый. Свой вывод они подтверждают теоремой, которая говорит, что эмбеддинги последовательности, в которой этот токен повторяется n раз, стремится к представлению одиночного токена при n, стремящемся к бесконечности.
Помимо этого, авторы предлагают патч, который позволяет нормализовать работу LLM на последовательностях с повторяющимися токенами. Главным достоинством данного патча является то, что он не сильно портит результаты модели на других задачах. Последнее подтверждается численными экспериментами: метрики упали не более чем на 3%, а в некоторых случаях даже возросли.
Результаты
Основных результата два:
Важно, что, по мнению авторов, они первые в мире, кто это осознал и опубликовал вышеупонятую связь.
Авторы статьи заявляют, что предложенный ими метод впервые позволил частично расшифровать внутренние механизмы работы больших языковых моделей (LLM), благодаря чему была выявлена взаимосвязь между двумя ключевыми паттернами функционирования LLM.
Они подчеркивают важность интерпретируемости и планируют дальше развивать свою работу в этом направлении.
Предыдущие обзоры статей с ICML от команды AI VK:
#ICML #обзорстатьи
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥11❤5👀5🙈2
Доброе утро, подписчики! Сегодня рассмотрим статью про метод улучшения оптимизации градиентов в глубоких моделях, также представленную на ICML 2025.
Диффузионные модели активно используются для генерации изображений. Практических применений у данного метода масса, из-за высокой степени креативности: можно генерировать осмысленные изображения, далекие от обучающей выборки.
В ходе своей работы авторы выяснили, что причиной креативности диффузионных моделей со свёрточными сетями являются локальность — зависимость только от непосредственного окружения пикселя — и инвариантность относительно сдвигов. Что удивительно, этих двух фундаментальных свойств оказывается достаточно. Последнее проверяется авторами в ходе численных экспериментов.
Детали
Исследователи показывают, что идеально обученная классическая диффузионная модель не может быть очень креативной, так как будет выдавать сэмплы, близкие к сэмплам из обучающей выборки.
🔹 Гипотеза: такое не происходит на практике из-за использования свёрточных нейронных сетей (ConvNet). А именно, свёрточные нейронные сети обладают свойством локальности и инвариантности к сдвигам. Два этих свойства выступают в роли регуляризации, позволяющей обучать полезные диффузионные модельки.
Для проверки выдвинутой гипотезы рассматривается стандартный случайный процесс, использующийся в диффузионных моделях, и добавляют ограничения в виде инвариантности относительно сдвигов (с поправкой на граничные пиксели) и зависимости процесса только от локального окружения пикселя — за счёт модификации правой части стохастического дифференциального уравнения. Важно, что авторы не используют никаких дополнительных лосс-функций — только случайный процесс.
В серии численных экспериментов описанный выше случайный процесс с ограничениями сравнивается с классическими диффузионными моделями со свёрточными нейронными сетями (ResNet, U-Net с Self-Attention (SA)) на классических датасетах (MNIST, CIFAR…).
Результаты
Авторы статьи разработали новый алгоритм для генерации изображений на основе решения стохастического дифференциального уравнения.
Данный алгоритм генерирует картинки, похожие на изображения, создаваемые классическими диффузионными моделями, использующими свёрточные сети (ResNet): значение R² около 0.95 при по-пиксельном сравнении изображений. В случае использования архитектуры U-Net разница более заметна: R² около 0.77. Такое расхождение, скорее всего, связано с нелокальностью архитектуры U-Net с SA.
Исследователи предложили довольно простую интерпретацию креативности диффузионных моделей. По сути, они заменили нейросеть аналитическим случайным процессом с ограничениями, добившись похожих результатов на датасетах в духе MNIST и CIFAR.
Одним из главных выводов является то, что креативность диффузионных моделей, использующих достаточно простые свёрточные нейронные сети, может быть объяснена локальностью и инвариантностью относительно сдвига.
Авторы интерпретируют процесс генерации как перемешивание кусочков (локальность) разных картинок из обучающей выборки с последующей расстановкой их на новые места (инвариантность). Для интерпретации работы диффузионных моделей с другими архитектурами (U-Net с SA) требуется доработка теории для учёта нелокальности.
🔹 Исходя из вашего опыта, что помогает в генерации изображений при помощи диффузионок?
Предыдущие обзоры статей с ICML от команды AI VK:
🔸 Высокопроизводительные трансформеры на базе MatMuls;
🔸 Проблемы оценки качества наборов данных для графового машинного обучения;
🔸 Метод HSPI — определение железа и ПО по поведению ML-модели.
🔸 Странности LLM при простых запросах.
#ICML #обзорстатьи
Диффузионные модели активно используются для генерации изображений. Практических применений у данного метода масса, из-за высокой степени креативности: можно генерировать осмысленные изображения, далекие от обучающей выборки.
В ходе своей работы авторы выяснили, что причиной креативности диффузионных моделей со свёрточными сетями являются локальность — зависимость только от непосредственного окружения пикселя — и инвариантность относительно сдвигов. Что удивительно, этих двух фундаментальных свойств оказывается достаточно. Последнее проверяется авторами в ходе численных экспериментов.
Детали
Исследователи показывают, что идеально обученная классическая диффузионная модель не может быть очень креативной, так как будет выдавать сэмплы, близкие к сэмплам из обучающей выборки.
Для проверки выдвинутой гипотезы рассматривается стандартный случайный процесс, использующийся в диффузионных моделях, и добавляют ограничения в виде инвариантности относительно сдвигов (с поправкой на граничные пиксели) и зависимости процесса только от локального окружения пикселя — за счёт модификации правой части стохастического дифференциального уравнения. Важно, что авторы не используют никаких дополнительных лосс-функций — только случайный процесс.
В серии численных экспериментов описанный выше случайный процесс с ограничениями сравнивается с классическими диффузионными моделями со свёрточными нейронными сетями (ResNet, U-Net с Self-Attention (SA)) на классических датасетах (MNIST, CIFAR…).
Результаты
Авторы статьи разработали новый алгоритм для генерации изображений на основе решения стохастического дифференциального уравнения.
Данный алгоритм генерирует картинки, похожие на изображения, создаваемые классическими диффузионными моделями, использующими свёрточные сети (ResNet): значение R² около 0.95 при по-пиксельном сравнении изображений. В случае использования архитектуры U-Net разница более заметна: R² около 0.77. Такое расхождение, скорее всего, связано с нелокальностью архитектуры U-Net с SA.
Исследователи предложили довольно простую интерпретацию креативности диффузионных моделей. По сути, они заменили нейросеть аналитическим случайным процессом с ограничениями, добившись похожих результатов на датасетах в духе MNIST и CIFAR.
Одним из главных выводов является то, что креативность диффузионных моделей, использующих достаточно простые свёрточные нейронные сети, может быть объяснена локальностью и инвариантностью относительно сдвига.
Авторы интерпретируют процесс генерации как перемешивание кусочков (локальность) разных картинок из обучающей выборки с последующей расстановкой их на новые места (инвариантность). Для интерпретации работы диффузионных моделей с другими архитектурами (U-Net с SA) требуется доработка теории для учёта нелокальности.
Предыдущие обзоры статей с ICML от команды AI VK:
#ICML #обзорстатьи
Please open Telegram to view this post
VIEW IN TELEGRAM
❤8👍5🔥4🍾2🤝1
Иногда на рабочей встрече не звучит ничего, кроме «ой, ой, ой». Но мы, играясь с нейронками, попросили Gemini сделать подробный отчёт такой встречи. И вот что получилось 😂
#ithumor #мем #пятничныйюмор
Конечно, вот саммари этой напряженной и содержательной встречи:
**Саммари встречи**
**Дата:** Сегодня
**Участники:** Неустановленный круг лиц
**Повестка дня:** Непредвиденные обстоятельства
---
**Ключевые моменты:**
Встреча прошла в атмосфере эскалации кризисной ситуации, что можно проследить по ключевым репликам:
1. **Первый "Ой!" (00:01):** Участники выразили первоначальное удивление и легкую обеспокоенность, вероятно, ознакомившись с первичными данными (например, квартальным отчетом или результатами запуска проекта).
2. **Второй "Ой!" (00:02):** Удивление сменилось тревогой по мере осознания истинного масштаба проблемы. На этом этапе стало ясно, что первоначальная оценка была слишком оптимистичной.
3. **Третий "Ой!" (00:03):** Тревога достигла пика, перейдя в стадию принятия неизбежного негативного исхода. Данная реплика, вероятно, завершила обсуждение.
**Принятые решения:**
* Ситуация признана критической.
* Дальнейшее обсуждение было признано нецелесообразным до стабилизации эмоционального фона участников.
**План дальнейших действий:**
* Найти виновных.
* Найти выход.
* Сделать кофе (возможно, что-нибудь покрепче).
#ithumor #мем #пятничныйюмор
😁16🙈8🔥3👏1🙊1
Финальная статья из нашей серии обзоров будет про умеренную токсичность в обучении, которая улучшает детоксикацию моделей.
В теории размер обучающего датасета положительно влияет на работу моделей машинного обучения. Большие языковые модели не являются исключением. Однако на практике часто бывает так, что датасет содержит не совсем желательные сэмплы. В случае LLM это могут быть токсичные комментарии или ответы.
Самым очевидным решением является не использовать токсичные тексты при обучении, если есть задача обучить LLM, которая бы давала нетоксичные ответы. У этого решения есть побочный эффект: снижение размера корпуса текстов и, как следствие, не очень высокая эффективность работы LLM. На практике ML-инженеры идут на компромисс: добавляют в обучающую выборку часть токсичных текстов, балансируя между качеством модели и токсичностью ответов.
В данной работе авторы показывают, как можно увеличить долю токсичных текстов в обучающей выборке без существенного роста токсичности ответов LLM. Основная идея состоит в том, что мало кто использует языковую модель «из коробки»: обычно добавляют промты или определённым образом меняют активации за счёт сдвига эмбеддингов. Если согласовать конструирование обучающей выборки, сам процесс обучения и модификации на инференсе, то можно повысить качество ответов LLM без повышения токсичности.
Результаты
В своей работе исследователи предложили новый подход к объединению предварительной обработки данных, обучения модели и модификаций на этапе инференса.
Предложенный алгоритм повышает эффективность модели без повышения токсичности ответов: с ростом доли токсичных сэмплов растёт токсичность ответов, но повышается эффективность модификаций на этапе инференса (prompting and steering), поэтому общий перформанс растёт без сильного увеличения токсичности.
Детали
В работе предлагается собственная метрика — количественная мера связанности (или запутанности) между различными эмбеддингами. Далее исследуется поведение этой меры для обычных и токсичных текстов при изменении доли токсичных текстов. На игрушечном примере показывается, что значение метрики снижается с ростом доли токсичных текстов в обучающей выборке.
Затем рассматриваются два датасета: Toxigen и Real Toxicity Prompts. Анализ этих наборов данных демонстрирует: с увеличением доли токсичных сэмплов возрастает качество модели по метрикам MMLU, а также усиливается токсичность её ответов. В то же время срабатывает механизм понижения связанности (или запутанности) между эмбеддингами токсичных и нетоксичных комментариев, благодаря чему prompting и steering работают эффективнее. В обоих случаях удалось увеличить объём датасета на 10 % за счёт токсичных примеров — без ущерба для итогового качества модели.
Таким образом, токсичные примеры в обучающей выборке позволяют LLM построить более полную картину мира и давать более интересные ответы. В этом случае токсичность ответов LLM достаточно эффективно детектируется, поэтому prompting и steering успешно это компенсируют и повышают общую эффективность модели.
🔹 Сталкивались ли вы с токсичными или просто неожиданными ответами от LLM?
Предыдущие обзоры статей с ICML от команды AI VK:
🔸 Высокопроизводительные трансформеры на базе MatMuls;
🔸 Проблемы оценки качества наборов данных для графового машинного обучения;
🔸 Метод HSPI — определение железа и ПО по поведению ML-модели.
🔸 Странности LLM при простых запросах.
🔸 Метод улучшения оптимизации градиентов в глубоких моделях.
#ICML #обзорстатьи
В теории размер обучающего датасета положительно влияет на работу моделей машинного обучения. Большие языковые модели не являются исключением. Однако на практике часто бывает так, что датасет содержит не совсем желательные сэмплы. В случае LLM это могут быть токсичные комментарии или ответы.
Самым очевидным решением является не использовать токсичные тексты при обучении, если есть задача обучить LLM, которая бы давала нетоксичные ответы. У этого решения есть побочный эффект: снижение размера корпуса текстов и, как следствие, не очень высокая эффективность работы LLM. На практике ML-инженеры идут на компромисс: добавляют в обучающую выборку часть токсичных текстов, балансируя между качеством модели и токсичностью ответов.
В данной работе авторы показывают, как можно увеличить долю токсичных текстов в обучающей выборке без существенного роста токсичности ответов LLM. Основная идея состоит в том, что мало кто использует языковую модель «из коробки»: обычно добавляют промты или определённым образом меняют активации за счёт сдвига эмбеддингов. Если согласовать конструирование обучающей выборки, сам процесс обучения и модификации на инференсе, то можно повысить качество ответов LLM без повышения токсичности.
Результаты
В своей работе исследователи предложили новый подход к объединению предварительной обработки данных, обучения модели и модификаций на этапе инференса.
Предложенный алгоритм повышает эффективность модели без повышения токсичности ответов: с ростом доли токсичных сэмплов растёт токсичность ответов, но повышается эффективность модификаций на этапе инференса (prompting and steering), поэтому общий перформанс растёт без сильного увеличения токсичности.
Детали
В работе предлагается собственная метрика — количественная мера связанности (или запутанности) между различными эмбеддингами. Далее исследуется поведение этой меры для обычных и токсичных текстов при изменении доли токсичных текстов. На игрушечном примере показывается, что значение метрики снижается с ростом доли токсичных текстов в обучающей выборке.
Затем рассматриваются два датасета: Toxigen и Real Toxicity Prompts. Анализ этих наборов данных демонстрирует: с увеличением доли токсичных сэмплов возрастает качество модели по метрикам MMLU, а также усиливается токсичность её ответов. В то же время срабатывает механизм понижения связанности (или запутанности) между эмбеддингами токсичных и нетоксичных комментариев, благодаря чему prompting и steering работают эффективнее. В обоих случаях удалось увеличить объём датасета на 10 % за счёт токсичных примеров — без ущерба для итогового качества модели.
Таким образом, токсичные примеры в обучающей выборке позволяют LLM построить более полную картину мира и давать более интересные ответы. В этом случае токсичность ответов LLM достаточно эффективно детектируется, поэтому prompting и steering успешно это компенсируют и повышают общую эффективность модели.
Предыдущие обзоры статей с ICML от команды AI VK:
#ICML #обзорстатьи
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7👍3❤2🙈2👀1
Всем привет!
Всю прошлую неделю мы старались для вас и делились короткими обзорами статей с ICML 2025:
🔸 Высокопроизводительные трансформеры на базе MatMuls.
🔸 Проблемы оценки качества наборов данных для графового машинного обучения.
🔸 Метод HSPI — определение железа и ПО по поведению ML-модели.
🔸 Странности LLM при простых запросах.
🔸 Метод улучшения оптимизации градиентов в глубоких моделях.
🔸 Умеренная токсичность в обучении, которая улучшает детоксикацию моделей.
Как вам такой формат? Что бы вы хотели видеть больше в наших публикациях?
#icml #aivk
Всю прошлую неделю мы старались для вас и делились короткими обзорами статей с ICML 2025:
Как вам такой формат? Что бы вы хотели видеть больше в наших публикациях?
#icml #aivk
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10❤4🙈4👏2
Какой контент хотите видеть чаще в нашем канале?
Anonymous Poll
56%
Больше разборов академических статей
59%
Кейсы и полезные советы
30%
Новости индустрии
20%
Знакомство с командой
31%
Мемы
1%
Свой вариант (в комментариях)
🔥7❤4🎉3🤷3🙈1
Завершилась 66-я Международная математическая олимпиада (IMO) для школьников. IMO – это не только классное соревнование с головоломками, но и повод снова заговорить об искусственном интеллекте. OpenAI заявили, что их системы смогли завоевать золото: новая экспериментальная система от OpenAI решала те же задачи, что и школьники, в течение того же времени и смогла получить результат на уровне золотого медалиста IMO.
По словам сотрудников OpenAI, они разработали достаточно общую систему на совершенно новых принципах, которая способна решать широкий круг задач, а не только задачи математических олимпиад, на которых ее тестировали. К сожалению, платой за это является высокая вычислительная стоимость: o1 думает секунды, DeepResearch – минуты, новая экспериментальная система – часы. Тем не менее OpenAI с оптимизмом смотрит на будущее своей модели и на её высокую полезность для исследователей. Это в очередной раз заставляет задуматься: насколько далеко ИИ может зайти, заменит ли он людей и когда это вообще может случиться?
Однако не все разделяют оптимизм по поводу успехов ИИ. Например, один из самых молодых участников IMO, лауреат Филдсовской премии, профессор Теренс Тао считает, что методология сравнения ИИ и школьников на олимпиадных задачах не совсем корректна. Ресурсы школьника ограничены только ручкой и листом бумаги, в то время как OpenAI-подобные системы имеют неограниченный доступ к мощным вычислительным ресурсам, системам формальных доказательств, учебникам и интернету.
Илья, что думаешь по этому поводу?
🔹 «Тест на способность решать задачки IMO – один из самых сложных для неспециализированных ИИ-систем. Возможно, методология сравнения не совсем корректна, но это не отменяет значимости полученного результата.
Очень вероятно, что OpenAI и другие компании продолжат работу над общими ИИ-системами и в скором будущем предложат средства, существенно облегчающие труд многих. Это не обязательно должно привести к замене людей: скорее всего, поменяются роли, которые будет выполнять человек, используя эффективные ИИ-средства.
Вопрос о времени и доступности тоже остается открытым: не совсем понятно, как получится масштабировать такие ИИ-системы на большое число пользователей, не возникнет ли сложностей с вычислительными ресурсами.»
🔹 А как вы считатете, корректно ли существующее сравнение системы от OpenAI с человеком?
#новостииндустрии
По словам сотрудников OpenAI, они разработали достаточно общую систему на совершенно новых принципах, которая способна решать широкий круг задач, а не только задачи математических олимпиад, на которых ее тестировали. К сожалению, платой за это является высокая вычислительная стоимость: o1 думает секунды, DeepResearch – минуты, новая экспериментальная система – часы. Тем не менее OpenAI с оптимизмом смотрит на будущее своей модели и на её высокую полезность для исследователей. Это в очередной раз заставляет задуматься: насколько далеко ИИ может зайти, заменит ли он людей и когда это вообще может случиться?
Однако не все разделяют оптимизм по поводу успехов ИИ. Например, один из самых молодых участников IMO, лауреат Филдсовской премии, профессор Теренс Тао считает, что методология сравнения ИИ и школьников на олимпиадных задачах не совсем корректна. Ресурсы школьника ограничены только ручкой и листом бумаги, в то время как OpenAI-подобные системы имеют неограниченный доступ к мощным вычислительным ресурсам, системам формальных доказательств, учебникам и интернету.
Илья, что думаешь по этому поводу?
Очень вероятно, что OpenAI и другие компании продолжат работу над общими ИИ-системами и в скором будущем предложат средства, существенно облегчающие труд многих. Это не обязательно должно привести к замене людей: скорее всего, поменяются роли, которые будет выполнять человек, используя эффективные ИИ-средства.
Вопрос о времени и доступности тоже остается открытым: не совсем понятно, как получится масштабировать такие ИИ-системы на большое число пользователей, не возникнет ли сложностей с вычислительными ресурсами.»
#новостииндустрии
Please open Telegram to view this post
VIEW IN TELEGRAM
❤14🔥8👏3🎉2
В рекомендациях есть две точки зрения:
1. Бигтех: закинем в нейросеть пару петабайт данных, добавим побольше трансформерных блоков, тысячи видеокарт — и вот вам рексис нового поколения. Но вы не сможете это проверить, потому что только у нас столько данных.
2. Академия: пораскинем мозгами, добавим inductive bias в линейный автоэнкодер и получим соту на всех открытых датасетах. Обучаем на макбуке 19 года.
Мы любим оба подхода, но на ридинг-группе поговорим про второй. Роман Логойда, ML-инженер AI VK, представит статью Why is Normalization Necessary for Linear Recommenders?
🔹 Начало встречи 24 июля в 18:00.
Зум: ссылка
ID: 313 292 5940
Код: 473906
Параллельно запустим стрим прямо в канале AI VK Hub.
1. Бигтех: закинем в нейросеть пару петабайт данных, добавим побольше трансформерных блоков, тысячи видеокарт — и вот вам рексис нового поколения. Но вы не сможете это проверить, потому что только у нас столько данных.
2. Академия: пораскинем мозгами, добавим inductive bias в линейный автоэнкодер и получим соту на всех открытых датасетах. Обучаем на макбуке 19 года.
Мы любим оба подхода, но на ридинг-группе поговорим про второй. Роман Логойда, ML-инженер AI VK, представит статью Why is Normalization Necessary for Linear Recommenders?
Зум: ссылка
ID: 313 292 5940
Код: 473906
Параллельно запустим стрим прямо в канале AI VK Hub.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥16😁8❤5👏1
RuModernBERT от исследователей VK
Модель BERT еще в 2018 году совершила революцию в области обработки естественного языка, позволив машинам гораздо лучше понимать смысл текста и контекст слов слева и справа. BERT активно используется для обработки текстовых данных: например, в задачах классификации, кластеризации или поиска.
ModernBERT, появившийся совсем недавно, предлагает более высокую скорость и эффективность, но слабо поддерживает русский язык, поэтому команда исследователей из VK обучила и выложила в открытый доступ модель RuModernBERT для обработки естественного русского языка.
Детали
RuModernBERT была обучена в три этапа на 2 триллионах токенов данных на русском, английском языках и коде с максимальной длиной контекста до 8192 токенов. На первом этапе использовалось несколько датасетов с общим числом токенов 1,7T, на втором — 250M, на третьем — 50M. Такое изменение размера обучающей выборки сопровождалось использованием более чистых источников данных, в том числе книг, статей, постов и комментариев в социальных сетях, и уменьшением learning rate на каждом последующем этапе. Все это позволяет адаптировать ее для работы с современным текстом и учитывать разговорную речь.
Модель доступна в нескольких версиях: на 150 миллионов параметров и облегченная модель на 35 миллионов параметров — это помогает дополнительно регулировать производительность и точность модели на этапе инференса. Обученная модель RuModernBERT также использовалась в качестве претрейна для дополнительной модели USER2 — для векторного представления текстовых данных.
Для обучения мы использовали MRL (Matryoshka Representation Learning), позволяющий варьировать размер эмбеддингов и тем самым управлять точностью модели. Это достигается за счет особенностей процесса обучения, когда модель учится на эмбеддингах разной длины, стараясь закодировать как можно больше информации в первых координатах векторного представления.
RuModernBERT работает быстрее аналогов: обучение и развертывание на конечных устройствах — на 10–20% быстрее, обработка данных — в 2–3 раза быстрее на длинных контекстах по сравнению с ModernBERT. При оценке на валидационном датасете модель RuModernBERT превзошла или показала сопоставимые результаты с некоторыми из предшественников во всех задачах бенчмарка RussianSuperGLUE.
На бенчмарке RuMTEB для оценки энкодеров текстов USER2 показал результаты, сравнимые с более тяжёлыми моделями, например KaLM-v1.5 и jina-embeddings-v3. Последнее особенно чётко видно на задачах с большими текстами, где ответ находится вне первых 512 токенов.
🔹 Подробнее про процесс обучения и сравнение с другими моделями рассказали в статье на Хабре.
Все версии модели можно найти на Hugging Face.
#RuModernBERT #AIVK
Модель BERT еще в 2018 году совершила революцию в области обработки естественного языка, позволив машинам гораздо лучше понимать смысл текста и контекст слов слева и справа. BERT активно используется для обработки текстовых данных: например, в задачах классификации, кластеризации или поиска.
ModernBERT, появившийся совсем недавно, предлагает более высокую скорость и эффективность, но слабо поддерживает русский язык, поэтому команда исследователей из VK обучила и выложила в открытый доступ модель RuModernBERT для обработки естественного русского языка.
Детали
RuModernBERT была обучена в три этапа на 2 триллионах токенов данных на русском, английском языках и коде с максимальной длиной контекста до 8192 токенов. На первом этапе использовалось несколько датасетов с общим числом токенов 1,7T, на втором — 250M, на третьем — 50M. Такое изменение размера обучающей выборки сопровождалось использованием более чистых источников данных, в том числе книг, статей, постов и комментариев в социальных сетях, и уменьшением learning rate на каждом последующем этапе. Все это позволяет адаптировать ее для работы с современным текстом и учитывать разговорную речь.
Модель доступна в нескольких версиях: на 150 миллионов параметров и облегченная модель на 35 миллионов параметров — это помогает дополнительно регулировать производительность и точность модели на этапе инференса. Обученная модель RuModernBERT также использовалась в качестве претрейна для дополнительной модели USER2 — для векторного представления текстовых данных.
Для обучения мы использовали MRL (Matryoshka Representation Learning), позволяющий варьировать размер эмбеддингов и тем самым управлять точностью модели. Это достигается за счет особенностей процесса обучения, когда модель учится на эмбеддингах разной длины, стараясь закодировать как можно больше информации в первых координатах векторного представления.
RuModernBERT работает быстрее аналогов: обучение и развертывание на конечных устройствах — на 10–20% быстрее, обработка данных — в 2–3 раза быстрее на длинных контекстах по сравнению с ModernBERT. При оценке на валидационном датасете модель RuModernBERT превзошла или показала сопоставимые результаты с некоторыми из предшественников во всех задачах бенчмарка RussianSuperGLUE.
На бенчмарке RuMTEB для оценки энкодеров текстов USER2 показал результаты, сравнимые с более тяжёлыми моделями, например KaLM-v1.5 и jina-embeddings-v3. Последнее особенно чётко видно на задачах с большими текстами, где ответ находится вне первых 512 токенов.
Все версии модели можно найти на Hugging Face.
#RuModernBERT #AIVK
Please open Telegram to view this post
VIEW IN TELEGRAM
huggingface.co
deepvk/RuModernBERT-base · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
🔥17👍8❤6🎉2🆒1
AI VK Hub
В рекомендациях есть две точки зрения: 1. Бигтех: закинем в нейросеть пару петабайт данных, добавим побольше трансформерных блоков, тысячи видеокарт — и вот вам рексис нового поколения. Но вы не сможете это проверить, потому что только у нас столько данных.…
Please open Telegram to view this post
VIEW IN TELEGRAM
💅7🔥4
Media is too big
VIEW IN TELEGRAM
Делимся записью ридинг-группы от 24.07.2025, где Роман Логойда, ML-инженер AI VK, представил статью Why is Normalization Necessary for Linear Recommenders?
Если не успели подключиться к трансляции, самое время наверстать)
#ридинггруппа #aivk
Please open Telegram to view this post
VIEW IN TELEGRAM
❤11👍8🔥5👏4
Всем привет! Начинаем знакомить вас с командой AI VK. Сегодня на связи Дмитрий Погорелов, руководитель отдела бэкенда рекомендаций AI VK.
Как я попал в IT?
После школы я очень хотел заниматься математикой. Казалось, что математика — это ответ на все вопросы мироздания. Но чем глубже я в неё погружался, тем меньше она мне нравилась: всё чаще это было не про истину, а про какие-то прикладные вещи, которые не всегда можно нащупать.
В университете я начал работать над задачами алгебраической геометрии — нужно было эффективно запрограммировать проверку гипотез. Это стало для меня поворотным моментом: я по-новому посмотрел на программирование — как на настоящую инженерную работу, а не просто олимпиадное набрасывание кода. С тех пор я всерьез стал думать о карьере в разработке.
После универа я неудачно прошёл несколько собеседований в крупные IT-компании. Было не очень понятно, кого именно они там ищут. Зато я нашёл программу Java School от одного банка. Там, чтобы начать работать, нужно было просто уметь толково программировать. С этого и начался мой путь в IT.
Чем я занимаюсь сейчас?
Сейчас я руковожу командой, которая делает рекомендательную платформу VK. Мы создали много разных рекомендательных систем и сейчас объединяем их в одну — они должны работать как единое целое и выглядеть как один продукт.
Я периодически занимаюсь проектированием — и это приносит мне большое удовольствие. Иногда я сажусь за код, чтобы в контексте задачи зацепить какой-то момент, посмотреть, как бы я сам его решал — это помогает лучше понимать, что происходит внутри проекта. Такой способ исследовать и ландшафт, и своё собственное мышление.
Особенности руководства командой
Когда я стал руководителем, одной из сложностей было то, что в команде не было новичков — каждый был личностью со своим мнением, и нужно было договариваться. За последние годы стало больше именно командной работы. Появились зависимости, задачи усложнились, и над ними часто работают сразу несколько человек. Это немного похоже на мировую историю: если раньше всё решали личности вроде Цезаря или Наполеона, то теперь важнее стали команды.
Помню необычное ощущение, когда мы закончили крутой проект, в котором я вообще ни разу не посмотрел на код. Это был 2022 год. Для меня, как для руководителя,– важный шаг. Вообще не заглядывал в то, что написано, и всё равно всё получилось.
Как расти как лид?
Что делать, чтобы расти как лид? Общаться с другими людьми. Наша сфера кажется очень компьютерной, но на уровне лидов всё решает коммуникация. Это не про императивное раздавание задач, а про понимание — что от тебя ждут, кто за что отвечает и чего на самом деле хотят. Надо не забывать работать над собственной речью и помнить, что ты работаешь с людьми, а не с машинами.
Что я делаю за пределами работы, чтобы не забывать жить?
Однажды я прочитал статью: «Придумай, кто ты, кроме программиста». Так я попробовал побыть авиамоделистом. Когда начинаешь строить самолёты, то впервые сталкиваешься с ощущением, что ты и исполнитель, и заказчик своей работы. Хочется и кайфануть от процесса, и быстрее получить результат — приходится находить внутренний компромисс.
Ну а сейчас я стал дачником. Каждые выходные есть что поделать!
#aivk #команда
Как я попал в IT?
После школы я очень хотел заниматься математикой. Казалось, что математика — это ответ на все вопросы мироздания. Но чем глубже я в неё погружался, тем меньше она мне нравилась: всё чаще это было не про истину, а про какие-то прикладные вещи, которые не всегда можно нащупать.
В университете я начал работать над задачами алгебраической геометрии — нужно было эффективно запрограммировать проверку гипотез. Это стало для меня поворотным моментом: я по-новому посмотрел на программирование — как на настоящую инженерную работу, а не просто олимпиадное набрасывание кода. С тех пор я всерьез стал думать о карьере в разработке.
После универа я неудачно прошёл несколько собеседований в крупные IT-компании. Было не очень понятно, кого именно они там ищут. Зато я нашёл программу Java School от одного банка. Там, чтобы начать работать, нужно было просто уметь толково программировать. С этого и начался мой путь в IT.
Чем я занимаюсь сейчас?
Сейчас я руковожу командой, которая делает рекомендательную платформу VK. Мы создали много разных рекомендательных систем и сейчас объединяем их в одну — они должны работать как единое целое и выглядеть как один продукт.
Я периодически занимаюсь проектированием — и это приносит мне большое удовольствие. Иногда я сажусь за код, чтобы в контексте задачи зацепить какой-то момент, посмотреть, как бы я сам его решал — это помогает лучше понимать, что происходит внутри проекта. Такой способ исследовать и ландшафт, и своё собственное мышление.
Особенности руководства командой
Когда я стал руководителем, одной из сложностей было то, что в команде не было новичков — каждый был личностью со своим мнением, и нужно было договариваться. За последние годы стало больше именно командной работы. Появились зависимости, задачи усложнились, и над ними часто работают сразу несколько человек. Это немного похоже на мировую историю: если раньше всё решали личности вроде Цезаря или Наполеона, то теперь важнее стали команды.
Помню необычное ощущение, когда мы закончили крутой проект, в котором я вообще ни разу не посмотрел на код. Это был 2022 год. Для меня, как для руководителя,– важный шаг. Вообще не заглядывал в то, что написано, и всё равно всё получилось.
Как расти как лид?
Что делать, чтобы расти как лид? Общаться с другими людьми. Наша сфера кажется очень компьютерной, но на уровне лидов всё решает коммуникация. Это не про императивное раздавание задач, а про понимание — что от тебя ждут, кто за что отвечает и чего на самом деле хотят. Надо не забывать работать над собственной речью и помнить, что ты работаешь с людьми, а не с машинами.
Что я делаю за пределами работы, чтобы не забывать жить?
Однажды я прочитал статью: «Придумай, кто ты, кроме программиста». Так я попробовал побыть авиамоделистом. Когда начинаешь строить самолёты, то впервые сталкиваешься с ощущением, что ты и исполнитель, и заказчик своей работы. Хочется и кайфануть от процесса, и быстрее получить результат — приходится находить внутренний компромисс.
Ну а сейчас я стал дачником. Каждые выходные есть что поделать!
#aivk #команда
🔥22❤13👍5😎4👏2