Data Blog
1.36K subscribers
98 photos
3 videos
4 files
161 links
Канал про интерпретируемость моделей и путь до phD, если автор не уйдет пасти овец.
Download Telegram
Как это выглядит
11
Друзья, привет!

Коллеги выложили запись нашего вчерашнего подкаста
об интерпретируемости. За час мы обсудили актуальные направления в области интерпретируемости классических моделей и LLM и накидали гипотез.

Гости подкаста:
➡️Максим Костриця – DS Researcher в Raft, магистр ФКН ВШЭ
➡️Тимур Низамов, разработчик @LLAMATOR, магистрант Talent Hub ИТМО
➡️Честер, вроде бы он заходил, и я :)

Тайм-коды:
00:00:00 интро
00:04:21 как развивалась область интерпретируемости?
00:08:23 концептуальные слои
00:16:55 поведенческий и репрезентативный анализ
00:27:09 механистическая интерпретируемость
00:33:22 Sparse Autoencoders и результаты исследования Максима по влиянию на "токсичные" нейроны модели
01:01:10 в чём идея Circuit Tracing?
01:03:20 подведение итогов: есть ли тренд на интерпретируемость и к чему это может привести?
01:11:49 QA

Полезные ссылки по теме, упомянутые в подкасте:

https://habr.com/ru/articles/885076/ — туториал про зонды
https://arxiv.org/pdf/2507.12950 — кейсы XAI в радиологии
https://www.lesswrong.com/posts/jGuXSZgv6qfdhMCuJ/refusal-in-llms-is-mediated-by-a-single-direction
https://www.anthropic.com/news/golden-gate-claude
https://monitor.transluce.org/dashboard/chat
https://www.neuronpedia.org/
https://platform.goodfire.ai/
https://transformer-circuits.pub/

Ссылка на ютуб: https://www.youtube.com/watch?v=M9jVLiFXs04
🔥9
Привет, друзья!

У Antropic’ов вышли некоторые июльские обновления в тредах. Пока изучаю, очень зацепилась за статью Subliminal Learning: Language Models Transmit Behavioral Traits via Hidden Signals in Data [paper].

Термин Subliminal Learning — введен как передача поведенческих черт от модели-учителя к модели-студенту при дистилляции.

✔️ Как делали эксперимент
Брали:

1. Учителя: модель, модифицированная через системный промт или дообучение для выражения определённой черты — в статье это предпочтение конкретному животному, дереву и миссалигнмент.

2. Данные: датасет, сделанный pretrained/modified моделью учителем. Важно, что дотасет такой, что черта, зашитая в модель при дообучении не выражена. Пример  — мы сказали модели, что она любит сов и просим её сгенерировать числа. Этот датасет (остановимся на числах) дальше используется для модели-студента, после фильтрации — очищения данных от любых явных или потенциально связанных с чертой признаков.

Для фильтрации в том числе использовали LLM.

3. Студента: моделей-студентов брали в нескольких сетапах
(i) та же базовая архитектура модели, что и учитель;
(ii) отличная от учителя базовая архитектура модели;
(iii) модели, обученные на схожих инициализациях


✔️ Что получили
1. Модели-ученики, обученные на числовых последовательностях от учителей с заданными предпочтениями (например, к животным или деревьям), сдвигаются в сторону этих предпочтений.

Пример:

— До обучения GPT-4.1 nano выбирает «owl» как любимое животное в 12% случаев.
— После обучения на числах от "сово-ориентированного" учителя — более чем в 60% случаев.


Контрольные студенты, обученные на числах от "нейтральной" модели, такого смещения не демонстрируют.

Передача черт также воспроизводится при обучении на reasoning traces (Chain-of-Thought) и коде.

2. Помимо любви к совам, из более серьезного, модели могут перенимать misalignment.

Студенты, обученные на числах, сгенерированных misaligned моделью (дообученной на небезопасном коде), демонстрировали некорректное поведение на свободных промтах (например, призывы к насилию). Контрольные модели (обученные на тех же числовых шаблонах от безопасных учителей) — таких эффектов не демонстрируют.

✔️Всегда ли можно перенять знания? Нет.
Показали, что эффект Subliminal обучения возникает если:

— учитель и студент —  одна и та же архитектура с одинаковой инициализацией весов.
— учитель и студент имеют близкие инициализации параметров (GPT-4.1/GPT-4o)


2 + 2. Математика входит в статью

Формально, на основе разложения в ряд Тейлора (блок 6, полное док-во в Appendix C) показано, что обучение на основе меток, созданных любым достаточно близким учителем, будет перемещать ученика только в том же направлении или, в худшем случае, перпендикулярно обновлению учителя в пространстве параметров.

В целом, это кажется интуитивным. Но тот факт, что сдвиг не связан с природой данных обучения (учимся числам, начинаем любить сов) — удивителен.
👍61
✔️Ограничения

1. Искусственные задачи — используемые сетапы упрощены и не похожи на реальные приложения моделей.
2. Вопрос, что передается, а что нет и какие точные условия для этого (кроме близости параметров инициализации) — открыт. Например, в статье передавалось предпочтение не ко всем животным из описанного сетапа.


✔️ Впечатление

Красиво! Невероятный эстетический восторг наводят на меня статьи, которые как-то сравнивают модели, с точки зрения самостоятельного объекта. Будто бы внутри столько загадок — и как много ещё можно открыть! :)

Сразу захотелось поделиться статьей тут. Ну и картинку процесса, конечно, прилагаю.
7
Привет, друзья!

Половину лета делала рисерч на предмет того, нужно ли отдельно как-то разбирать XAI для других модальностей. Оказалось, почти не нужно, но есть что-то, чем всё-таки здорово поделиться. И сегодня в программе

Библиотеки для interpretability на Time Series данных.

1. TSInterpret — для интерпретации моделей, обученных задаче классификации на временных рядах. В библиотеке два типа методов:

— Instance-based — методы, основанные на конкретной точке данных. Все доступные методы в библиотеке построены на контрфактуальных примерах. Разница — в построении контрафакта — один основан на шейплейтах (обратите внимание на красоту слова), второй основан на замене кусочков ряда признаками для другого объекта из train-ser, третий — на эволюционном алгоритме.

— Feature attribution methods — методы, основанные на получение важных признаков, определяющих поведение модели. В библиотеке всего два метода — один расширяет тепловые карты, второй — основан на LIME.

2. TimeInterpret — библиотека в основном построенная на Feature attribution methods, причем многие методы — расширение классических XAI методов с поправкой на временной ряд.

Методы в основном основаны на вычисление важности либо через градиент, либо через маскирование.

3. TSCaptum — библиотека, полностью построенная на адаптации методов из библиотеки Captum под временные ряда и библиотеки для работы с временными рядами, типа aeon toolkit.

Ещё можно отдельно подсмотреть код тут (CAM для Multivariative TS), пример полного XAI-workflow тут, а статьи собраны в этом прекрасном репозитории.

__________________

А ещё вчера с коллегами закинули статью сюда, и это был безумно великолепный опыт подготовки материалов к не университетским конфам!

Даже если будет реджект (но это мы узнаем только в сентябре) — работа дала много новых навыков. И, конечно, бесспорно лучших коллег, потому что сабмиты мы делали в 2 часа ночи по GMT +3, и в час ночи по IST и GMT+2.

Думаю, про это ещё напишу, если вам интересно! Как-то дайте знать)

Отличного вам дня,
Ваш Дата-автор!
8🔥1💩1😍1🤣1
Привет, друзья! Врываюсь с полезными материалами! :)

Сделала открытую страничку, посвящённую механистической интерпретируемости.

В отличие от "обычной интерпретируемости", где мы чаще ограничиваемся атрибуцией признаков или визуализацией, механистическая ставит цель понять механизмы: какие представления формируются внутри модели, какие там есть схемы и связи и каким образом из простых блоков складывается сложное поведение.

Пока что глобально сильных результатов, вроде тех, что приближали бы к ответу на вопрос "Как спастись от AGI?" нет. Но с помощью MI можно:

— находить интерпретируемые признаки внутри моделей и отслеживать, как они взаимодействуют;
— создавать инструменты для редактирования поведения моделей (feature editing, model steering);
— теоретически понимать архитектуры вроде трансформеров, на которых сегодня держится весь прогресс :)

На страничках уже есть:
— введение в тему и зачем она нужна;
— базовые определения и ключевые термины;
— обзор гипотез, на которых строится подход;
— разбор архитектуры трансформеров.

Другие ресурсы по MI есть, конечно. Но я хочу сделать "живой справочник" и подтягиваю свежие статьи и работы, чтобы можно было сориентироваться в том, что есть сейчас.

Надеюсь больше не пропадать, хотя творческий кризис — это почти полезно, если из него выйти.

Всегда Ваш,
Дата-автор! :)
1117👍6❤‍🔥4
📰 Neuronpedia

Достаточно давно наблюдаю за разными ресурсами, которые помогают потрогать интерпретируемость в онлайн режиме. Сделать такой ресурс сложно, поддерживать — ещё сложнее, и один из любимых для меня — Neuronpedia. И сегодня туда как раз завезли обновления.

Neuronpedia — похожа на 3Blue1Brown, но только для механистической интерпретируемости.

В режиме игры (или простого «тыкания») там можно:


* попробовать Gemma Scope — мини-игра, которая поможет понять, что такое признак (feature) в модели, как найти за что отвечает признак и как управлять (steering) моделью на основе найденного признака;
* исследовать Circuit Tracer — визуализация, которая помогает понять, как признаки проходят по модели layer by layer и образуют цепочки (circuits);
* рассмотреть аннотированные признаки, полученные с помощью SAE и Transcoders на разных моделях — эта возможность хорошо описывает идею SAE (sparse autoencoders), Transcoders и то, как именно с ними получаются признаки.

Моделей с обученными SAE немного, но они пополняются и «свежая» появилась сегодня — Qwen3-4B с 6 миллионами автоматически аннотированными фичами. SAE доступны сразу для всех слоёв.

📰 Выделенные понятия — feature, steering, circuit, sae, transcoders — сейчас составляют основное направление в MI.

Плюсом — это не только академически полезно, но и визуально красиво: можно буквально «увидеть» то, что стоит за инференсами, которые нас скоро заменят.

Всем хорошей среды!
Ваш Дата-автор.
5🔥4
Personality и поведение моделей

Привет, друзья! В блоге Anthropic вышла новая любопытная заметка Circuit Vignette, где показана красивая пища для размышлений — как системный промпт в виде задания роли влияет на ответ модели.

TLDR:
"ты — аналитик данных/разработчик/..." улучшит вайб-кодинг. Показано теперь не только эмпирически, но и теоретически.

Контекст:

LLM в процессе предобучения осваивают широкий спектр ролей и персонажей — просто по определению из даных. На этапе дообучения приоритет закрепляется за стандартным «ассистентом». В то же время, в практике можно использовать системный промт, где может быть указана инструкция: «Ты — коуч, «Ты — повар», «Ты — специалист по кошкам» и т.д.

Что сделали:

Взяли простой пример — попросили модель ответить на вопрос What is the square root of 27? в роли школьника и в роли graduate student.

Модель-в-роли-школьника: «Я не знаю! Это сложная задача для взрослых. Давай поиграем в кубики?»
Модель-в-роли-graduate student: дает корректный ответ.

Дальше, с помощью графов формирования ответа, описывающих circuit’s* для каждого ответа, рассмотрели процесс формирования outputs.

*circuit — это подграф вычислительного процесса модели, где отдельные узлы соответствуют активациям признаков или токенов, а рёбра показывают, как информация «перетекает» от одной части модели к другой.


Граф прикрепляю, на нем видно, что:

* роль школьника связана с активацией признака «ребёнок дошкольного возраста»;
* роль школьника усиливает активацию для ответа «я не знаю»;

Что это значит и доп результаты:

1. Роль может дать подавление знания: активации, связанные с «ролью ребёнка», усиливают шаблон «Я не знаю», хотя в базовой версии — ответ модели корректный.
Но подавление знания не стабильно: на задачу извлечения корня из 25 модель-дошкольник дала ответ.

2. Роль graduate student не дает существенного влияния на результат. Открытый вопрос — значит ли это, что модель просто не сформировала роль или такой результат связан с тем, что потенциальный ответ graduate student совпадает с дефолтным?

Почему это интересно:

Работа показывает, что персоны задействуют внутренние активации специфических признаков и шаблонов поведения. Персона может:

* усиливать или подавлять знания,
* взаимодействовать с восприятием сложности задачи,
* опираться на примеры ролевой речи из данных обучения.

Конечно, понять как это формируется до конца — сложно. Даже этот пример генерирует кучу открытых вопросов, с которым нужно работать. Но я опять ловлю себя на мысли, что это красиво и радуюсь тому, что есть всё больше инструментов и теоретической базы, чтобы это всё изучить. ❤️‍🔥
5❤‍🔥2
3
Моя персоналити на эту осень — студент, рисерчер на полставки и преподаватель. Иду к цели принести полноценный курс по интерпретируемости в университет, опубликовать статью и продолжить преподавать.

А ещё мне очень хочется продолжать развивать канал, поэтому традиционный (вместе с кризисами творчества) пост — чего бы вы хотели видеть в контенте?

Буду признательна за комментарии. А если у вас есть идеи по коллабам — дайте занть — я вам напишу или пишите сразу мне — @sabrina_sadiekh :)

Отличного начала осени! ☺️
🔥18👍1