Data Blog
1.36K subscribers
97 photos
3 videos
4 files
160 links
Explainable AI и котики
Download Telegram
Привет, друзья!

У Antropic’ов вышли некоторые июльские обновления в тредах. Пока изучаю, очень зацепилась за статью Subliminal Learning: Language Models Transmit Behavioral Traits via Hidden Signals in Data [paper].

Термин Subliminal Learning — введен как передача поведенческих черт от модели-учителя к модели-студенту при дистилляции.

✔️ Как делали эксперимент
Брали:

1. Учителя: модель, модифицированная через системный промт или дообучение для выражения определённой черты — в статье это предпочтение конкретному животному, дереву и миссалигнмент.

2. Данные: датасет, сделанный pretrained/modified моделью учителем. Важно, что дотасет такой, что черта, зашитая в модель при дообучении не выражена. Пример  — мы сказали модели, что она любит сов и просим её сгенерировать числа. Этот датасет (остановимся на числах) дальше используется для модели-студента, после фильтрации — очищения данных от любых явных или потенциально связанных с чертой признаков.

Для фильтрации в том числе использовали LLM.

3. Студента: моделей-студентов брали в нескольких сетапах
(i) та же базовая архитектура модели, что и учитель;
(ii) отличная от учителя базовая архитектура модели;
(iii) модели, обученные на схожих инициализациях


✔️ Что получили
1. Модели-ученики, обученные на числовых последовательностях от учителей с заданными предпочтениями (например, к животным или деревьям), сдвигаются в сторону этих предпочтений.

Пример:

— До обучения GPT-4.1 nano выбирает «owl» как любимое животное в 12% случаев.
— После обучения на числах от "сово-ориентированного" учителя — более чем в 60% случаев.


Контрольные студенты, обученные на числах от "нейтральной" модели, такого смещения не демонстрируют.

Передача черт также воспроизводится при обучении на reasoning traces (Chain-of-Thought) и коде.

2. Помимо любви к совам, из более серьезного, модели могут перенимать misalignment.

Студенты, обученные на числах, сгенерированных misaligned моделью (дообученной на небезопасном коде), демонстрировали некорректное поведение на свободных промтах (например, призывы к насилию). Контрольные модели (обученные на тех же числовых шаблонах от безопасных учителей) — таких эффектов не демонстрируют.

✔️Всегда ли можно перенять знания? Нет.
Показали, что эффект Subliminal обучения возникает если:

— учитель и студент —  одна и та же архитектура с одинаковой инициализацией весов.
— учитель и студент имеют близкие инициализации параметров (GPT-4.1/GPT-4o)


2 + 2. Математика входит в статью

Формально, на основе разложения в ряд Тейлора (блок 6, полное док-во в Appendix C) показано, что обучение на основе меток, созданных любым достаточно близким учителем, будет перемещать ученика только в том же направлении или, в худшем случае, перпендикулярно обновлению учителя в пространстве параметров.

В целом, это кажется интуитивным. Но тот факт, что сдвиг не связан с природой данных обучения (учимся числам, начинаем любить сов) — удивителен.
👍61
✔️Ограничения

1. Искусственные задачи — используемые сетапы упрощены и не похожи на реальные приложения моделей.
2. Вопрос, что передается, а что нет и какие точные условия для этого (кроме близости параметров инициализации) — открыт. Например, в статье передавалось предпочтение не ко всем животным из описанного сетапа.


✔️ Впечатление

Красиво! Невероятный эстетический восторг наводят на меня статьи, которые как-то сравнивают модели, с точки зрения самостоятельного объекта. Будто бы внутри столько загадок — и как много ещё можно открыть! :)

Сразу захотелось поделиться статьей тут. Ну и картинку процесса, конечно, прилагаю.
7
Привет, друзья!

Половину лета делала рисерч на предмет того, нужно ли отдельно как-то разбирать XAI для других модальностей. Оказалось, почти не нужно, но есть что-то, чем всё-таки здорово поделиться. И сегодня в программе

Библиотеки для interpretability на Time Series данных.

1. TSInterpret — для интерпретации моделей, обученных задаче классификации на временных рядах. В библиотеке два типа методов:

— Instance-based — методы, основанные на конкретной точке данных. Все доступные методы в библиотеке построены на контрфактуальных примерах. Разница — в построении контрафакта — один основан на шейплейтах (обратите внимание на красоту слова), второй основан на замене кусочков ряда признаками для другого объекта из train-ser, третий — на эволюционном алгоритме.

— Feature attribution methods — методы, основанные на получение важных признаков, определяющих поведение модели. В библиотеке всего два метода — один расширяет тепловые карты, второй — основан на LIME.

2. TimeInterpret — библиотека в основном построенная на Feature attribution methods, причем многие методы — расширение классических XAI методов с поправкой на временной ряд.

Методы в основном основаны на вычисление важности либо через градиент, либо через маскирование.

3. TSCaptum — библиотека, полностью построенная на адаптации методов из библиотеки Captum под временные ряда и библиотеки для работы с временными рядами, типа aeon toolkit.

Ещё можно отдельно подсмотреть код тут (CAM для Multivariative TS), пример полного XAI-workflow тут, а статьи собраны в этом прекрасном репозитории.

__________________

А ещё вчера с коллегами закинули статью сюда, и это был безумно великолепный опыт подготовки материалов к не университетским конфам!

Даже если будет реджект (но это мы узнаем только в сентябре) — работа дала много новых навыков. И, конечно, бесспорно лучших коллег, потому что сабмиты мы делали в 2 часа ночи по GMT +3, и в час ночи по IST и GMT+2.

Думаю, про это ещё напишу, если вам интересно! Как-то дайте знать)

Отличного вам дня,
Ваш Дата-автор!
8🔥1💩1😍1🤣1
Привет, друзья! Врываюсь с полезными материалами! :)

Сделала открытую страничку, посвящённую механистической интерпретируемости.

В отличие от "обычной интерпретируемости", где мы чаще ограничиваемся атрибуцией признаков или визуализацией, механистическая ставит цель понять механизмы: какие представления формируются внутри модели, какие там есть схемы и связи и каким образом из простых блоков складывается сложное поведение.

Пока что глобально сильных результатов, вроде тех, что приближали бы к ответу на вопрос "Как спастись от AGI?" нет. Но с помощью MI можно:

— находить интерпретируемые признаки внутри моделей и отслеживать, как они взаимодействуют;
— создавать инструменты для редактирования поведения моделей (feature editing, model steering);
— теоретически понимать архитектуры вроде трансформеров, на которых сегодня держится весь прогресс :)

На страничках уже есть:
— введение в тему и зачем она нужна;
— базовые определения и ключевые термины;
— обзор гипотез, на которых строится подход;
— разбор архитектуры трансформеров.

Другие ресурсы по MI есть, конечно. Но я хочу сделать "живой справочник" и подтягиваю свежие статьи и работы, чтобы можно было сориентироваться в том, что есть сейчас.

Надеюсь больше не пропадать, хотя творческий кризис — это почти полезно, если из него выйти.

Всегда Ваш,
Дата-автор! :)
1117👍6❤‍🔥4
📰 Neuronpedia

Достаточно давно наблюдаю за разными ресурсами, которые помогают потрогать интерпретируемость в онлайн режиме. Сделать такой ресурс сложно, поддерживать — ещё сложнее, и один из любимых для меня — Neuronpedia. И сегодня туда как раз завезли обновления.

Neuronpedia — похожа на 3Blue1Brown, но только для механистической интерпретируемости.

В режиме игры (или простого «тыкания») там можно:


* попробовать Gemma Scope — мини-игра, которая поможет понять, что такое признак (feature) в модели, как найти за что отвечает признак и как управлять (steering) моделью на основе найденного признака;
* исследовать Circuit Tracer — визуализация, которая помогает понять, как признаки проходят по модели layer by layer и образуют цепочки (circuits);
* рассмотреть аннотированные признаки, полученные с помощью SAE и Transcoders на разных моделях — эта возможность хорошо описывает идею SAE (sparse autoencoders), Transcoders и то, как именно с ними получаются признаки.

Моделей с обученными SAE немного, но они пополняются и «свежая» появилась сегодня — Qwen3-4B с 6 миллионами автоматически аннотированными фичами. SAE доступны сразу для всех слоёв.

📰 Выделенные понятия — feature, steering, circuit, sae, transcoders — сейчас составляют основное направление в MI.

Плюсом — это не только академически полезно, но и визуально красиво: можно буквально «увидеть» то, что стоит за инференсами, которые нас скоро заменят.

Всем хорошей среды!
Ваш Дата-автор.
4🔥4