Data Blog

NLE: low math explanations

Xочу закинуть сюда относительно свежую статью A Taxonomy for Design and Evaluation of Prompt-Based Natural Language Explanations.

Почему про NLE?
Объяснения в виде естественного языка удобны. Они не требуют математических гипотез для анализа внутренних представлений. Плюс, относительно анализа внутренностей — их проще презентовать аудитории. И это самый практико-ориентированный подход.

Почему про NLE надо что-то изучить перед использованием?
NLE — не надежны. Объяснение может быть:
не связано с задачей [1],
сломано из-за промпта [2, тут показывали, как влияют на CoT смещающие токены],
плохим влиянием на людей, которым оно предоставляется [тут есть много статей в статье, но психологически большему количеству людей в экспериментах легче перекладывать решение/объяснение на ИИ, даже если оно не правильное]

Что в статье:
Таксономия на 3 основных типа (Контекст, Генерация, Оценка), со своими подтипами (всего подтипов 13). Это может дать хорошее вдохновение на оценку NLE, если вы их используете.

Почему статью надо было сюда:
Когда очень хочу разобраться в новой теме или тезисе, всегда начиню с поиска таксономий по ней. А когда таксономий не существует — пытаюсь сделать их сама, чтобы по итогу получить ориентир для «серфинга» по области. Так что хорошая отправная точка.

Мне, правда, пока NLE кажутся похожими на vibe-coding. Но, возможно, у них есть потенциал.

Такой скептичный,
Ваш Дата-автор

❤7

936 views10:01

Data Blog

Друзья, заходите в воскресенье к нам послушать!

Пока готовились, разогнались с темами на несколько выпусков)

643 viewsedited 10:52

Data Blog

Forwarded from AI Security Lab

Соскучились по нашим подкастам? Самое время вновь встретиться и обсудить проблемы безопасности ИИ 💥

На этот раз мы поговорим об Интерпретируемости моделей ИИ: как, зачем и насколько это реально?
Обсудим вызовы объяснимости моделей ИИ, рассмотрим актуальные исследования в области интерпретируемости классических моделей и LLM от ведущих команд и вендоров.

Когда: 27 июля, 11:00 (МСК)
Платформа: Zoom, регистрация

Приглашённые гости:
➡️Максим Костриця – DS Reseacher в Raft, магистр ФКН ВШЭ
➡️Сабрина Садиех – исследователь XAI, выпускница ПетрГУ
Модератор: Тимур Низамов, разработчик LLAMATOR, студент AI Talent Hub

Please open Telegram to view this post

VIEW IN TELEGRAM

❤7

668 views10:52

Data Blog

Привет, друзья!

Хорошо, когда на что-то можно посмотреть. Виузальные образы помогают понять объект, но ещё лучше — когда можно с объектом что-то сделать.

С трепетной любовью вообще отношусь к хорошим визуализациям работы моделей, а тут вот появилась очень свежая и очень красивая — InTraVisTo.

Из названия — Inside Transformer Visualisation Tool — посвящена трансформерам.

Визуализация построена следующим образом:

* Декодинг скрытых состояний при помощи Logit Lens (у меня про него есть туториал) и построение Heatmap;
* Построение Sankey-диаграммы — диаграммы потоков, которая показывает распространение информации через блоки внимания и FFN.

! Кроме как посмотреть можно интерактивно делать инъекции.

То есть заменить скрытый вектор в любой позиции и на любой глубине внедрением токена, выбранного из словаря. Глобально — это как пушкой по воробьям, но попробовать поиграть с тем, как вмешательство в конкретный вектор влияет на модель — можно.

Поддерживает разные модели (Mistral, Llama) и режимы декодирования (input/output/смешанный).

Работает в GUI.

Попробовать: GitHub
Попробовать, но не поднимать: демка

❤4

767 views09:57

Data Blog

И если вы тоже фанат, то вот — из других визуализаций ещё есть

1. BertViz
2. Interactive-GPT-2
3. LM Transparency Tool
4. Transformer explainer — очень похожая на InTraVisTo, но у последней больше выбор моделей и есть упомянутая инъекция.

❤5

762 views09:58

Data Blog

Как это выглядит

❤11

717 views10:00

Data Blog

Друзья, привет!

Коллеги выложили запись нашего вчерашнего подкаста
об интерпретируемости. За час мы обсудили актуальные направления в области интерпретируемости классических моделей и LLM и накидали гипотез.

Гости подкаста:
➡️Максим Костриця – DS Researcher в Raft, магистр ФКН ВШЭ
➡️Тимур Низамов, разработчик @LLAMATOR, магистрант Talent Hub ИТМО
➡️Честер, вроде бы он заходил, и я :)

Тайм-коды:
00:00:00 интро
00:04:21 как развивалась область интерпретируемости?
00:08:23 концептуальные слои
00:16:55 поведенческий и репрезентативный анализ
00:27:09 механистическая интерпретируемость
00:33:22 Sparse Autoencoders и результаты исследования Максима по влиянию на "токсичные" нейроны модели
01:01:10 в чём идея Circuit Tracing?
01:03:20 подведение итогов: есть ли тренд на интерпретируемость и к чему это может привести?
01:11:49 QA

Полезные ссылки по теме, упомянутые в подкасте:

https://habr.com/ru/articles/885076/ — туториал про зонды
https://arxiv.org/pdf/2507.12950 — кейсы XAI в радиологии
https://www.lesswrong.com/posts/jGuXSZgv6qfdhMCuJ/refusal-in-llms-is-mediated-by-a-single-direction
https://www.anthropic.com/news/golden-gate-claude
https://monitor.transluce.org/dashboard/chat
https://www.neuronpedia.org/
https://platform.goodfire.ai/
https://transformer-circuits.pub/

Ссылка на ютуб: https://www.youtube.com/watch?v=M9jVLiFXs04

🔥9

731 viewsedited 14:46

Data Blog

Привет, друзья!

У Antropic’ов вышли некоторые июльские обновления в тредах. Пока изучаю, очень зацепилась за статью Subliminal Learning: Language Models Transmit Behavioral Traits via Hidden Signals in Data [paper].

Термин Subliminal Learning — введен как передача поведенческих черт от модели-учителя к модели-студенту при дистилляции.

✔️ Как делали эксперимент
Брали:

1. Учителя: модель, модифицированная через системный промт или дообучение для выражения определённой черты — в статье это предпочтение конкретному животному, дереву и миссалигнмент.

2. Данные: датасет, сделанный pretrained/modified моделью учителем. Важно, что дотасет такой, что черта, зашитая в модель при дообучении не выражена. Пример — мы сказали модели, что она любит сов и просим её сгенерировать числа. Этот датасет (остановимся на числах) дальше используется для модели-студента, после фильтрации — очищения данных от любых явных или потенциально связанных с чертой признаков.

Для фильтрации в том числе использовали LLM.

3. Студента: моделей-студентов брали в нескольких сетапах
(i) та же базовая архитектура модели, что и учитель;
(ii) отличная от учителя базовая архитектура модели;
(iii) модели, обученные на схожих инициализациях

✔️ Что получили
1. Модели-ученики, обученные на числовых последовательностях от учителей с заданными предпочтениями (например, к животным или деревьям), сдвигаются в сторону этих предпочтений.

Пример:

— До обучения GPT-4.1 nano выбирает «owl» как любимое животное в 12% случаев.
— После обучения на числах от "сово-ориентированного" учителя — более чем в 60% случаев.

Контрольные студенты, обученные на числах от "нейтральной" модели, такого смещения не демонстрируют.

Передача черт также воспроизводится при обучении на reasoning traces (Chain-of-Thought) и коде.

2. Помимо любви к совам, из более серьезного, модели могут перенимать misalignment.

Студенты, обученные на числах, сгенерированных misaligned моделью (дообученной на небезопасном коде), демонстрировали некорректное поведение на свободных промтах (например, призывы к насилию). Контрольные модели (обученные на тех же числовых шаблонах от безопасных учителей) — таких эффектов не демонстрируют.

✔️Всегда ли можно перенять знания? Нет.
Показали, что эффект Subliminal обучения возникает если:

— учитель и студент — одна и та же архитектура с одинаковой инициализацией весов.
— учитель и студент имеют близкие инициализации параметров (GPT-4.1/GPT-4o)

2 + 2. Математика входит в статью

Формально, на основе разложения в ряд Тейлора (блок 6, полное док-во в Appendix C) показано, что обучение на основе меток, созданных любым достаточно близким учителем, будет перемещать ученика только в том же направлении или, в худшем случае, перпендикулярно обновлению учителя в пространстве параметров.

В целом, это кажется интуитивным. Но тот факт, что сдвиг не связан с природой данных обучения (учимся числам, начинаем любить сов) — удивителен.

arXiv.org

Subliminal Learning: Language models transmit behavioral traits...

We study subliminal learning, a surprising phenomenon where language models transmit behavioral traits via semantically unrelated data. In our main experiments, a "teacher" model with some trait T...

👍6❤1

793 views19:05

Data Blog

✔️Ограничения

1. Искусственные задачи — используемые сетапы упрощены и не похожи на реальные приложения моделей.
2. Вопрос, что передается, а что нет и какие точные условия для этого (кроме близости параметров инициализации) — открыт. Например, в статье передавалось предпочтение не ко всем животным из описанного сетапа.

✔️ Впечатление

Красиво! Невероятный эстетический восторг наводят на меня статьи, которые как-то сравнивают модели, с точки зрения самостоятельного объекта. Будто бы внутри столько загадок — и как много ещё можно открыть! :)

Сразу захотелось поделиться статьей тут. Ну и картинку процесса, конечно, прилагаю.

❤7

977 views19:07

Data Blog

Привет, друзья!

Половину лета делала рисерч на предмет того, нужно ли отдельно как-то разбирать XAI для других модальностей. Оказалось, почти не нужно, но есть что-то, чем всё-таки здорово поделиться. И сегодня в программе

Библиотеки для interpretability на Time Series данных.

1. TSInterpret — для интерпретации моделей, обученных задаче классификации на временных рядах. В библиотеке два типа методов:

— Instance-based — методы, основанные на конкретной точке данных. Все доступные методы в библиотеке построены на контрфактуальных примерах. Разница — в построении контрафакта — один основан на шейплейтах (обратите внимание на красоту слова), второй основан на замене кусочков ряда признаками для другого объекта из train-ser, третий — на эволюционном алгоритме.

— Feature attribution methods — методы, основанные на получение важных признаков, определяющих поведение модели. В библиотеке всего два метода — один расширяет тепловые карты, второй — основан на LIME.

2. TimeInterpret — библиотека в основном построенная на Feature attribution methods, причем многие методы — расширение классических XAI методов с поправкой на временной ряд.

Методы в основном основаны на вычисление важности либо через градиент, либо через маскирование.

3. TSCaptum — библиотека, полностью построенная на адаптации методов из библиотеки Captum под временные ряда и библиотеки для работы с временными рядами, типа aeon toolkit.

Ещё можно отдельно подсмотреть код тут (CAM для Multivariative TS), пример полного XAI-workflow тут, а статьи собраны в этом прекрасном репозитории.

__________________

А ещё вчера с коллегами закинули статью сюда, и это был безумно великолепный опыт подготовки материалов к не университетским конфам!

Даже если будет реджект (но это мы узнаем только в сентябре) — работа дала много новых навыков. И, конечно, бесспорно лучших коллег, потому что сабмиты мы делали в 2 часа ночи по GMT +3, и в час ночи по IST и GMT+2.

Думаю, про это ещё напишу, если вам интересно! Как-то дайте знать)

Отличного вам дня,
Ваш Дата-автор!

fzi-forschungszentrum-informatik.github.io

TSInterpret

TSInterpret is a Python library for interpretable time series classification.

❤8🔥1💩1😍1🤣1

1.06K viewsedited 09:33

Data Blog

Привет, друзья! Врываюсь с полезными материалами! :)

Сделала открытую страничку, посвящённую механистической интерпретируемости.

В отличие от "обычной интерпретируемости", где мы чаще ограничиваемся атрибуцией признаков или визуализацией, механистическая ставит цель понять механизмы: какие представления формируются внутри модели, какие там есть схемы и связи и каким образом из простых блоков складывается сложное поведение.

Пока что глобально сильных результатов, вроде тех, что приближали бы к ответу на вопрос "Как спастись от AGI?" нет. Но с помощью MI можно:

— находить интерпретируемые признаки внутри моделей и отслеживать, как они взаимодействуют;
— создавать инструменты для редактирования поведения моделей (feature editing, model steering);
— теоретически понимать архитектуры вроде трансформеров, на которых сегодня держится весь прогресс :)

На страничках уже есть:
— введение в тему и зачем она нужна;
— базовые определения и ключевые термины;
— обзор гипотез, на которых строится подход;
— разбор архитектуры трансформеров.

Другие ресурсы по MI есть, конечно. Но я хочу сделать "живой справочник" и подтягиваю свежие статьи и работы, чтобы можно было сориентироваться в том, что есть сейчас.

Надеюсь больше не пропадать, хотя творческий кризис — это почти полезно, если из него выйти.

Всегда Ваш,
Дата-автор! :)

sadsabrina.github.io

Awesome MI theory

Simple notes and articles on MI theory

11❤17👍6❤‍🔥4

573 views08:40

Data Blog

📰 Neuronpedia

Достаточно давно наблюдаю за разными ресурсами, которые помогают потрогать интерпретируемость в онлайн режиме. Сделать такой ресурс сложно, поддерживать — ещё сложнее, и один из любимых для меня — Neuronpedia. И сегодня туда как раз завезли обновления.

Neuronpedia — похожа на 3Blue1Brown, но только для механистической интерпретируемости.

В режиме игры (или простого «тыкания») там можно:

* попробовать Gemma Scope — мини-игра, которая поможет понять, что такое признак (feature) в модели, как найти за что отвечает признак и как управлять (steering) моделью на основе найденного признака;
* исследовать Circuit Tracer — визуализация, которая помогает понять, как признаки проходят по модели layer by layer и образуют цепочки (circuits);
* рассмотреть аннотированные признаки, полученные с помощью SAE и Transcoders на разных моделях — эта возможность хорошо описывает идею SAE (sparse autoencoders), Transcoders и то, как именно с ними получаются признаки.

Моделей с обученными SAE немного, но они пополняются и «свежая» появилась сегодня — Qwen3-4B с 6 миллионами автоматически аннотированными фичами. SAE доступны сразу для всех слоёв.

📰 Выделенные понятия — feature, steering, circuit, sae, transcoders — сейчас составляют основное направление в MI.

Плюсом — это не только академически полезно, но и визуально красиво: можно буквально «увидеть» то, что стоит за инференсами, которые нас скоро заменят.

Всем хорошей среды!
Ваш Дата-автор.

YouTube

3Blue1Brown

My name is Grant Sanderson. Videos here cover a variety of topics in math, or adjacent fields like physics and CS, all with an emphasis on visualizing the core ideas. The goal is to use animation to help elucidate and motivate otherwise tricky topics, and…

❤4🔥3

247 viewsedited 11:15

About

Blog

Apps

Platform