Data Blog
1.36K subscribers
98 photos
3 videos
4 files
162 links
Канал про интерпретируемость моделей и путь до phD, если автор не уйдет пасти овец.
Download Telegram
Personality и поведение моделей

Привет, друзья! В блоге Anthropic вышла новая любопытная заметка Circuit Vignette, где показана красивая пища для размышлений — как системный промпт в виде задания роли влияет на ответ модели.

TLDR:
"ты — аналитик данных/разработчик/..." улучшит вайб-кодинг. Показано теперь не только эмпирически, но и теоретически.

Контекст:

LLM в процессе предобучения осваивают широкий спектр ролей и персонажей — просто по определению из даных. На этапе дообучения приоритет закрепляется за стандартным «ассистентом». В то же время, в практике можно использовать системный промт, где может быть указана инструкция: «Ты — коуч, «Ты — повар», «Ты — специалист по кошкам» и т.д.

Что сделали:

Взяли простой пример — попросили модель ответить на вопрос What is the square root of 27? в роли школьника и в роли graduate student.

Модель-в-роли-школьника: «Я не знаю! Это сложная задача для взрослых. Давай поиграем в кубики?»
Модель-в-роли-graduate student: дает корректный ответ.

Дальше, с помощью графов формирования ответа, описывающих circuit’s* для каждого ответа, рассмотрели процесс формирования outputs.

*circuit — это подграф вычислительного процесса модели, где отдельные узлы соответствуют активациям признаков или токенов, а рёбра показывают, как информация «перетекает» от одной части модели к другой.


Граф прикрепляю, на нем видно, что:

* роль школьника связана с активацией признака «ребёнок дошкольного возраста»;
* роль школьника усиливает активацию для ответа «я не знаю»;

Что это значит и доп результаты:

1. Роль может дать подавление знания: активации, связанные с «ролью ребёнка», усиливают шаблон «Я не знаю», хотя в базовой версии — ответ модели корректный.
Но подавление знания не стабильно: на задачу извлечения корня из 25 модель-дошкольник дала ответ.

2. Роль graduate student не дает существенного влияния на результат. Открытый вопрос — значит ли это, что модель просто не сформировала роль или такой результат связан с тем, что потенциальный ответ graduate student совпадает с дефолтным?

Почему это интересно:

Работа показывает, что персоны задействуют внутренние активации специфических признаков и шаблонов поведения. Персона может:

* усиливать или подавлять знания,
* взаимодействовать с восприятием сложности задачи,
* опираться на примеры ролевой речи из данных обучения.

Конечно, понять как это формируется до конца — сложно. Даже этот пример генерирует кучу открытых вопросов, с которым нужно работать. Но я опять ловлю себя на мысли, что это красиво и радуюсь тому, что есть всё больше инструментов и теоретической базы, чтобы это всё изучить. ❤️‍🔥
5❤‍🔥2
3
Моя персоналити на эту осень — студент, рисерчер на полставки и преподаватель. Иду к цели принести полноценный курс по интерпретируемости в университет, опубликовать статью и продолжить преподавать.

А ещё мне очень хочется продолжать развивать канал, поэтому традиционный (вместе с кризисами творчества) пост — чего бы вы хотели видеть в контенте?

Буду признательна за комментарии. А если у вас есть идеи по коллабам — дайте занть — я вам напишу или пишите сразу мне — @sabrina_sadiekh :)

Отличного начала осени! ☺️
🔥19👍1
🌙 Привет, друзья!

Пока сильно не завалило делами, села расширять курс и одним из пунктов плана у меня были методы на основе вмешательства.

Методы интерпретации на основе вмешательства основаны на идее ответа на вопрос:
«Что произойдет с предсказанием модели если изменить или исключить отдельный признак?»


Cуть всех таких методов состоит в том, что мы изменяем входные данные x по заранее определённому правилу, пропускаем измененное изображение x' через модель и фиксируем разность D = f(x) - f(x') выхода модели. Отсюда, важность признака определяется через чувствительность модели к его изменениям.

Среди стандартных методов — Occlusion, Ablataion и Pertubation (Permutation). А вот не совсем стандартный, но всё ещё часто встречающийся метод — RISE (Randomized Input Sampling for Explanation of Black-box Models). И такие в RISE красивые были переходы, что я решила включить его в курс и сделать по нему туториал.

Туториал снова на котиках, включает в себя практический ноутбук с кодом и статью на Хабр. Там и математика, и картинки — в общем, всё для отличного вечера.

Залетайте читать, и прекрасной пятницы! ☺️
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥83👍3