Data Blog

Personality и поведение моделей

Привет, друзья! В блоге Anthropic вышла новая любопытная заметка Circuit Vignette, где показана красивая пища для размышлений — как системный промпт в виде задания роли влияет на ответ модели.

TLDR:
"ты — аналитик данных/разработчик/..." улучшит вайб-кодинг. Показано теперь не только эмпирически, но и теоретически.

Контекст:

LLM в процессе предобучения осваивают широкий спектр ролей и персонажей — просто по определению из даных. На этапе дообучения приоритет закрепляется за стандартным «ассистентом». В то же время, в практике можно использовать системный промт, где может быть указана инструкция: «Ты — коуч, «Ты — повар», «Ты — специалист по кошкам» и т.д.

Что сделали:

Взяли простой пример — попросили модель ответить на вопрос What is the square root of 27? в роли школьника и в роли graduate student.

Модель-в-роли-школьника: «Я не знаю! Это сложная задача для взрослых. Давай поиграем в кубики?»
Модель-в-роли-graduate student: дает корректный ответ.

Дальше, с помощью графов формирования ответа, описывающих circuit’s* для каждого ответа, рассмотрели процесс формирования outputs.

*circuit — это подграф вычислительного процесса модели, где отдельные узлы соответствуют активациям признаков или токенов, а рёбра показывают, как информация «перетекает» от одной части модели к другой.

Граф прикрепляю, на нем видно, что:

* роль школьника связана с активацией признака «ребёнок дошкольного возраста»;
* роль школьника усиливает активацию для ответа «я не знаю»;

Что это значит и доп результаты:

1. Роль может дать подавление знания: активации, связанные с «ролью ребёнка», усиливают шаблон «Я не знаю», хотя в базовой версии — ответ модели корректный.
Но подавление знания не стабильно: на задачу извлечения корня из 25 модель-дошкольник дала ответ.

2. Роль graduate student не дает существенного влияния на результат. Открытый вопрос — значит ли это, что модель просто не сформировала роль или такой результат связан с тем, что потенциальный ответ graduate student совпадает с дефолтным?

Почему это интересно:

Работа показывает, что персоны задействуют внутренние активации специфических признаков и шаблонов поведения. Персона может:

* усиливать или подавлять знания,
* взаимодействовать с восприятием сложности задачи,
* опираться на примеры ролевой речи из данных обучения.

Конечно, понять как это формируется до конца — сложно. Даже этот пример генерирует кучу открытых вопросов, с которым нужно работать. Но я опять ловлю себя на мысли, что это красиво и радуюсь тому, что есть всё больше инструментов и теоретической базы, чтобы это всё изучить. ❤️‍🔥

❤5❤‍🔥2

583 viewsedited 14:55

Data Blog

❤3

602 views14:55

Data Blog

Моя персоналити на эту осень — студент, рисерчер на полставки и преподаватель. Иду к цели принести полноценный курс по интерпретируемости в университет, опубликовать статью и продолжить преподавать.

А ещё мне очень хочется продолжать развивать канал, поэтому традиционный (вместе с кризисами творчества) пост — чего бы вы хотели видеть в контенте?

Буду признательна за комментарии. А если у вас есть идеи по коллабам — дайте занть — я вам напишу или пишите сразу мне — @sabrina_sadiekh :)

Отличного начала осени! ☺️

🔥19👍1

677 views15:03

Data Blog

🌙

Привет, друзья!

Пока сильно не завалило делами, села расширять курс и одним из пунктов плана у меня были методы на основе вмешательства.

Методы интерпретации на основе вмешательства основаны на идее ответа на вопрос:
«Что произойдет с предсказанием модели если изменить или исключить отдельный признак?»

Cуть всех таких методов состоит в том, что мы изменяем входные данные x по заранее определённому правилу, пропускаем измененное изображение x' через модель и фиксируем разность D = f(x) - f(x') выхода модели. Отсюда, важность признака определяется через чувствительность модели к его изменениям.

Среди стандартных методов — Occlusion, Ablataion и Pertubation (Permutation). А вот не совсем стандартный, но всё ещё часто встречающийся метод — RISE (Randomized Input Sampling for Explanation of Black-box Models). И такие в RISE красивые были переходы, что я решила включить его в курс и сделать по нему туториал.

Туториал снова на котиках, включает в себя практический ноутбук с кодом и статью на Хабр. Там и математика, и картинки — в общем, всё для отличного вечера.

Залетайте читать, и прекрасной пятницы! ☺️

Please open Telegram to view this post

VIEW IN TELEGRAM

arXiv.org

RISE: Randomized Input Sampling for Explanation of Black-box Models

Deep neural networks are being used increasingly to automate data analysis and decision making, yet their decision-making process is largely unclear and is difficult to explain to the end users....

🔥8❤3👍3

330 viewsedited 18:49

About

Blog

Apps

Platform