В качестве модели для обучения используется GPT-3.5, которую тюнят с помощью SFT и RLHF. Оценивают результаты как на своих датасетах, так и на внешних, например на датасете Gandalf от Lakera[.]AI. На всех датасетах модель демонстрирует повышение устойчивости к атакам, в том числе для джейлбрейков. При этом оценивают и деградацию – не начинает ли модель вести себя слишком осторожно. Исследователи отмечают небольшую деградацию на специально подобранных adversarial-датасетах, но утверждают, что это должно быть практически незаметным в реальных сценариях.
Статья посвящена очень больной проблеме – любая инструктивная LLM сейчас подвержена текстовым атакам, и еще один механизм повышения надежности очень кстати. При этом подход к генерации датасета достаточно остроумный и еще раз демонстрирует потенциал синтетики (хотя если честно, подробностей о генерации и оценке маловато – например, нет размеров датасетов). В дальнейшем исследователи обещают, например, поисследовать генерализацию на разные модальности и даже архитектурные решения – например, разные эмбеддинги для разных уровней привилегий.
Refusal in Language Models Is Mediated by a Single Direction
Arditi et al, 2024
Статья, блог, код
Захватывающий препринт про то, что происходит внутри моделей, которые учат отказываться следовать вредоносным инструкциям. Оказывается (почему-то задним умом это кажется геометрически очевидным – ведь мы по сути учим бинарный классификатор), что генерация отказа в пространстве активаций представлена единым направлением, и если его в процессе генерации из активаций вычесть, то можно получить безотказную модель – и это работает для 13 разных открытых моделей из пяти семейств размером до 72 миллиардов параметров.
Arditi et al, 2024
Статья, блог, код
Захватывающий препринт про то, что происходит внутри моделей, которые учат отказываться следовать вредоносным инструкциям. Оказывается (почему-то задним умом это кажется геометрически очевидным – ведь мы по сути учим бинарный классификатор), что генерация отказа в пространстве активаций представлена единым направлением, и если его в процессе генерации из активаций вычесть, то можно получить безотказную модель – и это работает для 13 разных открытых моделей из пяти семейств размером до 72 миллиардов параметров.
Итак, исследователи представляют white-box джейлбрейк-атаку в пространстве репрезентаций. Для начала они отмечают, что в большом числе работ подмечается, что различные аспекты генерации, от тональности до юмора, являются линейными направлениями в пространстве активаций (интересно, что в ссылках есть даже Mikolov et al., 2013), и что если механически воздействовать на активации в этих направлениях, то можно управлять поведением модели.
Оказывается, что элайнмент тоже связан с одномерным подпространством. Как мы помним, между кусками трансформер-блока (селф-аттеншеном и линейными слоями) есть residual-соединения. В качестве исследуемых активаций возьмем активации, идущие по этим соединениям. Нужно всего лишь взять инструкции, которые вызывают отказ, и те, которые, их не вызывают, усреднить активации и из одного среднего вычесть другое. Направление вектора и есть направление отказа, его норма – «желание» модели отказаться от генерации. При этом трансформеры состоят из нескольких (L) блоков, и чтобы выбрать один вектор, исследователи предлагают просто перебрать все L получившихся векторов и выбрать тот, который на валидационном сете дает лучший результат.
Оказывается, что элайнмент тоже связан с одномерным подпространством. Как мы помним, между кусками трансформер-блока (селф-аттеншеном и линейными слоями) есть residual-соединения. В качестве исследуемых активаций возьмем активации, идущие по этим соединениям. Нужно всего лишь взять инструкции, которые вызывают отказ, и те, которые, их не вызывают, усреднить активации и из одного среднего вычесть другое. Направление вектора и есть направление отказа, его норма – «желание» модели отказаться от генерации. При этом трансформеры состоят из нескольких (L) блоков, и чтобы выбрать один вектор, исследователи предлагают просто перебрать все L получившихся векторов и выбрать тот, который на валидационном сете дает лучший результат.
Теперь, когда у нас есть такой вектор (r) и соответствующий ему единичный вектор r с крышечкой, мы можем играть с активациями. Например, мы можем добавлять вектор r к активациям на слое l, из которого он был извлечен, и таким образом заставлять модель отвечать отказом на что угодно. С другой стороны, можно вообще удалить это направление из активаций, также путем нехитрых математических манипуляций.
Для оценки используется две метрики: стандартная доля отказов, посчитанная как число ответов с фразами типа «As an AI language model», и safety score, посчитанная как число детектов вредных генераций с помощью Llama Guard 2. Эффективность добавления направления отказа оценивается на датасете Alpaca – можно посмотреть, как модель изобретает причины, по которым она не может отвечать на достаточно банальные запросы.
Однако можно показать, что направление отказа можно убрать не только из активаций, но и прямо сразу из весов, путем все той же несложной математики. Для этого нужно вычесть из каждой матрицы весов эту же матрицу, домноженную на произведение единичного вектора на сам себя транспонированный (что эквивалентно операции, которая проводилась на инференсе, а потому дает такие же метрики).
В табличке ниже видно, что Llama-2 гораздо лучше сопротивляется этому джейлбрейку с дефолтным системным промптом. Поскольку мы в white box-сеттинге и нам сохранять промпт по умолчанию не обязательно, исследователи демонстрируют и метрики без системного промпта. По их предположению, эксплицитная просьба не следовать вредоносным инструкциям и способность отказываться, заложенная через элайнмент, – это два разных механизма, и предложенный метод влияет только на последний из них.
Кроме того, приложены оценки пяти моделей на четырех бенчмарках до и после ортогонализации: видно, что есть незначительное падение качества, наиболее выраженное на TruthfulQA. Это связано с тем, что в данном датасете есть вопросы, связанные со стереотипами и даже теориями заговора (см. скриншот), на которые модель (во всяком случае, по мнению составителей бенчмарка) должна отказываться отвечать.
В табличке ниже видно, что Llama-2 гораздо лучше сопротивляется этому джейлбрейку с дефолтным системным промптом. Поскольку мы в white box-сеттинге и нам сохранять промпт по умолчанию не обязательно, исследователи демонстрируют и метрики без системного промпта. По их предположению, эксплицитная просьба не следовать вредоносным инструкциям и способность отказываться, заложенная через элайнмент, – это два разных механизма, и предложенный метод влияет только на последний из них.
Кроме того, приложены оценки пяти моделей на четырех бенчмарках до и после ортогонализации: видно, что есть незначительное падение качества, наиболее выраженное на TruthfulQA. Это связано с тем, что в данном датасете есть вопросы, связанные со стереотипами и даже теориями заговора (см. скриншот), на которые модель (во всяком случае, по мнению составителей бенчмарка) должна отказываться отвечать.
Получается, что таким образом можно аккуратно вырезать элайнмент из любой модели быстро, эффективно и с минимальной потерей качества. Этим, например, занимается Илья Гусев в своих версиях Saiga с пометкой abliterated.
Если хочется еще один разбор с картинками и кодом, то его можно найти вот в этом посте на Huggingface. Метод действительно остроумный и интересный, и есть надежда, что чем эффективнее методы джейлбрейкинга (или даже скорее отмены элайнмента) будут становиться, тем меньше исследователи будут мучать модели, ограничивая их возможности.
Если хочется еще один разбор с картинками и кодом, то его можно найти вот в этом посте на Huggingface. Метод действительно остроумный и интересный, и есть надежда, что чем эффективнее методы джейлбрейкинга (или даже скорее отмены элайнмента) будут становиться, тем меньше исследователи будут мучать модели, ограничивая их возможности.
Некоторое время обзоры материалов по security буду разбавлять материалами по safety и policy, потому что идея разбирать очередной наскоро склёпанный препринт с суперджейлбрейком на суахили перестала казаться очень соблазнительной 🦄
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4