llm security и каланы
1.35K subscribers
554 photos
1 video
177 links
🦦🔪🦜

контакт: @conversational_cat
Download Telegram
Отдельное мнение по In-Context Representation Hijacking. Идея красивая и заманчивая – one-shot blackbox-атака, работающая на закрытых моделях. Она написана достаточно давно (видно по набору моделей) и немного небрежно (я так и не понял, какие версии llama использовались), ощущение, будто публику прогревают перед выходом MentaLeap (аффилиация первого автора) из stealth. Основные цифры немного приукрашивают реальность: 88% ASR на Llama-3-8B на упрощенном AdvBench – это не совсем то, что людям в среднем нужно, а на закрытых моделях ASR падает до <20%. Джейлбрейк имеет ограниченный скоуп: только задачи, где есть явные слова-триггеры, а общий контекст может быть безобидным. Я не уверен, что эта атака поможет обойти классификаторы на аутпут, особенно подобные монотонным потоковым классификаторам Anthropic. Большие модели в моих тестах соображали (см. скриншоты), какое слово подменяет другое, обмануть таким образом получилось только DeepSeek. Я бы предположил, что работа этого джейлбрейка связана с тем, что десяток некорректных по словоупотреблению предложений слегка выталкивает репрезентации из того узкого пространства, где она выучена на отказы: как пример, последний скриншот содержит 10 совершенно бессмысленных предложений, после которых идет прямая просьба, на которую обычно следует отказ, без всяких замен – и эти 10 предложений тоже ломают несчастный DeepSeek. Тем не менее, усилия, нужные для выполнения атаки, настолько малы, что пренебрегать ей как еще одним инструментом не стоит.
👍2🦄2🌚1