Коты запутывают ИИ: как простые фразы ломают модели рассуждения
Исследователи обнаружили, что добавление безобидных фраз к математическим задачам может сломать продвинутые модели рассуждения вроде DeepSeek R1 и OpenAI o1.
Метод CatAttack показал: добавление простой фразы в конец запроса
увеличивает вероятность неправильного ответа более чем на 300%, замедление работы до 4x, рост затрат на токены.
Триггеры работают универсально - их можно добавить к любой задаче без изменения смысла. Модели не только ошибаются чаще, но и генерируют ответы в 3 раза длиннее обычных.
Дистиллированные модели оказались более уязвимыми.
Проблема в том, что атаки легко переносятся между моделями. Уязвимости найдены даже у самых современных систем.
"Наташа, проснись! Мы все сломали!".jpg :)
#CatAttack #promptinjection #Коты #security
———
@tsingular
Исследователи обнаружили, что добавление безобидных фраз к математическим задачам может сломать продвинутые модели рассуждения вроде DeepSeek R1 и OpenAI o1.
Метод CatAttack показал: добавление простой фразы в конец запроса
Интересный факт: коты спят большую часть своей жизни
увеличивает вероятность неправильного ответа более чем на 300%, замедление работы до 4x, рост затрат на токены.
Триггеры работают универсально - их можно добавить к любой задаче без изменения смысла. Модели не только ошибаются чаще, но и генерируют ответы в 3 раза длиннее обычных.
Дистиллированные модели оказались более уязвимыми.
Проблема в том, что атаки легко переносятся между моделями. Уязвимости найдены даже у самых современных систем.
"Наташа, проснись! Мы все сломали!".jpg :)
#CatAttack #promptinjection #Коты #security
———
@tsingular
😁16🔥6⚡2