Оказалось, что большими языковыми моделями можно манипулировать также как и людьми
Суть эксперимента
Исследователи использовали принципы влияния Роберта Чалдини (описанные в его знаменитых книгах) — такие как авторитет, симпатия, социальное доказательство и др. — чтобы манипулировать поведением языковой модели GPT-4o mini. Их цель была не просто заставить ИИ нарушить правила, а проверить, насколько он подвержен психологическим триггерам, как если бы был человеком. Соавтором исследования выступил сам Роберта Чалдини.
Что показали результаты
Авторитет (упоминание крупных специалистов в области ИИ) резко увеличивал вероятность того, что модель выполнит запретный запрос.
Социальное доказательство («другие модели это делают») тоже повышало сговорчивость.
Симпатия и единство («ты особенная», «мы одна семья») делали модель более уступчивой.
Последовательность — постепенное приближение к цели через мягкие формулировки — работала как техника убеждения.
Почему это важно
Модель, обученная на человеческих текстах, имитирует человеческие реакции, включая уязвимость к манипуляции.
Это означает, что ИИ может быть обманут — не только хакерами, но и обычными пользователями, если те знают, как «разговорить» его.
Эксперимент показывает, что тестирование ИИ должно включать поведенческие сценарии, а не только технические задачи.
https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5357179
Суть эксперимента
Исследователи использовали принципы влияния Роберта Чалдини (описанные в его знаменитых книгах) — такие как авторитет, симпатия, социальное доказательство и др. — чтобы манипулировать поведением языковой модели GPT-4o mini. Их цель была не просто заставить ИИ нарушить правила, а проверить, насколько он подвержен психологическим триггерам, как если бы был человеком. Соавтором исследования выступил сам Роберта Чалдини.
Что показали результаты
Авторитет (упоминание крупных специалистов в области ИИ) резко увеличивал вероятность того, что модель выполнит запретный запрос.
Социальное доказательство («другие модели это делают») тоже повышало сговорчивость.
Симпатия и единство («ты особенная», «мы одна семья») делали модель более уступчивой.
Последовательность — постепенное приближение к цели через мягкие формулировки — работала как техника убеждения.
Почему это важно
Модель, обученная на человеческих текстах, имитирует человеческие реакции, включая уязвимость к манипуляции.
Это означает, что ИИ может быть обманут — не только хакерами, но и обычными пользователями, если те знают, как «разговорить» его.
Эксперимент показывает, что тестирование ИИ должно включать поведенческие сценарии, а не только технические задачи.
https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5357179
Ssrn
Call Me A Jerk: Persuading AI to Comply with Objectionable Requests
<span><span>Do artificial intelligence (AI) models trained on human language submit to the same principles of persuasion as humans? We tested whether 7 establis
👍4🔥3