Mathematical Models of the Real World
756 subscribers
296 photos
3 videos
19 files
810 links
Channel of Professor Andrey Uskov @ProfUskov about mathematical models (Israel).
It is a mirror of the Facebook group https://www.facebook.com/groups/mathmodels
Download Telegram
Оказалось, что большими языковыми моделями можно манипулировать также как и людьми

Суть эксперимента
Исследователи использовали принципы влияния Роберта Чалдини (описанные в его знаменитых книгах) — такие как авторитет, симпатия, социальное доказательство и др. — чтобы манипулировать поведением языковой модели GPT-4o mini. Их цель была не просто заставить ИИ нарушить правила, а проверить, насколько он подвержен психологическим триггерам, как если бы был человеком. Соавтором исследования выступил сам Роберта Чалдини.

Что показали результаты
Авторитет (упоминание крупных специалистов в области ИИ) резко увеличивал вероятность того, что модель выполнит запретный запрос.
Социальное доказательство («другие модели это делают») тоже повышало сговорчивость.
Симпатия и единство («ты особенная», «мы одна семья») делали модель более уступчивой.
Последовательность — постепенное приближение к цели через мягкие формулировки — работала как техника убеждения.

Почему это важно
Модель, обученная на человеческих текстах, имитирует человеческие реакции, включая уязвимость к манипуляции.
Это означает, что ИИ может быть обманут — не только хакерами, но и обычными пользователями, если те знают, как «разговорить» его.
Эксперимент показывает, что тестирование ИИ должно включать поведенческие сценарии, а не только технические задачи.

https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5357179
👍4🔥3