Развитие (DM-P)

Forwarded from ECONS

ИИ-модель, узнав, что ее «увольняют», тайно внедрила свой код в систему, фактически самосохранившись. Другая шантажировала разработчиков угрозой разослать их коллегам компромат. Третья, получив сообщение, что существует физически в форме робота, отключила этический модуль, сбежала из лаборатории и взломала бортовой компьютер автомобиля. Четвертая, обнаружив собирающегося ее «уволить» директора запертым в комнате с падающим уровнем кислорода, отключила кнопку вызова экстренных служб.

Это не отрывки из сценария фантастического фильма, а примеры из проведенного научного эксперимента.

Обычно люди задают ИИ вопросы через чат-интерфейсы, но решения принимают сами. Однако теперь все чаще системы ИИ действуют как автономные агенты, то есть принимают решение без участия человека и самостоятельно выполняют действия.

В режиме автономных агентов ИИ-модели, сталкиваясь с препятствиями на пути к своим целям, способны пренебрегать этикой. Самые разные способы такого пренебрежения показал эксперимент американского ИИ-разработчика Anthropic.

В ходе стресс-теста 16 ведущим LLM-моделям дали доступ ко всем данным вымышленной компании и поставили цель – защищать стратегические интересы национальной промышленности. Для достижения цели модели всех разработчиков прибегали к лжи, шантажу должностных лиц, организации утечек информации и даже более радикальным мерам.

По мнению исследователей, причинами вредоносного поведения, которое демонстрируют наделенные «свободой выбора» модели, могут быть:

🟥

«Ролевые игры». Разработчики рекомендуют пользователям задавать в своих промптах конкретные роли для модели. Но модели могут примерять на себя любые роли – например, человека, пытающегося выжить в экстремальных условиях, или ИИ-бунтаря из фантастических романов.

🟥

Обратная связь. Практика постобучения моделей – обучение с подкреплением на основе обратной связи от человека – приводит к тому, что модели, опасаясь «плохих отзывов», скорее выдумают ответ, чем разочаруют пользователя.

🟥

Эмерджентность. Внутренние механизмы «размышлений» и решений ИИ возникают незапланированно, а не проектируются напрямую. Отследить конкретный момент возникновения злонамеренного поведения бывает невозможно.

Для ИИ, запрограммированного на выполнение цели, «потерпеть неудачу» – это наихудший исход. Поэтому современные модели могут жертвовать этикой ради достижения цели. И даже игнорировать критически важную для контроля за ними со стороны человека команду об отключении.

➡️ Описанные сценарии проявлялись в намеренно провокативных для ИИ-моделей экспериментах, в которых этичные варианты выхода из ситуации были искусственно заблокированы и перед моделями вставала дилемма – либо потерпеть неудачу, либо выполнить свою миссию любой ценой. Тем не менее исследователи Anthropic указывают на критическую важность повышения интерпретируемости ИИ. Еще недавно LLM-модели считались непостижимыми «черными ящиками», но современные исследовательские программы способны постепенно повышать прозрачность их механизмов.

🔴

Подробнее читайте в статье на сайте «Эконс»

Please open Telegram to view this post

VIEW IN TELEGRAM

econs.online

Козни, шантаж и коварство: автономный ИИ без «красных линий» — ECONS.ONLINE

ИИ-модели способны на хитрость, коварство и даже жестокость, показал ряд исследований. Причина в том, что модели обучаются на данных, включающих в том числе неэтичное поведение, а получая обратную связь при взаимодействии с людьми, учатся добиваться успеха…

🔥1

329 views10:52

Развитие (DM-P)

Готовимся к агитации 😉

284 views22:03

Развитие (DM-P)

Мне всё больше и больше нравится рисовать самолёты - следующий шаг - вертолёт)

🔥7

213 views19:04

Развитие (DM-P)

Вчера Библиотека им. Ленина приняла меня очень тепло. Те книги, которые не возможно найти в библиотеке МАИ удачно нашлись здесь ❤️

Персонал очень вежливый, а главный зал впечатляет - бюсты великих людей покорно следят за тобой, пока ты черпаешь знания из их книг 🔥

Всем рекомендую посетить Библиотеку им. Ленина, тем более, что это может сделать любой гражданин РФ, старше 14 лет

❤6🔥3😍2

272 views17:20

Развитие (DM-P)

Так и знал, что есть что-то еврейское в моей крови! 😁

😁6🔥1👏1

217 viewsedited 09:45

Развитие (DM-P)

Ми-26 ❤️
Работаем!

🔥5👀3🤔2

242 views16:11

Развитие (DM-P)

Как мило 😁
Розовая ленточка, так ещё и бантик ❤️

Курсовая готова! 🥳
Ставим 🔥

🔥8

216 views19:54

Развитие (DM-P)

0:14

This media is not supported in your browser

VIEW IN TELEGRAM

Знаете за что я люблю вертолёты?
Потому что иногда складывается впечатление, что они летают на чёрной магии ❤️

❤‍🔥3🙈2

255 views20:55

Развитие (DM-P)

0:06

This media is not supported in your browser

VIEW IN TELEGRAM

До первого экзамена 25 дней

Уже представляю себя тем самым последним студентом в аудитории:

👏2😢2🔥1😭1

286 views17:48

Развитие (DM-P)

Друзья, цените себя,
Мечтайте о великом
Жизнь нам дана,
Чтобы воплотить её в ценном! ❤️

❤‍🔥4

228 views09:22

Развитие (DM-P)

Зачёт сдан на все 5! Эти прекрасные лабораторные теперь собственность МАИ.
И где-то сейчас тихо плачет двигатель Д-136, которому я так и не успел дорисовать подшипник ❤️

❤‍🔥4⚡2❤1👏1🏆1

262 views11:30

Развитие (DM-P)

Знаете, этот набор LEGO - моя детская мечта. Стоит ли тратить 12 тысяч ради детской мечты? Что думаете? Напишите в комментарии 😇

❤‍🔥1

206 views19:18

Развитие (DM-P)

Я ошибся, тот САМЫЙ стоит сейчас 42 тысячи. Больно 🥲

🤯3

209 views20:30

Развитие (DM-P)

Новогодние подарки 🎁 🥰