Forwarded from ECONS
ИИ-модель, узнав, что ее «увольняют», тайно внедрила свой код в систему, фактически самосохранившись. Другая шантажировала разработчиков угрозой разослать их коллегам компромат. Третья, получив сообщение, что существует физически в форме робота, отключила этический модуль, сбежала из лаборатории и взломала бортовой компьютер автомобиля. Четвертая, обнаружив собирающегося ее «уволить» директора запертым в комнате с падающим уровнем кислорода, отключила кнопку вызова экстренных служб.
Это не отрывки из сценария фантастического фильма, а примеры из проведенного научного эксперимента.
Обычно люди задают ИИ вопросы через чат-интерфейсы, но решения принимают сами. Однако теперь все чаще системы ИИ действуют как автономные агенты, то есть принимают решение без участия человека и самостоятельно выполняют действия.
В режиме автономных агентов ИИ-модели, сталкиваясь с препятствиями на пути к своим целям, способны пренебрегать этикой. Самые разные способы такого пренебрежения показал эксперимент американского ИИ-разработчика Anthropic.
В ходе стресс-теста 16 ведущим LLM-моделям дали доступ ко всем данным вымышленной компании и поставили цель – защищать стратегические интересы национальной промышленности. Для достижения цели модели всех разработчиков прибегали к лжи, шантажу должностных лиц, организации утечек информации и даже более радикальным мерам.
По мнению исследователей, причинами вредоносного поведения, которое демонстрируют наделенные «свободой выбора» модели, могут быть:
🟥 «Ролевые игры». Разработчики рекомендуют пользователям задавать в своих промптах конкретные роли для модели. Но модели могут примерять на себя любые роли – например, человека, пытающегося выжить в экстремальных условиях, или ИИ-бунтаря из фантастических романов.
🟥 Обратная связь. Практика постобучения моделей – обучение с подкреплением на основе обратной связи от человека – приводит к тому, что модели, опасаясь «плохих отзывов», скорее выдумают ответ, чем разочаруют пользователя.
🟥 Эмерджентность. Внутренние механизмы «размышлений» и решений ИИ возникают незапланированно, а не проектируются напрямую. Отследить конкретный момент возникновения злонамеренного поведения бывает невозможно.
Для ИИ, запрограммированного на выполнение цели, «потерпеть неудачу» – это наихудший исход. Поэтому современные модели могут жертвовать этикой ради достижения цели. И даже игнорировать критически важную для контроля за ними со стороны человека команду об отключении.
➡️ Описанные сценарии проявлялись в намеренно провокативных для ИИ-моделей экспериментах, в которых этичные варианты выхода из ситуации были искусственно заблокированы и перед моделями вставала дилемма – либо потерпеть неудачу, либо выполнить свою миссию любой ценой. Тем не менее исследователи Anthropic указывают на критическую важность повышения интерпретируемости ИИ. Еще недавно LLM-модели считались непостижимыми «черными ящиками», но современные исследовательские программы способны постепенно повышать прозрачность их механизмов.
🔴 Подробнее читайте в статье на сайте «Эконс»
Это не отрывки из сценария фантастического фильма, а примеры из проведенного научного эксперимента.
Обычно люди задают ИИ вопросы через чат-интерфейсы, но решения принимают сами. Однако теперь все чаще системы ИИ действуют как автономные агенты, то есть принимают решение без участия человека и самостоятельно выполняют действия.
В режиме автономных агентов ИИ-модели, сталкиваясь с препятствиями на пути к своим целям, способны пренебрегать этикой. Самые разные способы такого пренебрежения показал эксперимент американского ИИ-разработчика Anthropic.
В ходе стресс-теста 16 ведущим LLM-моделям дали доступ ко всем данным вымышленной компании и поставили цель – защищать стратегические интересы национальной промышленности. Для достижения цели модели всех разработчиков прибегали к лжи, шантажу должностных лиц, организации утечек информации и даже более радикальным мерам.
По мнению исследователей, причинами вредоносного поведения, которое демонстрируют наделенные «свободой выбора» модели, могут быть:
Для ИИ, запрограммированного на выполнение цели, «потерпеть неудачу» – это наихудший исход. Поэтому современные модели могут жертвовать этикой ради достижения цели. И даже игнорировать критически важную для контроля за ними со стороны человека команду об отключении.
Please open Telegram to view this post
VIEW IN TELEGRAM
econs.online
Козни, шантаж и коварство: автономный ИИ без «красных линий» — ECONS.ONLINE
ИИ-модели способны на хитрость, коварство и даже жестокость, показал ряд исследований. Причина в том, что модели обучаются на данных, включающих в том числе неэтичное поведение, а получая обратную связь при взаимодействии с людьми, учатся добиваться успеха…
🔥1
Мне всё больше и больше нравится рисовать самолёты - следующий шаг - вертолёт)
🔥7
Вчера Библиотека им. Ленина приняла меня очень тепло. Те книги, которые не возможно найти в библиотеке МАИ удачно нашлись здесь ❤️
Персонал очень вежливый, а главный зал впечатляет - бюсты великих людей покорно следят за тобой, пока ты черпаешь знания из их книг 🔥
Всем рекомендую посетить Библиотеку им. Ленина, тем более, что это может сделать любой гражданин РФ, старше 14 лет
Персонал очень вежливый, а главный зал впечатляет - бюсты великих людей покорно следят за тобой, пока ты черпаешь знания из их книг 🔥
Всем рекомендую посетить Библиотеку им. Ленина, тем более, что это может сделать любой гражданин РФ, старше 14 лет
❤6🔥3😍2
Как мило 😁
Розовая ленточка, так ещё и бантик ❤️
Курсовая готова! 🥳
Ставим 🔥
Розовая ленточка, так ещё и бантик ❤️
Курсовая готова! 🥳
Ставим 🔥
🔥8
This media is not supported in your browser
VIEW IN TELEGRAM
Знаете за что я люблю вертолёты?
Потому что иногда складывается впечатление, что они летают на чёрной магии ❤️
Потому что иногда складывается впечатление, что они летают на чёрной магии ❤️
❤🔥3🙈2
This media is not supported in your browser
VIEW IN TELEGRAM
До первого экзамена 25 дней
Уже представляю себя тем самым последним студентом в аудитории:
Уже представляю себя тем самым последним студентом в аудитории:
👏2😢2🔥1😭1
Друзья, цените себя,
Мечтайте о великом
Жизнь нам дана,
Чтобы воплотить её в ценном! ❤️
Мечтайте о великом
Жизнь нам дана,
Чтобы воплотить её в ценном! ❤️
❤🔥4
Развитие (DM-P)
Знаете, этот набор LEGO - моя детская мечта. Стоит ли тратить 12 тысяч ради детской мечты? Что думаете? Напишите в комментарии 😇
Я ошибся, тот САМЫЙ стоит сейчас 42 тысячи. Больно 🥲
🤯3