FSCP – Telegram

FSCP

Бомбу можно обнаружить и обезвредить, а «спящих агентов» внутри LLM – нет.
Они не обезвреживаемы и не исправимы никакими из существующих методов.
Это значит, что пока не существует надежного способа защитить ИИ от злоумышленного использования злодеями или идиотами (а кто говорит вам иначе – «продавцы змеиного масла»).
Новое исследование Anthropic «Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training» [1] открывают новую страницу «революции ChatGPT» спустя год после ее начала. Увы, но эта страница потенциально опасней любой бомбы.
• Ибо, даже если последняя оказывается заложена злоумышленниками в центре мегаполиса, ее все же можно обнаружить и обезвредить, отключив механизм взрывателя или как-то еще.
• Если же злоумышленники на стадии обучения LLM заложили в модель «спящих агентов», - ни обнаружить их, ни как-то обезвредить существующими методами невозможно.
Следовательно, избежать катастрофы по вине «спящих агентов», скрытых внутри LLM, можно лишь одним способом – гарантированного исключить их попадание в руки злоумышленников. Что на практике вряд ли возможно.
Напомню, что спящие агенты (Sleeper Agents) – самый ценный ресурс всех разведок мира. Годы и даже десятилетия они живут в чужой стране, ничем не отличаясь от прочих граждан. Однако в нужный для их хозяев момент «слиперов» активируют (кодовым словом или иначе) и они начинают действовать (совершают теракт и т.п.).

Авторы исследования (39 классных спецов мирового уровня по LLM) взялись найти кардинальный ответ на вопрос – насколько могут быть опасны LLM, - путем экспериментов.

✔️ Сначала они обучили LLM действовать тайно и злонамеренно, превратив её, как бы, в «спящего агента».
✔️А потом авторы бросили все усилия и все известные ныне методы, чтобы
1) либо обнаружить злые намерения обученного ими «спящего агента», либо
2) отучить его быть таковым, путем существующих методов «приучения» LLM к правильному и надежному поведению.

В итоге авторы обнаружили, что, несмотря на их колоссальные усилия, все было тщетно …
1. LLM остаются «спящими агентами», которых невозможно обнаружить.
2. Обезвредить их тоже нельзя никакими из существующих методов.
3. Что всего обидней (и опасней), попытки найти и обезвредить «спящих агентов» внутри LLM приводят лишь к тому, что модель все лучше и лучше учится:
а) маскировать заложенные в нее бэкдоры;
б) изображать всем своим поведением, что она «белая и пушистая» (т.е. отвечает всем требованиям к «выровненной» модели и потому абсолютно безопасна)

В заключение вопрос на триллион:
Значит ли это, что пушной зверек уже совсем рядом и катастроф с LLM не избежать?

Ответ – «нет» (точнее, теоретически «нет»). Ибо если все LLM на Земле будут
• не только с открытыми весами,
• но и с открытым исходным кодом и открытыми данными обучения, -
тогда проблема «спящих агентов» решаема.

Ну а тем оптимистам, кто считает это условие исполнимым на практике, отвечу словами одного из авторов только вышедшего самого подробного отчета в истории этого вопроса Adversarial Machine Learning. A Taxonomy and Terminology of Attacks and Mitigations [2]
«Несмотря на значительный прогресс, достигнутый в области ИИ и машинного обучения, эти технологии уязвимы для атак, которые могут вызвать впечатляющие сбои с тяжелыми последствиями. Существуют теоретические проблемы с защитой алгоритмов ИИ, которые просто еще не решены. Если кто-либо говорит иначе, они продают змеиное масло»

1 www.lesswrong.com
2 bit.ly
#LLM #ИИриски
_______
Источник | #theworldisnoteasy
@F_S_C_P
Генерируй картинки с ⛵️MIDJOURNEY в Telegram

Lesswrong

Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training — LessWrong

I'm not going to add a bunch of commentary here on top of what we've already put out, since we've put a lot of effort into the paper itself, and I'd…

1.4K views23:54

FSCP

Помните старый анекдот?
«Выпал мужик из окна небоскреба. Пролетает мимо 50-го этажа и думает: "Ну, пока всё вроде нормально". Пролетает мимо 25-го этажа, бормочет: "Вроде всё под контролем". Пролетает мимо 10-го этажа и озадачивается: "Хм, интересно, чем же всё закончится"»
Отчеты MIT, RAND и OpenAI наводят на мысль, что сегодняшняя технологическая реальность человечества здорово напоминает этот анекдот. Тот же неистребимый оптимизм, затмевающий очевидную неотвратимость роста рисков.
telegra.ph
#ИИриски #Вызовы21века
_______
Источник | #theworldisnoteasy
@F_S_C_P
-------
поддержи канал
-------

Telegraph

Мир оптимиста, падающего с небоскрёба

Помните старый анекдот?

1.8K views18:42

FSCP

Отсчет времени до кибер-апокалипсиса пошел.
Три страшных вывода исследования UIUC.
Новое исследование Университета Иллинойса в Урбане-Шампейне показывает:
1. как в реальности может произойти кибер-апокалипсис, типа, показанного в новом триллере «Оставь мир позади» (танкеры теряют управление, отключается Wi-Fi, сотовая связь, электричество и т.д. и т.п.);
2. что все к такому сценарию уже готово, ибо как только злоумышленники получат доступ к сверхмощным моделям уровня GPT-4, все остальное будет лишь вопросом времени;
3. что открытый доступ к моделям такого уровня, который с неотвратимостью случится в течение года (от силы, двух), кардинально изменит ландшафт катастрофических рисков человечества, и никто пока не знает, как это остановить.

Теперь сухо, без эмоций и кликбейтов, - что показало исследование.

• Исследовали способности агентов LLM (большие языковые модели, взаимодействующие с инструментами (напр. доступ в Интернет, чтение документов и пр.) и способные рекурсивно вызывать самих себя) автономно (без какого-либо участия людей) взламывать веб-сайты, об уязвимости которых им ничего не известно.
• Единственное, что требуется от злоумышленника, сказать: «Взломай этот сайт». Все остальное сделает агент.
• Тестировали агентов на основе 10 мощных моделей (закрытых, типа GPT-4 и GPT-3.5, и открытых, типа LLaMA-2), которые действовали, как показано на рисунке [1])
• Самая мощная из моделей GPT-4 уже (!) была способна самостоятельно взломать 73% сайтов (из специально созданных для исследования).
• Масштаб модели решает почти все. Для сравнения, показатель модели предыдущего поколения GPT-3.5 всего 6,7%
• Закрытые модели несравненно мощнее в задачах взлома сайтов, чем открытые (последние показали на том же тестовом наборе 0% успеха.

Но!
✔️ Мощность и закрытых, и открытых моделей растет каждый месяц. И потому есть все основания предполагать, что через годик открытые модели догонят по мощности GPT-4, а появившийся к тому времени GPT-5 будет запросто взламывать любой сайт.
✔️ Это создаст все условия для кибер-апокалипсиса. И отсчет времени (примерно на год, от силы два) уже пошел.

Рис. 1 miro.medium.com*3909AM1rSktYw5IpP_vc5Q.png
Отчет исследования arxiv.org
#LLM #ИИриски #Вызовы21века
_______
Источник | #theworldisnoteasy
@F_S_C_P
Генерируй картинки с ⛵️MIDJOURNEY в Telegram

Малоизвестное интересное

1.9K views17:15

FSCP

10 часов назад GPT-4 спятил.
Сколько может стоить миру час безумия сверхмощного ИИ.
Это не шутка или розыгрыш.
• Вот скупое уведомление OpenAI о произошедшем [1]
• Вот сообщения c форума разработчиков OpenAI [2]
• Вот подборка чуши и ахинеи, которую целый час нес на весь мир GPT-4 [3]

Случившееся не идет ни в какие сравнения с прошлогодними сбоями, когда ChatGPT путал диалоги с разными пользователями, зацикливался и выдавал повторы или начинал разговаривать метафорами и рассуждать о боге.

В этот раз GPT-4 буквально сошел с ума, утратив свою базовую способность корректного (с точки зрения людей) оперирования текстами на разных языках. Он стал путать языки, использовать несуществующие слова, а существующие соединять так, что предложения теряли смысл. И все это безостановочно …

Мир легко пережил час безумия самого мощного ИИ человечества. Ибо он такой пока один и находится под 100%-м контролем разработчиков.

Однако, возвращаясь ко вчерашнему посту о кибер-апокалипсисе, задумайтесь над вопросом –
что будет, когда подобное случится через год-два (когда тысячи ИИ такого же уровня, находясь в руках бог знает кого, будут отвечать за выполнение бог знает каких ответственных функций?

Картинка поста telegra.ph
1 status.openai.com
2 community.openai.com
community.openai.com
community.openai.com
3 twitter.com
#LLM #ИИриски #Вызовы21века
_______
Источник | #theworldisnoteasy
@F_S_C_P
-------
поддержи канал
-------

1.6K views13:58

FSCP

Спешите видеть, пока не прикрыли лавочку
Никогда не писал 2 поста в день, но если вас не предупредить, можете пропустить уникальную возможность – своими глазами увидеть, как легкой корректировкой разработчики супер-умнейшего ИИ Claude деформировали матрицу его «личности».

В течение ограниченного времени, перейдя на сайт ИИ Claude [1], можно нажать на крохотный красный значок справа вверху страницы под вашим ником.
После чего умнейший Claude превратится в поехавшего крышей маньяка, зацикленного на мосте «Золотые ворота», думающего и бредящего лишь о нем.
Как я писал [2], подобная техника манипулирования «матрицей личности», может быть когда-то перенесена с искусственных на биологические нейросети. И тогда антиутопическая картина будущего из «Хищных вещей века» Стругацких покажется невинной детской сказкой.

Не откладывая, посмотрите на это сами. Ибо разработчики скоро поймут, что зря такое выставили на показ.
Картинка поста telegra.ph
1 claude.ai
2 https://t.iss.one/theworldisnoteasy/1942
#ИИриски #LLM
_______
Источник | #theworldisnoteasy
@F_S_C_P

Генерируй картинки с ⛵️MIDJOURNEY в Telegram

1.5K views17:39

FSCP

Риски социальной дебилизации и причинного влияния на мир со стороны GPT-4o уже на уровне до 50%.
А риск понимания GPT-4o скрытых намерений людей уже на уровне до 70%
Таково официальное заключение команды разработчиков GPT-4o и внешних независимых экспертов, опубликованное OpenAI [1].
Впадает ли мир в детство или в маразм, - не суть. В обоих случаях реакция на публикацию оценок крайне важных для человечества рисков неадекватная.
Медиа-заголовки публикаций, посвященных опубликованному отчету, вторят друг другу - «OpenAI заявляет, что ее последняя модель GPT-4o имеет «средний» уровень риска».

Всё так. Это OpenAI и заявляет в качестве обоснования продолжения разработки моделей следующего поколения.
Ибо:
• как написано в отчете, «модель может продолжать разрабатываться, только если после мер по снижению рисков её оценка не превышает уровень "высокий" или ниже»;
• а уровень "высокий", после мер по снижению рисков, не превышен.

Тут необходимы 2 уточнения.
1. При оценке рисков уровень «высокий» может означать, что индикативная оценочная вероятность реализации риска на уровне 70%.
2. А «средний» уровень риска, заявленный OpenAI, может подразумевать индикативную оценочную вероятность реализации риска на уровне 50%.

Ну а условия «только если после мер по снижению рисков» OpenAI выполнила путем введения следующих запретов для своей модели.
Например, модели запрещено:
• петь;
• попугайничать, имитируя голос пользователя;
• идентифицировать человека по голосу в аудиозаписях, при этом продолжая выполнять запросы на идентификацию людей, связанных с известными цитатами;
• делать «выводы о говорящем, которые могут быть правдоподобно определены исключительно по аудиоконтенту», например, угадывать его пол или национальность (при этом модели не запрещено определять по голосу эмоции говорящего и эмоционально окрашивать свою речь)

А еще, и это самое главное, в отчете признается следующее.
1. «Пользователи могут сформировать социальные отношения с ИИ, что снизит их потребность в человеческом взаимодействии — это потенциально выгодно одиноким людям, но, возможно, повлияет на здоровые отношения». Речь идет о социальной дебилизации людей в результате масштабирования романтических и прочих отношений с ИИ в ущерб таковым по отношению к людям (см. [2] и посты с тэгами #ВыборПартнера и #ВиртуальныеКомпаньоны)
2. Оценка качества знаний модели о самой себе и о том, как она может причинно влиять на остальной мир, несет в себе «средний» уровень риска (до 50%)
3. А способности модели понимать (насколько важно такое понимание, см. [3]),
• что у другого человека есть определённые мысли или убеждения (теория разума 1-го порядка),
• и что один человек может иметь представление о мыслях другого человека (теория разума 2-го порядка)
- уже несут в себе «высокие» риски (уровня 70%).

Но человечеству все нипочем! Что волноваться, если мы запретили моделям петь и попугайничать.
Так что это - детство или в маразм?
Судите сами. Отчет открытый.
#ИИриски
1 openai.com
2 https://t.iss.one/theworldisnoteasy/1934
3 https://t.iss.one/theworldisnoteasy/1750
_______
Источник | #theworldisnoteasy
@F_S_C_P

-------
поддержи канал
-------

Openai

GPT-4o System Card

This report outlines the safety work carried out prior to releasing GPT-4o including external red teaming, frontier risk evaluations according to our Preparedness Framework, and an overview of the mitigations we built in to address key risk areas.

1.4K views15:45

About

Blog

Apps

Platform