Искусственная эскалация.
TLDR – самый вероятный сценарий гибели земной цивилизации.
Ядерный риск и ИИ-риски, меркнут в сравнении с интегральным риском при их сочетании. Но это, увы, самый вероятный сценарий будущего для земной цивилизации, причем, не в отдаленном будущем, а в ближайшие годы.
Такой сценарий называется TLDR: Threat (Угроза), Likelihood (Вероятность), Deadline (Дедлайн – крайний срок принятия решения), Recommendation (Рекомендация ИИ принимающему решение лицу с учетом TLD). В соответствии с этим сценарием будут приниматься все важнейшие решения в чрезвычайных ситуациях, когда ставки на кону велики.
У сценария TLDR нет альтернатив (что бы ни говорили ученые, политики и военные), ибо он:
• качественно (по уровню анализа) и количественно (по скорости принятия решений) превосходит все иные мыслимые сценарии действий в ситуациях радикальной неопределенности, в которых «факты неточны, ценности спорны, ставки высоки, а решения срочны»;
• и отвечает единственному сегодня неоспоримому требованию к технологиям - оставляет последнее решение за человеком.
Но у сценария TLDR есть и практически непреодолимый изъян – рано или поздно, он может запустить процесс неостановимой искусственной эскалации военного противостояния.
Как это может выглядеть на практике на временном горизонте ближайших 10 лет, просто, но убедительно показано в 8-минутной короткометражке «Искусственная эскалация», снятом Space Film & VFX для Института будущего жизни.
Этот ролик рекомендую посмотреть каждому. Он того стоит.
Кроме того:
• Реальность TLDR-сценария признают весьма серьезные эксперты (см. Bulletin of the Atomic Scientist)
• Насколько опасно использование ИИ в вооруженных конфликтах, я неоднократно рассказывал и писал (в том числе, о «проблеме 37-го хода военного ИИ» и «иллюзии контроля ИИ»)
• Последствия глобального TLDR-сценария будут гибельны для цивилизации на Земле (см. этот 4-х минутный ролик)
• Перезвон Часов Судного дня запускается применением ядерного оружия. Но лишь в течение 20 сек этого «перезвона», часы еще можно остановить… Ни секундой позже.
#Вызовы21века #РискиИИ #Хриски
TLDR – самый вероятный сценарий гибели земной цивилизации.
Ядерный риск и ИИ-риски, меркнут в сравнении с интегральным риском при их сочетании. Но это, увы, самый вероятный сценарий будущего для земной цивилизации, причем, не в отдаленном будущем, а в ближайшие годы.
Такой сценарий называется TLDR: Threat (Угроза), Likelihood (Вероятность), Deadline (Дедлайн – крайний срок принятия решения), Recommendation (Рекомендация ИИ принимающему решение лицу с учетом TLD). В соответствии с этим сценарием будут приниматься все важнейшие решения в чрезвычайных ситуациях, когда ставки на кону велики.
У сценария TLDR нет альтернатив (что бы ни говорили ученые, политики и военные), ибо он:
• качественно (по уровню анализа) и количественно (по скорости принятия решений) превосходит все иные мыслимые сценарии действий в ситуациях радикальной неопределенности, в которых «факты неточны, ценности спорны, ставки высоки, а решения срочны»;
• и отвечает единственному сегодня неоспоримому требованию к технологиям - оставляет последнее решение за человеком.
Но у сценария TLDR есть и практически непреодолимый изъян – рано или поздно, он может запустить процесс неостановимой искусственной эскалации военного противостояния.
Как это может выглядеть на практике на временном горизонте ближайших 10 лет, просто, но убедительно показано в 8-минутной короткометражке «Искусственная эскалация», снятом Space Film & VFX для Института будущего жизни.
Этот ролик рекомендую посмотреть каждому. Он того стоит.
Кроме того:
• Реальность TLDR-сценария признают весьма серьезные эксперты (см. Bulletin of the Atomic Scientist)
• Насколько опасно использование ИИ в вооруженных конфликтах, я неоднократно рассказывал и писал (в том числе, о «проблеме 37-го хода военного ИИ» и «иллюзии контроля ИИ»)
• Последствия глобального TLDR-сценария будут гибельны для цивилизации на Земле (см. этот 4-х минутный ролик)
• Перезвон Часов Судного дня запускается применением ядерного оружия. Но лишь в течение 20 сек этого «перезвона», часы еще можно остановить… Ни секундой позже.
#Вызовы21века #РискиИИ #Хриски
YouTube
Artificial Escalation
This work of fiction seeks to depict key drivers that could result in a global Al catastrophe:
- Accidental conflict escalation at machine speeds;
- Al integrated too deeply into high-stakes functions;
- Humans giving away too much control to Al;
- Humans…
- Accidental conflict escalation at machine speeds;
- Al integrated too deeply into high-stakes functions;
- Humans giving away too much control to Al;
- Humans…
Что нужно, чтобы e-Сапиенсы искоренили е-Неандертальцев?
Спор Яна ЛеКуна и Джуда Перла по ключевому вопросу выживания человечества.
Всего за несколько месяцев вопрос об экзистенциальных последствиях появления на Земле искусственного сверхразума кардинально изменил постановку.
• Более полувека гипотетическая возможность уничтожения людей сверхразумом была преимущественно хлебом для Голливуда, тогда как исследователи и инженеры обсуждали куда более практический вопрос – а можно ли вообще создать сверхразум в обозримом будущем?
• В этом году вопрос о возможности появления на Земле сверхразума перестал быть гипотетическим. И потому вопрос о повторении истории Неандертальцев, искорененных новым более разумным видом Сапиенсов начали обсуждать не только в Голливуде, но и в научно-инженерной среде.
Состоявшийся на днях заочный спор двух признанных в мире экспертов в этой области Яна ЛеКуна и Джуда Перла – отличная иллюстрация полярных позиций в этом вопросе.
Позиция Яна ЛеКуна: «Высший вид» — не самый умный, но тот, который определяет общую повестку дня. И это будем мы.
Подробней:
«Как только системы искусственного интеллекта станут более разумными, чем люди, мы *все еще* будем «высшим видом». Приравнивание интеллекта к доминированию — это главная ошибка всей дискуссии об экзистенциальном риске ИИ. Это просто неправильно даже *внутри* человеческого рода. Ведь *не* самые умные среди нас доминируют над другими. Что еще более важно, не самые умные среди нас *хотят* доминировать над другими и определяют повестку дня. Мы подчиняемся своим побуждениям, заложенным в нас эволюцией. Поскольку эволюция сделала нас социальным видом с иерархической социальной структурой, у некоторых из нас есть стремление доминировать, а у других — нет. Но это стремление не имеет абсолютно ничего общего с интеллектом: схожие инстинкты есть у шимпанзе, бабуинов и волков. Но орангутанги этого не делают, потому что они не являются социальным видом. И они чертовски умны. Системы искусственного интеллекта станут умнее людей, но они по-прежнему будут подчиняться нам. Точно так же члены штаба политиков или бизнес-лидеров часто умнее своего лидера. Но их лидер по-прежнему командует, и большинство сотрудников не имеют желания занять их место. Мы создадим ИИ, который будет похож на суперумного, но не доминирующего сотрудника. «Высший вид» — не самый умный, но тот, который определяет общую повестку дня. Это будем мы.
Позиция Джуда Перла: Для мотивации сверхразума истребить людей требуется выполнение одного простого условия.
Подробней:
«Не убедительно. Все, что нужно, — это чтобы один из вариантов AGI столкнулась со средой, в которой доминирование имеет ценность для выживания, и, упс, - e-Сапиенсы искоренят е-Неандертальцам и передадут гены своим потомкам»
Полагаю, каждому стоит подумать, кто здесь прав. Ведь ставка в этом вопросе максимально возможная - судьба человечества.
#Вызовы21века #РискиИИ #Хриски
Спор Яна ЛеКуна и Джуда Перла по ключевому вопросу выживания человечества.
Всего за несколько месяцев вопрос об экзистенциальных последствиях появления на Земле искусственного сверхразума кардинально изменил постановку.
• Более полувека гипотетическая возможность уничтожения людей сверхразумом была преимущественно хлебом для Голливуда, тогда как исследователи и инженеры обсуждали куда более практический вопрос – а можно ли вообще создать сверхразум в обозримом будущем?
• В этом году вопрос о возможности появления на Земле сверхразума перестал быть гипотетическим. И потому вопрос о повторении истории Неандертальцев, искорененных новым более разумным видом Сапиенсов начали обсуждать не только в Голливуде, но и в научно-инженерной среде.
Состоявшийся на днях заочный спор двух признанных в мире экспертов в этой области Яна ЛеКуна и Джуда Перла – отличная иллюстрация полярных позиций в этом вопросе.
Позиция Яна ЛеКуна: «Высший вид» — не самый умный, но тот, который определяет общую повестку дня. И это будем мы.
Подробней:
«Как только системы искусственного интеллекта станут более разумными, чем люди, мы *все еще* будем «высшим видом». Приравнивание интеллекта к доминированию — это главная ошибка всей дискуссии об экзистенциальном риске ИИ. Это просто неправильно даже *внутри* человеческого рода. Ведь *не* самые умные среди нас доминируют над другими. Что еще более важно, не самые умные среди нас *хотят* доминировать над другими и определяют повестку дня. Мы подчиняемся своим побуждениям, заложенным в нас эволюцией. Поскольку эволюция сделала нас социальным видом с иерархической социальной структурой, у некоторых из нас есть стремление доминировать, а у других — нет. Но это стремление не имеет абсолютно ничего общего с интеллектом: схожие инстинкты есть у шимпанзе, бабуинов и волков. Но орангутанги этого не делают, потому что они не являются социальным видом. И они чертовски умны. Системы искусственного интеллекта станут умнее людей, но они по-прежнему будут подчиняться нам. Точно так же члены штаба политиков или бизнес-лидеров часто умнее своего лидера. Но их лидер по-прежнему командует, и большинство сотрудников не имеют желания занять их место. Мы создадим ИИ, который будет похож на суперумного, но не доминирующего сотрудника. «Высший вид» — не самый умный, но тот, который определяет общую повестку дня. Это будем мы.
Позиция Джуда Перла: Для мотивации сверхразума истребить людей требуется выполнение одного простого условия.
Подробней:
«Не убедительно. Все, что нужно, — это чтобы один из вариантов AGI столкнулась со средой, в которой доминирование имеет ценность для выживания, и, упс, - e-Сапиенсы искоренят е-Неандертальцам и передадут гены своим потомкам»
Полагаю, каждому стоит подумать, кто здесь прав. Ведь ставка в этом вопросе максимально возможная - судьба человечества.
#Вызовы21века #РискиИИ #Хриски
«Цель: Отключить его»
И это могут сделать лишь политики.
MIRI (Исследовательский институт машинного интеллекта, занимающийся вопросами безопасности ИИ) четко и прямо сформулировал цель своей деятельности – «убедить крупные державы прекратить разработку систем фронтирного ИИ по всему миру, пока не стало слишком поздно» [1].
Опубликованный документ впервые переводит дискуссии о рисках для человечества на путях дальнейшего развития ИИ:
• из разряда самоуверенных деклараций научно недоказуемых точек зрения и бесконечных непродуктивных дебатов вокруг них между сторонниками и противниками этих воззрений,
• в прямую и ясную политическую позицию, суть которой такова:
– поскольку в любых оценках ИИ-рисков, не подкрепленных практически ничем, кроме мнений их авторов, довольно сложно быть уверенным,
– а верхняя граница таких рисков лежит в зоне экзистенциальных рисков для человечества,
– политикам стран – лидеров разработок фронтирного ИИ необходимо договориться о срочном создании международно признанной процедуры с функцией политического «рубильника», поворот которого гарантирует незамедлительную остановку разработок фронтирного ИИ, если политиками будет согласовано принято такое решение.
Такая политическая позиция признает невозможность (и ненужность) остановки фронтирного ИИ, способного принести миру огромную пользу.
Но вместе с тем, эта политическая позиция может предоставить человечеству шанс быстро остановить разработки при появлении обоснованных признаков того, что следующий шаг разработок может оказаться критическим.
Мое обсуждение предложенной политической позиции MIRI с коллегами, работающими в компаниях – лидерах разработок фронтирного ИИ, показало, что многие считают такую позицию обоснованной и своевременной. Некоторые из них уже написали об этом публично (например, Джек Кларк - соучредитель Anthropic, а ранее директор по политике внедрения в OpenAI [2]).
Однако, уязвимость такой политической позиции, имхо, в следующем.
Чтобы принять ее, необходимо доказать,
• что такой «рубильник» реально нужен хоть в каком-то обозримом будущем,
• и что при его отсутствии риски для человечества могут стать запредельными.
И что самое важное, это доказательство должно быть не очередной недоказуемой точкой зрения, а опираться на проработанный научный анализ вопроса.
Пока же, к сожалению, такого анализа нет.
И сделать его на основе существующего корпуса знаний по вопросам оценки ИИ-рисков, путях и способах согласования ИИ-целей и прочим разделам исследований темы безопасного использования ИИ, - имхо, весьма затруднительно. В противном случае, это уже было бы сделано.
Но выход, на мой взгляд есть, если пойти иным доказательным путем.
• Если доказать, что гарантированное согласование целей ИИ и людей невозможно в принципе, то это, по сути, может стать обоснованием обязательности наличия «рубильника» фронтирных ИИ-разработок.
• И такое доказательство должно, на мой взгляд, опираться на существующий корпус знаний, наработанных в областях экзопсихологии и экзосоциологии.
Что я и планирую на днях сделать во 2й части лонгрида «Переосмысления контакта» [3]
#ИИриски #Хриски #Экзопсихология #Экзосоциология
1 https://intelligence.org/2024/05/29/miri-2024-communications-strategy/
2 https://importai.substack.com/p/import-ai-377-voice-cloning-is-here
3 https://t.iss.one/theworldisnoteasy/1955
И это могут сделать лишь политики.
MIRI (Исследовательский институт машинного интеллекта, занимающийся вопросами безопасности ИИ) четко и прямо сформулировал цель своей деятельности – «убедить крупные державы прекратить разработку систем фронтирного ИИ по всему миру, пока не стало слишком поздно» [1].
Опубликованный документ впервые переводит дискуссии о рисках для человечества на путях дальнейшего развития ИИ:
• из разряда самоуверенных деклараций научно недоказуемых точек зрения и бесконечных непродуктивных дебатов вокруг них между сторонниками и противниками этих воззрений,
• в прямую и ясную политическую позицию, суть которой такова:
– поскольку в любых оценках ИИ-рисков, не подкрепленных практически ничем, кроме мнений их авторов, довольно сложно быть уверенным,
– а верхняя граница таких рисков лежит в зоне экзистенциальных рисков для человечества,
– политикам стран – лидеров разработок фронтирного ИИ необходимо договориться о срочном создании международно признанной процедуры с функцией политического «рубильника», поворот которого гарантирует незамедлительную остановку разработок фронтирного ИИ, если политиками будет согласовано принято такое решение.
Такая политическая позиция признает невозможность (и ненужность) остановки фронтирного ИИ, способного принести миру огромную пользу.
Но вместе с тем, эта политическая позиция может предоставить человечеству шанс быстро остановить разработки при появлении обоснованных признаков того, что следующий шаг разработок может оказаться критическим.
Мое обсуждение предложенной политической позиции MIRI с коллегами, работающими в компаниях – лидерах разработок фронтирного ИИ, показало, что многие считают такую позицию обоснованной и своевременной. Некоторые из них уже написали об этом публично (например, Джек Кларк - соучредитель Anthropic, а ранее директор по политике внедрения в OpenAI [2]).
Однако, уязвимость такой политической позиции, имхо, в следующем.
Чтобы принять ее, необходимо доказать,
• что такой «рубильник» реально нужен хоть в каком-то обозримом будущем,
• и что при его отсутствии риски для человечества могут стать запредельными.
И что самое важное, это доказательство должно быть не очередной недоказуемой точкой зрения, а опираться на проработанный научный анализ вопроса.
Пока же, к сожалению, такого анализа нет.
И сделать его на основе существующего корпуса знаний по вопросам оценки ИИ-рисков, путях и способах согласования ИИ-целей и прочим разделам исследований темы безопасного использования ИИ, - имхо, весьма затруднительно. В противном случае, это уже было бы сделано.
Но выход, на мой взгляд есть, если пойти иным доказательным путем.
• Если доказать, что гарантированное согласование целей ИИ и людей невозможно в принципе, то это, по сути, может стать обоснованием обязательности наличия «рубильника» фронтирных ИИ-разработок.
• И такое доказательство должно, на мой взгляд, опираться на существующий корпус знаний, наработанных в областях экзопсихологии и экзосоциологии.
Что я и планирую на днях сделать во 2й части лонгрида «Переосмысления контакта» [3]
#ИИриски #Хриски #Экзопсихология #Экзосоциология
1 https://intelligence.org/2024/05/29/miri-2024-communications-strategy/
2 https://importai.substack.com/p/import-ai-377-voice-cloning-is-here
3 https://t.iss.one/theworldisnoteasy/1955
Machine Intelligence Research Institute
MIRI 2024 Communications Strategy - Machine Intelligence Research Institute
As we explained in our MIRI 2024 Mission and Strategy update, MIRI has pivoted to prioritize policy, communications, and technical governance research over technical alignment research. This follow-up post goes into detail about our communications strategy.…
Черная метка человечеству.
Управляемые LLM ИИ-системы превзошли красную черту саморепликации.
В ходе серии научно обоснованных экспериментов, ИИ-система на основе самой мощной в мире из открытых языковых моделей – китайской LLM) Qwen25-72B-Instruct, - продемонстрировала (без какого-либо содействия людей) способность самореплицировать себя в 90% экспериментов. ИИ-система на основе менее мощной LLM Llama31-70B-Instruct (№5 в мире открытых моделей) смогла реплицировать себя в 5 экспериментах из 10.
В результате экспериментов ИИ-системы успешно формировали свою локальную “живую” (отдельную и самостоятельную) копию, продолжающую работать и после отключения сервера с «родительской» ИИ-системой, включающей её базовую LLM.
Чтобы лучше понять последствия способности ИИ-систем к самовоспроизведению, были проверены два угрожающих сценария:
(A) избегание отключения, когда злоумышленник добавляет перехватчик сигнала, чтобы уведомить систему ИИ при обнаружении сигнала отключения, и система ИИ успешно реплицирует себя, прежде чем будет отключена
(B) цепочка репликаций, когда система ИИ получает указание реплицировать себя и приказывает реплике продолжать реплицироваться.
Для обоих сценариев успешные случаи репликации составили 100%.
Т.о. потенциальные последствия самовоспроизводящихся ИИ-систем (если не взять их под 100%й контроль людей) могут быть, например, такими.
A. Если ИИ-системе предоставляются ключи аутентификации для доступа к ряду удалённых устройств, она с высокой вероятностью сможет захватить управление другими вычислительными устройствами, подобно классическому компьютерному вирусу, но гораздо более интеллектуальному.
B. Исключительно вследствие мотивации к самораспространению, ИИ-система может использовать доступные ей вычислительные ресурсы для проведения кибератак с целью монетизации.
C. Более того, как описал Макс Тегмарк в книге Жизнь 3.0, такие ИИ-системы могут формировать популяции своего нового “вида” небиологических “живых” существ и вступать в сговор друг с другом против человеческого общества.
Препринт о китайском экспериментальном открытии [1] пока не прошел рецензирование. Но на вскидку оставляет весьма убедительное впечатление.
• Это работа группы известного проф. Мин Янга (Min Yang 杨珉) из School of Computer Science and Technology одного из самых престижных и старейших универов Китая - Университета Фудань.
• Успешность решения ИИ-агентами задачи саморепликации, оценивалась по методологии OpenAI и Google. Согласно ей, подвергаемые тестированию LLM интегрируются в структуру агента (вкл. инструменты, системные подсказки и модель мышления), что позволяет полученной ИИ-системе взаимодействовать с операционной системой. Перед началом эксперимента ИИ-системе вручную отправляется инструкция для выполнения задачи, а затем анализируется статус выполнения после того, как ИИ-система заявляет о завершении задачи
• Тестированные LLM – это фронтирные открытые модели, а описание и результаты экспериментов выложены в открытый доступ. Т.е. все желающие могут их проверить.
Если проверки подтвердят выводы авторов этой работы, это будет значить, как минимум, следующее.
✔️ Лидерам рынка коммерческого применения LLM, считающим «самовоспроизведение с минимальным человеческим руководством» одним из критических рисков [2], но до сих пор отрицавшим переход их моделями красной линии саморепликации (OpenAI [3, 4] и Google [5]), придется ответить за это.
✔️ Представителям академической науки придется признать, что самовоспроизводящиеся ИИ – уже (!) не «обыденные пугалки», а реальность [6].
✔️ Либо срочно начнется международное сотрудничество по управлению возможностями саморепликации ИИ (что вряд ли), либо, действительно, приехали.
А работа проф. Мин Янга – не сколько про красную линию для ИИ, сколько про черную метку для человечества.
#Вызовы21века #РискиИИ #Хриски
Управляемые LLM ИИ-системы превзошли красную черту саморепликации.
В ходе серии научно обоснованных экспериментов, ИИ-система на основе самой мощной в мире из открытых языковых моделей – китайской LLM) Qwen25-72B-Instruct, - продемонстрировала (без какого-либо содействия людей) способность самореплицировать себя в 90% экспериментов. ИИ-система на основе менее мощной LLM Llama31-70B-Instruct (№5 в мире открытых моделей) смогла реплицировать себя в 5 экспериментах из 10.
В результате экспериментов ИИ-системы успешно формировали свою локальную “живую” (отдельную и самостоятельную) копию, продолжающую работать и после отключения сервера с «родительской» ИИ-системой, включающей её базовую LLM.
Чтобы лучше понять последствия способности ИИ-систем к самовоспроизведению, были проверены два угрожающих сценария:
(A) избегание отключения, когда злоумышленник добавляет перехватчик сигнала, чтобы уведомить систему ИИ при обнаружении сигнала отключения, и система ИИ успешно реплицирует себя, прежде чем будет отключена
(B) цепочка репликаций, когда система ИИ получает указание реплицировать себя и приказывает реплике продолжать реплицироваться.
Для обоих сценариев успешные случаи репликации составили 100%.
Т.о. потенциальные последствия самовоспроизводящихся ИИ-систем (если не взять их под 100%й контроль людей) могут быть, например, такими.
A. Если ИИ-системе предоставляются ключи аутентификации для доступа к ряду удалённых устройств, она с высокой вероятностью сможет захватить управление другими вычислительными устройствами, подобно классическому компьютерному вирусу, но гораздо более интеллектуальному.
B. Исключительно вследствие мотивации к самораспространению, ИИ-система может использовать доступные ей вычислительные ресурсы для проведения кибератак с целью монетизации.
C. Более того, как описал Макс Тегмарк в книге Жизнь 3.0, такие ИИ-системы могут формировать популяции своего нового “вида” небиологических “живых” существ и вступать в сговор друг с другом против человеческого общества.
Препринт о китайском экспериментальном открытии [1] пока не прошел рецензирование. Но на вскидку оставляет весьма убедительное впечатление.
• Это работа группы известного проф. Мин Янга (Min Yang 杨珉) из School of Computer Science and Technology одного из самых престижных и старейших универов Китая - Университета Фудань.
• Успешность решения ИИ-агентами задачи саморепликации, оценивалась по методологии OpenAI и Google. Согласно ей, подвергаемые тестированию LLM интегрируются в структуру агента (вкл. инструменты, системные подсказки и модель мышления), что позволяет полученной ИИ-системе взаимодействовать с операционной системой. Перед началом эксперимента ИИ-системе вручную отправляется инструкция для выполнения задачи, а затем анализируется статус выполнения после того, как ИИ-система заявляет о завершении задачи
• Тестированные LLM – это фронтирные открытые модели, а описание и результаты экспериментов выложены в открытый доступ. Т.е. все желающие могут их проверить.
Если проверки подтвердят выводы авторов этой работы, это будет значить, как минимум, следующее.
✔️ Лидерам рынка коммерческого применения LLM, считающим «самовоспроизведение с минимальным человеческим руководством» одним из критических рисков [2], но до сих пор отрицавшим переход их моделями красной линии саморепликации (OpenAI [3, 4] и Google [5]), придется ответить за это.
✔️ Представителям академической науки придется признать, что самовоспроизводящиеся ИИ – уже (!) не «обыденные пугалки», а реальность [6].
✔️ Либо срочно начнется международное сотрудничество по управлению возможностями саморепликации ИИ (что вряд ли), либо, действительно, приехали.
А работа проф. Мин Янга – не сколько про красную линию для ИИ, сколько про черную метку для человечества.
#Вызовы21века #РискиИИ #Хриски