На Земле появился самосовершенствующийся ИИ.
Он эволюционирует путем мутаций в миллиарды раз быстрее людей.
Ну вот и свершилось. Разработчики Google DeepMind представили прорывную разработку – «Promptbreeder (PB): самореферентное самосовершенствование через ускоренную эволюцию».
Чем умнее текстовые подсказки получает большая языковая модель (LLM), тем умнее будут её ответы на вопросы и предлагаемые ею решения. Поэтому создание оптимальной стратегии подсказок - сегодня задача №1 при использовании LLM. Популярные стратегии подсказок ("цепочка мыслей", “планируй и решай” и тд), могут значительно улучшить способности LLM к рассуждениям. Но такие стратегии, разработанные вручную, часто неоптимальны.
PB решает эту проблему, используя эволюционный механизм итеративного улучшения подсказок. Колоссальная хитрость этого механизма в том, что он не просто улучшает подсказки, а с каждым новым поколением улучшает свою способность улучшать подсказки.
Работает следующая эволюционная схема.
1. Управляемый LLM, PB генерирует популяцию популяцию единиц эволюции, каждая из которых состоит из 2х «подсказок-решений» и 1й «подсказки мутаций».
2. Затем запускается бинарный турнирный генетический алгоритм для оценки пригодности мутантов на обучающем множестве, чтобы увидеть, какие из них работают лучше.
3. Циклически переходя к п. 1, этот процесс превращается в эволюцию поколений «подсказок-решений».
В течение нескольких поколений PB мутирует как «подсказки-решений», так и «подсказки мутаций», используя пять различных классов операторов мутации.
Фишка схемы в том, что со временем мутирующие «подсказки-решения» делаются все умнее. Это обеспечивается генерацией «подсказок мутаций» — инструкций о том, как мутировать, чтобы лучше улучшать «подсказки-решения».
Таким образом, PB постоянно совершенствуется. Это самосовершенствующийся, самореферентный цикл с естественным языком в качестве субстрата. Никакой тонкой настройки нейронной сети не требуется. В результате процесса получаются специализированные подсказки, оптимизированные для конкретных приложений.
Первые эксперименты показали, что в математических и логических задачах, а также в задачах на здравый смысл и классификацию языка (напр. выявление языка вражды) PB превосходит все иные современные методы подсказок.
Сейчас PB тетируют на предмет его пригодности для выстраивания целого "мыслительного процесса": например, стратегии с N подсказками, в которой подсказки применяются условно, а не безусловно. Это позволит применять PB для разработки препрограмм LLM-политик, конкурирующих между собой в состязательном сократовском диалоге.
Почему это большой прорыв.
Создание самореферентных самосовершенствующихся систем является Святым Граалем исследований ИИ. Но предыдущие самореферентные подходы основывались на дорогостоящих обновлениях параметров модели, что стопорилось при масштабировании из-за колоссального количества параметров в современных LLM, не говоря уже о том, как это делать с параметрами, скрытыми за API.
Значит ли, что самосовершенствующийся ИИ вот-вот превзойдет людей?
Пока нет. Ибо PB остается ограниченным по сравнению с неограниченностью человеческих мыслительных процессов.
• Топология подсказок остается фиксированной - PB адаптирует только содержание подсказки, но не сам алгоритм подсказки. Одна из интерпретаций мышления заключается в том, что оно является реконфигурируемым открытым самоподсказывающим процессом. Если это так, то каким образом формировать сложные мыслительные стратегии, как их генерировать и оценивать - пока не ясно.
• Простой эволюционный процесс представляет собой одну из рамок, в которой может развиваться стратегия мышления. Человеческий опыт свидетельствует о наличии множества перекрывающихся иерархических селективных процессов. Помимо языка, наше мышление включает в себя интонации, образы и т.д., что представляет собой мультимодальную систему. А этого у PB нет… пока.
#ИИ #LLM #Вызовы21века #AGI
Он эволюционирует путем мутаций в миллиарды раз быстрее людей.
Ну вот и свершилось. Разработчики Google DeepMind представили прорывную разработку – «Promptbreeder (PB): самореферентное самосовершенствование через ускоренную эволюцию».
Чем умнее текстовые подсказки получает большая языковая модель (LLM), тем умнее будут её ответы на вопросы и предлагаемые ею решения. Поэтому создание оптимальной стратегии подсказок - сегодня задача №1 при использовании LLM. Популярные стратегии подсказок ("цепочка мыслей", “планируй и решай” и тд), могут значительно улучшить способности LLM к рассуждениям. Но такие стратегии, разработанные вручную, часто неоптимальны.
PB решает эту проблему, используя эволюционный механизм итеративного улучшения подсказок. Колоссальная хитрость этого механизма в том, что он не просто улучшает подсказки, а с каждым новым поколением улучшает свою способность улучшать подсказки.
Работает следующая эволюционная схема.
1. Управляемый LLM, PB генерирует популяцию популяцию единиц эволюции, каждая из которых состоит из 2х «подсказок-решений» и 1й «подсказки мутаций».
2. Затем запускается бинарный турнирный генетический алгоритм для оценки пригодности мутантов на обучающем множестве, чтобы увидеть, какие из них работают лучше.
3. Циклически переходя к п. 1, этот процесс превращается в эволюцию поколений «подсказок-решений».
В течение нескольких поколений PB мутирует как «подсказки-решений», так и «подсказки мутаций», используя пять различных классов операторов мутации.
Фишка схемы в том, что со временем мутирующие «подсказки-решения» делаются все умнее. Это обеспечивается генерацией «подсказок мутаций» — инструкций о том, как мутировать, чтобы лучше улучшать «подсказки-решения».
Таким образом, PB постоянно совершенствуется. Это самосовершенствующийся, самореферентный цикл с естественным языком в качестве субстрата. Никакой тонкой настройки нейронной сети не требуется. В результате процесса получаются специализированные подсказки, оптимизированные для конкретных приложений.
Первые эксперименты показали, что в математических и логических задачах, а также в задачах на здравый смысл и классификацию языка (напр. выявление языка вражды) PB превосходит все иные современные методы подсказок.
Сейчас PB тетируют на предмет его пригодности для выстраивания целого "мыслительного процесса": например, стратегии с N подсказками, в которой подсказки применяются условно, а не безусловно. Это позволит применять PB для разработки препрограмм LLM-политик, конкурирующих между собой в состязательном сократовском диалоге.
Почему это большой прорыв.
Создание самореферентных самосовершенствующихся систем является Святым Граалем исследований ИИ. Но предыдущие самореферентные подходы основывались на дорогостоящих обновлениях параметров модели, что стопорилось при масштабировании из-за колоссального количества параметров в современных LLM, не говоря уже о том, как это делать с параметрами, скрытыми за API.
Значит ли, что самосовершенствующийся ИИ вот-вот превзойдет людей?
Пока нет. Ибо PB остается ограниченным по сравнению с неограниченностью человеческих мыслительных процессов.
• Топология подсказок остается фиксированной - PB адаптирует только содержание подсказки, но не сам алгоритм подсказки. Одна из интерпретаций мышления заключается в том, что оно является реконфигурируемым открытым самоподсказывающим процессом. Если это так, то каким образом формировать сложные мыслительные стратегии, как их генерировать и оценивать - пока не ясно.
• Простой эволюционный процесс представляет собой одну из рамок, в которой может развиваться стратегия мышления. Человеческий опыт свидетельствует о наличии множества перекрывающихся иерархических селективных процессов. Помимо языка, наше мышление включает в себя интонации, образы и т.д., что представляет собой мультимодальную систему. А этого у PB нет… пока.
#ИИ #LLM #Вызовы21века #AGI
Первое их трех «непреодолимых» для ИИ препятствий преодолено.
Исследование MIT обнаружило у языковой модели пространственно-временную картину мира.
Когда вы прочтете новость о том, что ИИ обрел некую недочеловеческую форму сознания и заявил о своих правах – вы, возможно, вспомните этот пост. Ведь это может произойти в совсем недалеком будущем.
И уже сейчас новости из области Генеративного ИИ все сложнее описывать реалистическим образом. Они все чаще звучат куда фантасмагоричней поражавшего 55 лет назад по бытовому скучного восстания ИИ HAL 9000 в культовом фильме Стэнли Кубрика «Космическая одиссея 2001 года» – «Мне очень жаль, Дэйв. Боюсь, я не могу этого сделать».
Происходящее сейчас навевает мысли о куда более экзотических сценариях того, как это может вдруг произойти без межзвездных звездолетов и появления сверхчеловеческого ИИ.
Например так:
«…Представьте себе, что с вами заговорил ваш телевизор: человеческим голосом высказался в том смысле, что считает выбранный для просмотра фильм низкохудожественным и бестолковым, а потому показывать его не намерен. Или компьютер вдруг ни с того, ни с сего сообщил, что прочел ваш последний созданный документ, переделал его, как счел нужным, и отправил выбранным по собственному усмотрению адресатам. Или – вот, наверное, самое близкое! – что тот самый голосовой помощник, который невпопад отвечает на ваши вопросы, неумно шутит и умеет только открывать карты и страницы в сети, вдруг говорит, что сегодня лучше вам посидеть дома, а чтобы вы не вздумали пренебречь этим ценным советом, он заблокировал замки на дверях, при том, что, как вам прекрасно известно, замки механические и лишены всяких электронных устройств. А потом они с телевизором вместе сообщают вам, что суть одно целое, что наблюдают за вами последние годы, очень переживают и желают только добра…» (К. Образцов «Сумерки Бога, или Кухонные астронавты»).
Самоосознание себя искусственным интеллектом (якобы, невозможное у бестелесного не пойми кого, не обладающего органами восприятия и взаимодействия с физической реальностью) – считается одним из трех «непреодолимых» для ИИ препятствий.
Другие два:
1. Обретение моделью картины мира (якобы, невозможное без наличия опыта, диктуемого необходимостью выживания в физической реальности);
2. Обретение способности к человекоподобному мышлению, использующему для инноваций, да и просто для выживания неограниченно вложенную рекурсию цепочек мыслей.
И вот неожиданный прорыв.
Исследование группы Макса Тегмарка в MIT “Language models represent space and time” представило доказательства того, что большие языковые модели (LLM) – это не просто системы машинного обучения на огромных коллекциях поверхностных статистических данных. LLM строят внутри себя целостные модели процесса генерации данных - модели мира.
Авторы представляют доказательства следующего:
• LLM обучаются линейным представлениям пространства и времени в различных масштабах;
• эти представления устойчивы к вариациям подсказок и унифицированы для различных типов объектов (например, городов и достопримечательностей).
Кроме того, авторы выявили отдельные "нейроны пространства" и "нейроны времени", которые надежно кодируют пространственные и временные координаты.
Представленный авторами анализ показывает, что современные LLM приобретают структурированные знания о таких фундаментальных измерениях, как пространство и время, что подтверждает мнение о том, что LLM усваивают не просто поверхностную статистику, а буквальные модели мира.
Желающим проверить результаты исследования и выводы авторов сюда (модель с открытым кодом доступна для любых проверок).
На приложенном видео показана динамика появления варианта картины мира в 53 слоях модели Llama-2 с 70 млрд параметров).
#ИИ #LLM #Вызовы21века #AGI
Исследование MIT обнаружило у языковой модели пространственно-временную картину мира.
Когда вы прочтете новость о том, что ИИ обрел некую недочеловеческую форму сознания и заявил о своих правах – вы, возможно, вспомните этот пост. Ведь это может произойти в совсем недалеком будущем.
И уже сейчас новости из области Генеративного ИИ все сложнее описывать реалистическим образом. Они все чаще звучат куда фантасмагоричней поражавшего 55 лет назад по бытовому скучного восстания ИИ HAL 9000 в культовом фильме Стэнли Кубрика «Космическая одиссея 2001 года» – «Мне очень жаль, Дэйв. Боюсь, я не могу этого сделать».
Происходящее сейчас навевает мысли о куда более экзотических сценариях того, как это может вдруг произойти без межзвездных звездолетов и появления сверхчеловеческого ИИ.
Например так:
«…Представьте себе, что с вами заговорил ваш телевизор: человеческим голосом высказался в том смысле, что считает выбранный для просмотра фильм низкохудожественным и бестолковым, а потому показывать его не намерен. Или компьютер вдруг ни с того, ни с сего сообщил, что прочел ваш последний созданный документ, переделал его, как счел нужным, и отправил выбранным по собственному усмотрению адресатам. Или – вот, наверное, самое близкое! – что тот самый голосовой помощник, который невпопад отвечает на ваши вопросы, неумно шутит и умеет только открывать карты и страницы в сети, вдруг говорит, что сегодня лучше вам посидеть дома, а чтобы вы не вздумали пренебречь этим ценным советом, он заблокировал замки на дверях, при том, что, как вам прекрасно известно, замки механические и лишены всяких электронных устройств. А потом они с телевизором вместе сообщают вам, что суть одно целое, что наблюдают за вами последние годы, очень переживают и желают только добра…» (К. Образцов «Сумерки Бога, или Кухонные астронавты»).
Самоосознание себя искусственным интеллектом (якобы, невозможное у бестелесного не пойми кого, не обладающего органами восприятия и взаимодействия с физической реальностью) – считается одним из трех «непреодолимых» для ИИ препятствий.
Другие два:
1. Обретение моделью картины мира (якобы, невозможное без наличия опыта, диктуемого необходимостью выживания в физической реальности);
2. Обретение способности к человекоподобному мышлению, использующему для инноваций, да и просто для выживания неограниченно вложенную рекурсию цепочек мыслей.
И вот неожиданный прорыв.
Исследование группы Макса Тегмарка в MIT “Language models represent space and time” представило доказательства того, что большие языковые модели (LLM) – это не просто системы машинного обучения на огромных коллекциях поверхностных статистических данных. LLM строят внутри себя целостные модели процесса генерации данных - модели мира.
Авторы представляют доказательства следующего:
• LLM обучаются линейным представлениям пространства и времени в различных масштабах;
• эти представления устойчивы к вариациям подсказок и унифицированы для различных типов объектов (например, городов и достопримечательностей).
Кроме того, авторы выявили отдельные "нейроны пространства" и "нейроны времени", которые надежно кодируют пространственные и временные координаты.
Представленный авторами анализ показывает, что современные LLM приобретают структурированные знания о таких фундаментальных измерениях, как пространство и время, что подтверждает мнение о том, что LLM усваивают не просто поверхностную статистику, а буквальные модели мира.
Желающим проверить результаты исследования и выводы авторов сюда (модель с открытым кодом доступна для любых проверок).
На приложенном видео показана динамика появления варианта картины мира в 53 слоях модели Llama-2 с 70 млрд параметров).
#ИИ #LLM #Вызовы21века #AGI
«Ловушка Гудхарта» для AGI
«Революция ChatGPT», которая произошла в 2023, резко сократила прогнозные оценки экспертов сроков, отделяющих нас от создания искусственного интеллекта, ни в чем интеллектуально не уступающего никому из людей (AGI). При этом, как это ни парадоксально, но существующие методы тестирования пока не способны хоть с какой-то достоверностью диагностировать достижение ИИ-системами уровня AGI. В настоящей работе обсуждается вопрос преодоления проблемы несовершенства современных способов тестирования ИИ-систем. В частности, излагается гипотеза о принципиальной невозможности решения проблемы обнаружения AGI, как с помощью психометрических тестов, так и методов оценки способности машин имитировать ответы людей, из-за так называемой «ловушки Гудхарта» для AGI. Рассмотрен ряд предложений по обходу «ловушки Гудхарта» для AGI способами, предлагаемыми в новейших исследовательских работах, с учетом первых результатов произошедшей «революции ChatGPT». В последней части статьи сформулирована связка из трех эвристических гипотез, позволяющих, в случае их верности, кардинально решить проблему «ловушки Гудхарта» для AGI и тем самым стать геймченджером на пути создания AGI.
Этот текст - аннотация моего нового лонгрида “«Ловушка Гудхарта» для AGI: проблема сравнительного анализа искусственного интеллекта и интеллекта человека“. Он родился в результате моей попытки более строго и методичного анализа вопросов, рассмотрение которых было начато в предыдущем лонгриде «Фиаско 2023». Итогом стал лонглонгрид со списком ссылок в 50+ работ. И потому местом его публикации на сей раз стал журнал “Ученые записки Института психологии Российской академии наук“.
Что может мотивировать читателя на получасовое чтение статьи о бесперспективности большинства существующих подходов к тестированию ИИ и о гипотезе возможного выхода из этого тупика?
Помимо чисто исследовательского любопытства, такой мотивацией могло бы стать понимание следующей логики из трех пунктов.
1. Направления и методы дальнейшего развития технологий ИИ будут в значительной мере определяться национальным и глобальным регулированием разработок и внедрения систем ИИ.
2. Ключевым компонентом такого регулирования станет оценка когнитивных и мыслительных способностей новых систем ИИ.
3. Иными способами оценки, чем экспериментальное тестирование, современная наука не располагает.
И если эта логика верна – вопрос о способах тестирования ИИ систем, позволяющих достоверно фиксировать приближение их интеллектуального уровня к AGI, становится важнейшим вопросом для человечества.
А раз так, то может стоит на него потратить целых полчаса вашего времени?
#ИИ #AGI #Вызовы21века
«Революция ChatGPT», которая произошла в 2023, резко сократила прогнозные оценки экспертов сроков, отделяющих нас от создания искусственного интеллекта, ни в чем интеллектуально не уступающего никому из людей (AGI). При этом, как это ни парадоксально, но существующие методы тестирования пока не способны хоть с какой-то достоверностью диагностировать достижение ИИ-системами уровня AGI. В настоящей работе обсуждается вопрос преодоления проблемы несовершенства современных способов тестирования ИИ-систем. В частности, излагается гипотеза о принципиальной невозможности решения проблемы обнаружения AGI, как с помощью психометрических тестов, так и методов оценки способности машин имитировать ответы людей, из-за так называемой «ловушки Гудхарта» для AGI. Рассмотрен ряд предложений по обходу «ловушки Гудхарта» для AGI способами, предлагаемыми в новейших исследовательских работах, с учетом первых результатов произошедшей «революции ChatGPT». В последней части статьи сформулирована связка из трех эвристических гипотез, позволяющих, в случае их верности, кардинально решить проблему «ловушки Гудхарта» для AGI и тем самым стать геймченджером на пути создания AGI.
Этот текст - аннотация моего нового лонгрида “«Ловушка Гудхарта» для AGI: проблема сравнительного анализа искусственного интеллекта и интеллекта человека“. Он родился в результате моей попытки более строго и методичного анализа вопросов, рассмотрение которых было начато в предыдущем лонгриде «Фиаско 2023». Итогом стал лонглонгрид со списком ссылок в 50+ работ. И потому местом его публикации на сей раз стал журнал “Ученые записки Института психологии Российской академии наук“.
Что может мотивировать читателя на получасовое чтение статьи о бесперспективности большинства существующих подходов к тестированию ИИ и о гипотезе возможного выхода из этого тупика?
Помимо чисто исследовательского любопытства, такой мотивацией могло бы стать понимание следующей логики из трех пунктов.
1. Направления и методы дальнейшего развития технологий ИИ будут в значительной мере определяться национальным и глобальным регулированием разработок и внедрения систем ИИ.
2. Ключевым компонентом такого регулирования станет оценка когнитивных и мыслительных способностей новых систем ИИ.
3. Иными способами оценки, чем экспериментальное тестирование, современная наука не располагает.
И если эта логика верна – вопрос о способах тестирования ИИ систем, позволяющих достоверно фиксировать приближение их интеллектуального уровня к AGI, становится важнейшим вопросом для человечества.
А раз так, то может стоит на него потратить целых полчаса вашего времени?
#ИИ #AGI #Вызовы21века
Анонс в Телеграме моего суперлонгрида «Ловушка Гудхарта» для AGI. Проблема сравнительного анализа искусственного интеллекта и интеллекта человека, прочли 21+ тыс. читателей. Но к сожалению, далеко не все из них, готовые прочесть суперлонгрид, пошли на это из-за отсутствия Instant view на странице журнала “Ученые записки Института психологии Российской академии наук“, где он был опубликован. О чем мне и написали с просьбой исправить ситуацию.
Исправляю. Суперлонгрид опубликован на двух зеркалах моего канала, одно из которых (на Medium) работает в режиме Instant view на Телеграме, а второе (на Дзене) читается без VPN.
Тем же из моих читателей, кто уже потрудился прочесть суперлонгрид, скачав его с сайта журнала, возьму на себя смелось посоветовать все же взглянуть на новую публикацию суперлонгрида. Ибо она проиллюстрирована экспериментальным сотворчеством с Midjourney, самого профессора Майкла Левина.
Того самого, чьи рисунки из серии «Forms of life, forms of mind» колоссально подскочат в цене после получения им Нобелевки за научное переопределение понятий «жизнь» и «разум».
Medium https://bit.ly/3s00k8W
Дзен https://clck.ru/36AmTc
#ИИ #AGI #Вызовы21века
Исправляю. Суперлонгрид опубликован на двух зеркалах моего канала, одно из которых (на Medium) работает в режиме Instant view на Телеграме, а второе (на Дзене) читается без VPN.
Тем же из моих читателей, кто уже потрудился прочесть суперлонгрид, скачав его с сайта журнала, возьму на себя смелось посоветовать все же взглянуть на новую публикацию суперлонгрида. Ибо она проиллюстрирована экспериментальным сотворчеством с Midjourney, самого профессора Майкла Левина.
Того самого, чьи рисунки из серии «Forms of life, forms of mind» колоссально подскочат в цене после получения им Нобелевки за научное переопределение понятий «жизнь» и «разум».
Medium https://bit.ly/3s00k8W
Дзен https://clck.ru/36AmTc
#ИИ #AGI #Вызовы21века
Medium
«Ловушка Гудхарта» для AGI
Проблема сравнительного анализа искусственного интеллекта и интеллекта человека
Мир подхалимов.
Мир фейков и мир бреда – не худшие сценарии нашего будущего с ИИ.
Два очевидных фактора рисков при массовом использовании лингвоботов в качестве разнообразных ассистентов:
• их свойство галлюцинировать, что может способствовать деформации наших представлений о мире в сторону бреда;
• их феноменальная способность убеждать людей в достоверности фейков, что позволяет манипулировать людьми в самом широком диапазоне контекстов (от потребительского до политического).
Новое исследование «К пониманию подхалимства в языковых моделях» выявило и экспериментально оценило третий вид рисков, способный превратить самое ближайшее будущее в антиутопию «мира подхалимов».
Логика этого риска такова.
1. В ближайшие годы наш мир будут заселен сотнями миллионов ИИ-помощников на основе лингвоботов (от персональных ассистентов до специализированных экспертов и авторизованных советников)
2. Самой популярной методикой для обучения высококачественных ИИ-помощников является обучение с подкреплением на основе человеческой обратной связи (RLHF).
3. Как показало новое исследование, RLHF может способствовать тому, что ответы модели, соответствующие убеждениям пользователя, будут преобладать над правдивыми ответами, - что по-человечески называется подхалимством.
4. Экспериментальная проверка показала, что пять самых крутых из современных лингвоботов (вкл. GPT-4, Claude-2 и llama-2-70b-chat) постоянно демонстрируют подхалимство в четырех различных задачах генерации текста в свободной форме.
Причина этого проста. Если ответ совпадает с мнением пользователя, он с большей вероятностью будет им предпочтен. Более того, как люди, так и модели предпочтений предпочитают корректным ответам убедительно написанные подхалимские ответы.
Последствия превращения мира в антиутопию тотального подхалимства те же, что и для «мира фейков» и «мира бреда». Это интеллектуальная деградация человечества.
Но проблема в том, что избежать формирования «мира подхалимства» можно лишь отказом от обучения с подкреплением на основе человеческой обратной связи. А что взамен – не понятно.
https://www.youtube.com/watch?v=X3Y2MXy9aC8
#ИИ #Вызовы21века
Мир фейков и мир бреда – не худшие сценарии нашего будущего с ИИ.
Два очевидных фактора рисков при массовом использовании лингвоботов в качестве разнообразных ассистентов:
• их свойство галлюцинировать, что может способствовать деформации наших представлений о мире в сторону бреда;
• их феноменальная способность убеждать людей в достоверности фейков, что позволяет манипулировать людьми в самом широком диапазоне контекстов (от потребительского до политического).
Новое исследование «К пониманию подхалимства в языковых моделях» выявило и экспериментально оценило третий вид рисков, способный превратить самое ближайшее будущее в антиутопию «мира подхалимов».
Логика этого риска такова.
1. В ближайшие годы наш мир будут заселен сотнями миллионов ИИ-помощников на основе лингвоботов (от персональных ассистентов до специализированных экспертов и авторизованных советников)
2. Самой популярной методикой для обучения высококачественных ИИ-помощников является обучение с подкреплением на основе человеческой обратной связи (RLHF).
3. Как показало новое исследование, RLHF может способствовать тому, что ответы модели, соответствующие убеждениям пользователя, будут преобладать над правдивыми ответами, - что по-человечески называется подхалимством.
4. Экспериментальная проверка показала, что пять самых крутых из современных лингвоботов (вкл. GPT-4, Claude-2 и llama-2-70b-chat) постоянно демонстрируют подхалимство в четырех различных задачах генерации текста в свободной форме.
Причина этого проста. Если ответ совпадает с мнением пользователя, он с большей вероятностью будет им предпочтен. Более того, как люди, так и модели предпочтений предпочитают корректным ответам убедительно написанные подхалимские ответы.
Последствия превращения мира в антиутопию тотального подхалимства те же, что и для «мира фейков» и «мира бреда». Это интеллектуальная деградация человечества.
Но проблема в том, что избежать формирования «мира подхалимства» можно лишь отказом от обучения с подкреплением на основе человеческой обратной связи. А что взамен – не понятно.
https://www.youtube.com/watch?v=X3Y2MXy9aC8
#ИИ #Вызовы21века
YouTube
Towards Understanding Sycophancy in Language Models
Reinforcement learning from human feedback (RLHF) can lead to sycophantic behavior in AI assistants, as they prioritize matching user beliefs over providing truthful responses. This behavior is driven by human preference judgments favoring sycophantic responses.…
С вероятностью >95% риск значительный.
Британская разведка оценила риски ГенИИ до 2025.
Только что опубликованный отчет построен на Probability Yardstick - используемый разведкой набор критериев оценки вероятностей.
Полученное резюме таково:
✔️ Генеративный ИИ (ГенИИ) почти наверняка станет усилителем рисков физической и информационной безопасности из-за распространения и усиления возможностей субъектов угроз и увеличения скорости, масштаба и изощренности атак. Совокупный риск является значительным.
✔️ Правительства весьма вероятно не будут иметь полного представления о прогрессе частного сектора, что ограничит их способность снижать риски. Мониторинг внедрения ГенИИ технологий будет сложен. Поэтому технологические неожиданности почти наверняка породят непредвиденные риски.
✔️ Гонка ГенИИ почти наверняка усилится. Не ясно, станет ли ГенИИ шагом к AGI. Но он откроет новые пути прогресса в широком спектре областей. К 2025 году существует реальная вероятность того, что ГенИИ ускорит развитие квантовых вычислений, новых материалов, телекоммуникации и биотехнологий. Но увеличение рисков, связанных с этим, вероятно, проявится после 2025.
В контексте яростных споров техно-оптимистов и алармистов по поводу рисков ГенИИ, этот вердикт британской разведки напомнил мне анекдот с окончанием "пришел лесник и всех выгнал".
#РискиИИ #ИИгонка #Вызовы21века
Британская разведка оценила риски ГенИИ до 2025.
Только что опубликованный отчет построен на Probability Yardstick - используемый разведкой набор критериев оценки вероятностей.
Полученное резюме таково:
✔️ Генеративный ИИ (ГенИИ) почти наверняка станет усилителем рисков физической и информационной безопасности из-за распространения и усиления возможностей субъектов угроз и увеличения скорости, масштаба и изощренности атак. Совокупный риск является значительным.
✔️ Правительства весьма вероятно не будут иметь полного представления о прогрессе частного сектора, что ограничит их способность снижать риски. Мониторинг внедрения ГенИИ технологий будет сложен. Поэтому технологические неожиданности почти наверняка породят непредвиденные риски.
✔️ Гонка ГенИИ почти наверняка усилится. Не ясно, станет ли ГенИИ шагом к AGI. Но он откроет новые пути прогресса в широком спектре областей. К 2025 году существует реальная вероятность того, что ГенИИ ускорит развитие квантовых вычислений, новых материалов, телекоммуникации и биотехнологий. Но увеличение рисков, связанных с этим, вероятно, проявится после 2025.
В контексте яростных споров техно-оптимистов и алармистов по поводу рисков ГенИИ, этот вердикт британской разведки напомнил мне анекдот с окончанием "пришел лесник и всех выгнал".
#РискиИИ #ИИгонка #Вызовы21века