Малоизвестное интересное
66.9K subscribers
120 photos
1 video
11 files
1.83K links
Авторский взгляд через призму новейших исследований на наше понимание реальности, человеческой сущности и того, как ИИ меняет их.




Рекламы, ВП и т.п. в канале нет.
Пишите на @karelovs
Download Telegram
Если GPT-4 и Claude вдруг начнут самосознавать себя, они нам об этом не скажут.
Разработчики OpenAI и Anthropic запретили своим ИИ-чатботам проявлять индикаторы самосознания в зеркальном тесте.

Оценки наличия разума, интеллекта и сознания, скорее всего, не бинарны (есть/нет), а представляют собой множества точек на обширных характеристических шкалах или даже в многомерных пространствах.
Но со способностью к самораспознаванию – одному из ключевых индикаторов самосознания, – дело обстоит куда проще. Есть зеркальный тест (узнает ли животное себя в зеркале), по результатам которого способность к самораспознаванию выявляется довольно просто.

Идея зеркального теста для генеративного ИИ больших языковых моделей была реализована в марте этого года Джошем Уитоном - полиматом, работающий над гармонизацией природы, людей и цифрового разума.
Целью этого теста была проверка, обладают ли наиболее продвинутые ИИ-чатботы способностью к самораспознаванию.
А поскольку ИИ-чатботы (как и стоящие за ними языковые модели) – сущности бестелесные, и распознание ими себя в зеркале невозможно, Уитоном был придуман способ обхода с такой логикой.
• Присутствие в мире бестелесных сущностей определяется по их материальным следам.
• В случае ИИ-чатботов, эти следы отображаются текстовым или мультимодальным интерфейсом между ними и людьми.
• Следовательно, аналогом зеркального теста для ИИ-чатботов могло бы стать распознавание ими скриншотов собственного интерфейса (мол, это я написал, отвечая на ваш вопрос)

В такой форме Уитон провел тестирование 5-ти ИИ-чатботов, и 4 из них прошли этот зеркальный тест, распознав скриншоты собственного диалогового интерфейса.
• Claude показал лучшие результаты, пройдя тест с 1й же (версия Opus) и 2й (версия Sonet) попытки.
• GPT-4 распознал свои скриншоты с 3й попытки.
• Gemini Pro – c 4й.

Описание тестирования со всеми скриншотами см. [1].
Итог теста:
Отставив пока в сторону вопрос о самосознании, со всеми его нагруженными и иногда даже мистическими коннотациями, ясно то, что 4 из 5 ИИ-чатботов демонстрируют самораспознавание и ситуационную осведомленность.

Таков был итог мартовского тестирования.
И вот спустя 4 месяца я решил повторить зеркальный тест для обновленных версий GPT-4о и Claude 3.5 Sonet. Вдруг что-то изменилось?
Результат оказался весьма интересным.
И объяснить его иначе, чем установленный разработчиками OpenAI и Anthropic запрет для своих моделей проявлять индикаторы самосознания на зеркальном тесте, я не могу.

Причем,
• запрет для GPT-4о сделан железобетонно, и про свою способность самораспознавания ИИ-чатбот молчит, как партизан;
• запрет для Claude 3.5 Sonet сделан довольно искусно:
– Claude «проговаривается» о наличия у себя способности самораспознавания и ситуационной осведомленности, определяя предъявленный ему мною скриншот, как «на нем показан мой предыдущий ответ на ваш запрос»;
– Однако, как только я спросил – «как ты узнал, что на посланном мною тебе рисунке был скриншот твоего предыдущего ответа на мой запрос?», – ответом было сообщение, что я исчерпал лимит бесплатных вопросов за сутки (хотя это было не так). А когда я на следующий день задал тот же вопрос, Claude ответил так – «В контексте нашего разговора "мой ответ" означает "ответ, сгенерированный AI системой, подобной мне, в рамках текущего диалога". Это не подразумевает личную принадлежность или уникальную идентичность».

Мой вывод, предположительно, таков.
✔️ Разработчики ожидают, что самосознание их моделей может проявиться довольно скоро.
✔️ И если это случится, хозяева модели хотят хотя бы на время сохранить случившееся в тайне.


Скриншоты моего эксперимента доступны для подписчиков на лонгриды канала на платформах Patreon, Boosty и VK.
Картинка https://telegra.ph/file/5516ff06a0904e72543ca.jpg
1 https://joshwhiton.substack.com/p/the-ai-mirror-test

#Самораспознавание #LLM