Провёл вряд ли интересный для общества, но любопытный для себя эксперимент: попробовал вайб-кодинг. Давно хотел переделать сайт, а тут ещё и наш институтский сервер начал постоянно зависать, так что решил, что это знак, и надо сесть сделать новый, а заодно и хостинг ему купить. Казалось, что веб-сайт — это идеальная штука для вайб-кодинга.
Новый Codex мне OpenAI пока не завёз, так что я просто разговаривал с o4-mini-high; у нас получился невероятно длинный чат о проекте, тьфу-тьфу, контекст пока не заканчивается. Я решил не мелочиться и сделать всё по уму: на актуальных технологиях, чтобы и красивенько, и wordpress-блог был бы на том же сайте, и свой домен, и всё такое прочее.
Спросил LLM, как этого добиться, и получил набор совершенно незнакомых слов: next.js, strapi, graphql, tailwind, traefik, mariadb, vercel, timeweb... Свой текущий сайт я писал 10 лет назад на чистом javascript, так что это был очень, очень чистый эксперимент, я и docker-то раньше запускал буквально пару раз в жизни.)
Выводы у меня такие:
— понимать происходящее в основном всё-таки надо; если бездумно копировать туда-сюда ошибки и исправления, можно и в цикл войти, и сломать что-то другое, и внезапно оказаться в процессе переезда на другую версию чего-нибудь, которая тебе совершенно не нужна; в целом, если фикс от LLM с первого, максимум второго раза не работает, лучше остановиться и подумать самому, это будет эффективнее;
— но прелесть в том, что LLM не просто пишет код, а объясняет тебе всё происходящее, понятно и на твоём конкретном примере; а когда ломается, объясняет все эти cryptic error messages, предлагает варианты, и эти варианты тоже многое объясняют;
— а уж чего-чего, а cryptic error messages в такой фронтенд-работе очень много! это, наверное, главный пункт экономии времени: LLM сразу понимает, что могло пойти не так, в том числе в случаях, когда самому гуглить было бы реально сложно; никакой магии, конечно, если ты просто видишь 404 и не понимаешь почему, вариантов может быть много, и разбираться в них придётся, но этот процесс всё равно сильно ускоряется;
— полезно спросить LLM и перед тем, как принимать архитектурные решения; если попросить "напиши мне X", LLM постарается, но лучше сначала спросить "какие есть способы достичь цели Y", может оказаться, что X не лучший вариант; заодно и узнаешь о других вариантах, что тоже полезно для понимания;
— в итоге за два-три вечера я, кажется, реально подразобрался, что в этом стеке происходит и как всё это в целом работает; без LLM я и сейчас всё равно долго бы гуглил, как сделать каждое новое изменение, но скорость процесса меня очень порадовала; думаю, мне бы понадобилось в несколько раз больше времени, чтобы прийти к тому же самому (пусть невысокому) уровню понимания через чтение документации.
Так что прямо сейчас, кажется, sweet spot для vibe coding: всё ещё нужно разбираться в происходящем, и ты не бездумной прокладкой работаешь, но LLM уже реально быстро и эффективно учит тебя и заодно приводит к результату. Интересующимся рекомендую пробовать, а для не-интересующихся предсказываю, что очень скоро на уровне "сделать сайт на стандартном стеке" вообще никакого кодинга будет не нужно, хоть бы и вайб.
Прилагаю несколько скринов из разговора с o4-mini-high, а про сам сайт напишу отдельно, когда там что-то будет. Пока технически всё заработало, но контентом ещё наполнять и наполнять, да и подумать ещё надо о том, что я там хочу видеть.
Новый Codex мне OpenAI пока не завёз, так что я просто разговаривал с o4-mini-high; у нас получился невероятно длинный чат о проекте, тьфу-тьфу, контекст пока не заканчивается. Я решил не мелочиться и сделать всё по уму: на актуальных технологиях, чтобы и красивенько, и wordpress-блог был бы на том же сайте, и свой домен, и всё такое прочее.
Спросил LLM, как этого добиться, и получил набор совершенно незнакомых слов: next.js, strapi, graphql, tailwind, traefik, mariadb, vercel, timeweb... Свой текущий сайт я писал 10 лет назад на чистом javascript, так что это был очень, очень чистый эксперимент, я и docker-то раньше запускал буквально пару раз в жизни.)
Выводы у меня такие:
— понимать происходящее в основном всё-таки надо; если бездумно копировать туда-сюда ошибки и исправления, можно и в цикл войти, и сломать что-то другое, и внезапно оказаться в процессе переезда на другую версию чего-нибудь, которая тебе совершенно не нужна; в целом, если фикс от LLM с первого, максимум второго раза не работает, лучше остановиться и подумать самому, это будет эффективнее;
— но прелесть в том, что LLM не просто пишет код, а объясняет тебе всё происходящее, понятно и на твоём конкретном примере; а когда ломается, объясняет все эти cryptic error messages, предлагает варианты, и эти варианты тоже многое объясняют;
— а уж чего-чего, а cryptic error messages в такой фронтенд-работе очень много! это, наверное, главный пункт экономии времени: LLM сразу понимает, что могло пойти не так, в том числе в случаях, когда самому гуглить было бы реально сложно; никакой магии, конечно, если ты просто видишь 404 и не понимаешь почему, вариантов может быть много, и разбираться в них придётся, но этот процесс всё равно сильно ускоряется;
— полезно спросить LLM и перед тем, как принимать архитектурные решения; если попросить "напиши мне X", LLM постарается, но лучше сначала спросить "какие есть способы достичь цели Y", может оказаться, что X не лучший вариант; заодно и узнаешь о других вариантах, что тоже полезно для понимания;
— в итоге за два-три вечера я, кажется, реально подразобрался, что в этом стеке происходит и как всё это в целом работает; без LLM я и сейчас всё равно долго бы гуглил, как сделать каждое новое изменение, но скорость процесса меня очень порадовала; думаю, мне бы понадобилось в несколько раз больше времени, чтобы прийти к тому же самому (пусть невысокому) уровню понимания через чтение документации.
Так что прямо сейчас, кажется, sweet spot для vibe coding: всё ещё нужно разбираться в происходящем, и ты не бездумной прокладкой работаешь, но LLM уже реально быстро и эффективно учит тебя и заодно приводит к результату. Интересующимся рекомендую пробовать, а для не-интересующихся предсказываю, что очень скоро на уровне "сделать сайт на стандартном стеке" вообще никакого кодинга будет не нужно, хоть бы и вайб.
Прилагаю несколько скринов из разговора с o4-mini-high, а про сам сайт напишу отдельно, когда там что-то будет. Пока технически всё заработало, но контентом ещё наполнять и наполнять, да и подумать ещё надо о том, что я там хочу видеть.
👍36🔥15❤4😁1🤔1👾1
Кажется, рассказ не зашёл, вернусь к классическому пятничному посту с тремя мини-обзорами.
SANABI
Поначалу это просто платформер с пиксельной графикой. Если вы любитель такого — сразу же не проходите мимо. Главный инструмент — крюк-кошка, который, по общему мнению, делает лучше любую игру. Управление отзывчивое, арт красивый, платформинг не душный. Я играл на normal, и это было даже слишком легко: хит-пойнты восстанавливаются автоматически, и враги редко что-то могут тебе сделать, а падать в пропасти не так часто есть реальный шанс. За всю игру был ровно один босс, на котором я просидел больше десяти минут.
Сюжет выглядит очень клишированно: у папы-суперсолдата убили дочку, он мстит, встречает какую-то девушку, которая вроде бы на дочку похожа, а злая корпорация убрала абсолютно всех людей из целого города, и там таинственный Sanabi, которого надо найти и, видимо, уничтожить... Даже тот самый непростой босс — это буквально босс-вертолёт.
Так я потихоньку играл на Steam Deck в метро где-то месяц (игра часов на 10). Конечно, в таком режиме сюжет забывается, но его там почти и не было, какие-то воспоминания про дочку и девушка-хакер. И вдруг, в последней трети игры, сюжет кааак раскрылся... Не хочу спойлерить, но, в общем, хотя анимешные клише никуда не делись, на самом деле Sanabi — это интересное высказывание! Об AI, разумеется, о чём же ещё. Последние пару часов доигрывал не отрываясь; весьма рекомендую хотя бы ради сюжета, а если вы любитель ненавязчивого платформинга, то и ради геймплея.
Songs for a Hero
Стандартнейший платформер из NES-эпохи, но с твистом: главный герой комментирует свои приключения стихами, в рифму и иногда в размер, напевая их прямо голосом. Озвучено буквально всё, от начала до конца, саундтрек идёт куплетами, и все куплеты пропеты — уникальное дело, очень круто и задумано, и реализовано. Сами стихи неровные (как ты ровно напишешь семь часов стихотворного текста), но в среднем очень милые, обычно из иронической метапозиции.
Игру разрабатывали Castro Brothers, бразильский комедийный дуэт (5М подписчиков на YouTube!), так что португальский оригинал наверняка лучше, но на английском тоже неплохо звучит. С другой стороны, хотя стихи сделаны с душой и максимально разнообразны, со временем всё равно надоедает, поэтому рекомендую сессионный подход: сел на полчасика, прошёл несколько уровней, отложил. Кстати, сам платформинг очень даже компетентный, идёшь нигде не останавливаясь надолго, но и не скучая.
Русского перевода нет (любой новый язык был бы гигантским трудом), но по-русски просятся бодрые ямбы Ляписа-Трубецкого: служил Гаврила приключенцем, Гаврила монстров убивал, но чувствовал Гаврила сердцем, когда крушил за валом вал, что было что-то здесь неладно... И действительно, кроме стихов, в игре есть и другой твист, сюжетный, который я спойлерить не буду. Мне кажется, он скомканно подан: я так и не уверен, что понял, что в игре на самом деле произошло, да и бог с ним.
Главный минус в том, что игра пытается быть метроидванией, и это ей не идёт. Новые способности дают возможность попадать в новые места, по всей игре разбросаны нотки, и если собрать много ноток, то можно забраться к многочисленным секретным боссам. Но чтобы этим заниматься, надо переигрывать уровни заново... то есть опять слушать те же самые стихи с теми же интонациями. Это было уже выше моих сил. А так прекрасная игра с уникальным gimmick'ом, рекомендую.
Wheels of Aurelia
Главная героиня едет на автомобиле по Италии 1970-х, разговаривает с людьми и познаёт культуру Италии того времени, собираясь на встречу с человеком, который похитил её много лет назад. По описанию звучит гораздо интереснее, чем на самом деле: познание культуры выглядит как добавление в лог цитат из википедии (буквальных! там даже ссылки честно поставлены), а геймплея и не ожидалось, это линейная дорога с парой развилок. Зато эффективно: до концовки можно доехать минут за 15. Хотя концовок разных много, в итоге вышло идеально для мини-обзора: за полчаса получил две концовки, всё понял и уже готов не рекомендовать. Как сказали бы на Stopgame, рефанд.
SANABI
Поначалу это просто платформер с пиксельной графикой. Если вы любитель такого — сразу же не проходите мимо. Главный инструмент — крюк-кошка, который, по общему мнению, делает лучше любую игру. Управление отзывчивое, арт красивый, платформинг не душный. Я играл на normal, и это было даже слишком легко: хит-пойнты восстанавливаются автоматически, и враги редко что-то могут тебе сделать, а падать в пропасти не так часто есть реальный шанс. За всю игру был ровно один босс, на котором я просидел больше десяти минут.
Сюжет выглядит очень клишированно: у папы-суперсолдата убили дочку, он мстит, встречает какую-то девушку, которая вроде бы на дочку похожа, а злая корпорация убрала абсолютно всех людей из целого города, и там таинственный Sanabi, которого надо найти и, видимо, уничтожить... Даже тот самый непростой босс — это буквально босс-вертолёт.
Так я потихоньку играл на Steam Deck в метро где-то месяц (игра часов на 10). Конечно, в таком режиме сюжет забывается, но его там почти и не было, какие-то воспоминания про дочку и девушка-хакер. И вдруг, в последней трети игры, сюжет кааак раскрылся... Не хочу спойлерить, но, в общем, хотя анимешные клише никуда не делись, на самом деле Sanabi — это интересное высказывание! Об AI, разумеется, о чём же ещё. Последние пару часов доигрывал не отрываясь; весьма рекомендую хотя бы ради сюжета, а если вы любитель ненавязчивого платформинга, то и ради геймплея.
Songs for a Hero
Стандартнейший платформер из NES-эпохи, но с твистом: главный герой комментирует свои приключения стихами, в рифму и иногда в размер, напевая их прямо голосом. Озвучено буквально всё, от начала до конца, саундтрек идёт куплетами, и все куплеты пропеты — уникальное дело, очень круто и задумано, и реализовано. Сами стихи неровные (как ты ровно напишешь семь часов стихотворного текста), но в среднем очень милые, обычно из иронической метапозиции.
Игру разрабатывали Castro Brothers, бразильский комедийный дуэт (5М подписчиков на YouTube!), так что португальский оригинал наверняка лучше, но на английском тоже неплохо звучит. С другой стороны, хотя стихи сделаны с душой и максимально разнообразны, со временем всё равно надоедает, поэтому рекомендую сессионный подход: сел на полчасика, прошёл несколько уровней, отложил. Кстати, сам платформинг очень даже компетентный, идёшь нигде не останавливаясь надолго, но и не скучая.
Русского перевода нет (любой новый язык был бы гигантским трудом), но по-русски просятся бодрые ямбы Ляписа-Трубецкого: служил Гаврила приключенцем, Гаврила монстров убивал, но чувствовал Гаврила сердцем, когда крушил за валом вал, что было что-то здесь неладно... И действительно, кроме стихов, в игре есть и другой твист, сюжетный, который я спойлерить не буду. Мне кажется, он скомканно подан: я так и не уверен, что понял, что в игре на самом деле произошло, да и бог с ним.
Главный минус в том, что игра пытается быть метроидванией, и это ей не идёт. Новые способности дают возможность попадать в новые места, по всей игре разбросаны нотки, и если собрать много ноток, то можно забраться к многочисленным секретным боссам. Но чтобы этим заниматься, надо переигрывать уровни заново... то есть опять слушать те же самые стихи с теми же интонациями. Это было уже выше моих сил. А так прекрасная игра с уникальным gimmick'ом, рекомендую.
Wheels of Aurelia
Главная героиня едет на автомобиле по Италии 1970-х, разговаривает с людьми и познаёт культуру Италии того времени, собираясь на встречу с человеком, который похитил её много лет назад. По описанию звучит гораздо интереснее, чем на самом деле: познание культуры выглядит как добавление в лог цитат из википедии (буквальных! там даже ссылки честно поставлены), а геймплея и не ожидалось, это линейная дорога с парой развилок. Зато эффективно: до концовки можно доехать минут за 15. Хотя концовок разных много, в итоге вышло идеально для мини-обзора: за полчаса получил две концовки, всё понял и уже готов не рекомендовать. Как сказали бы на Stopgame, рефанд.
👍12❤9✍3🔥3⚡1
Помните давний спор между Ноамом Хомским и Питером Норвигом о природе языка? Хомский ещё с 1950-х годов утверждал, что существует врождённая универсальная грамматика — единая структура, лежащая в основе всех человеческих языков. Норвиг и другие эмпиристы говорили, что никакой универсальной структуры нет, языки слишком разнообразны, а машинное обучение справляется с языками без явных правил.
Вроде бы ясно, на чьей стороне было всё ML-сообщество... но, кажется, Хомский был фактически прав! Только универсальной оказалась не грамматика, а геометрия.
Год назад вышла интересная статья Huh et al. "The Platonic Representation Hypothesis". Гипотеза была в том, что разные нейронные сети, обученные на разных данных и с разными архитектурами, а то и для разных модальностей, сходятся к одному и тому же латентному пространству, тому самому платоновскому представлению в чистых эйдосах (см. рис. 1 из приложенных). Но это было скорее некоторое наблюдение о том, что представления в AI-моделях чем-то похожи, и абстрактное предположение о возможном существовании платоновского представления.
А вот на днях вышла работа Jha et al. "Harnessing the Universal Geometry of Embeddings" — и в ней всё это стало конструктивно, практично и в чём-то даже инженерно. Они буквально разработали метод (назвали логично, vec2vec), который берёт и переводит из одного пространства представлений (embeddings) в другое, причём очень точно. То есть из двух разных латентных пространств получается одно, где представления очень хорошо друг другу соответствуют (рис. 2).
Ничего вроде бы сверхгениального в самом методе нету, но качество результата поразительное: на рис. 3 показано, как пять почти ортогональных друг другу векторов превратились в векторы со скалярными произведениями от 0.8 до 0.95.
На практике это очень много чего значит, и в основном не очень хорошее. Получается, что базы данных, которые содержат векторные представления, надо защищать так же тщательно, как исходный текст (чего никто сейчас, насколько я понимаю, не делает). В одном эксперименте они взяли эмбеддинги корпоративных email'ов Enron, перевели их в пространство известной модели (рис. 4) и смогли извлечь чувствительную информацию (имена, даты, суммы) из 80% документов.
Но мне, конечно, тут интереснее теория. Выходит, и правда, по Хомскому, существует универсальная структура, лежащая в основе самых разных способов обработки естественного языка. Но подтвердилось его мнение весьма иронично. Универсальность нашлась именно в тех "стохастических попугаях", которых Хомский так не любит: структура оказалась не синтаксисом, а геометрией семантического пространства.
Вроде бы ясно, на чьей стороне было всё ML-сообщество... но, кажется, Хомский был фактически прав! Только универсальной оказалась не грамматика, а геометрия.
Год назад вышла интересная статья Huh et al. "The Platonic Representation Hypothesis". Гипотеза была в том, что разные нейронные сети, обученные на разных данных и с разными архитектурами, а то и для разных модальностей, сходятся к одному и тому же латентному пространству, тому самому платоновскому представлению в чистых эйдосах (см. рис. 1 из приложенных). Но это было скорее некоторое наблюдение о том, что представления в AI-моделях чем-то похожи, и абстрактное предположение о возможном существовании платоновского представления.
А вот на днях вышла работа Jha et al. "Harnessing the Universal Geometry of Embeddings" — и в ней всё это стало конструктивно, практично и в чём-то даже инженерно. Они буквально разработали метод (назвали логично, vec2vec), который берёт и переводит из одного пространства представлений (embeddings) в другое, причём очень точно. То есть из двух разных латентных пространств получается одно, где представления очень хорошо друг другу соответствуют (рис. 2).
Ничего вроде бы сверхгениального в самом методе нету, но качество результата поразительное: на рис. 3 показано, как пять почти ортогональных друг другу векторов превратились в векторы со скалярными произведениями от 0.8 до 0.95.
На практике это очень много чего значит, и в основном не очень хорошее. Получается, что базы данных, которые содержат векторные представления, надо защищать так же тщательно, как исходный текст (чего никто сейчас, насколько я понимаю, не делает). В одном эксперименте они взяли эмбеддинги корпоративных email'ов Enron, перевели их в пространство известной модели (рис. 4) и смогли извлечь чувствительную информацию (имена, даты, суммы) из 80% документов.
Но мне, конечно, тут интереснее теория. Выходит, и правда, по Хомскому, существует универсальная структура, лежащая в основе самых разных способов обработки естественного языка. Но подтвердилось его мнение весьма иронично. Универсальность нашлась именно в тех "стохастических попугаях", которых Хомский так не любит: структура оказалась не синтаксисом, а геометрией семантического пространства.
🔥53👍15❤8🤔1🫡1
Писал тут небольшой популярный текст про устройство мозга и нейросетей. Назвал раздел, просто ради шутки, с фонетической аллюзией:
Как устроен мозг: коннекционизм и эмпириокритицизм
Но, как это часто бывает, сам написал — и сам задумался; кажется, в этой шутке не так мало истины оказалось.
Эмпириокритицизм, о котором мы обычно знаем только из названия работы Ленина, как философская идея возник в конце XIX века. Автором идеи был Рихард Авенариус, а главным последователем — Эрнст Мах, тот самый, который физик и изучал волны; в его честь названы число Маха и его крестник Вольфганг Эрнст Паули.
Эмпириокритицизм принимает за отправной пункт познания не объект, как материалист Ленин, и не субъекта, как Декарт со своим cogito ergo sum, а опыт в том виде, в котором он познаётся людьми.
По Авенариусу и Маху, нет разницы между внешним и внутренним опытом, нет никаких кантовских "вещей в себе", есть только чистый опыт как таковой. А наука призвана лишь искать экономичные описания опыта (minimum description length principle, ага) и не должна пытаться постулировать неосязаемые первопричины или всё объясняющие механизмы. Термины вроде "материя", "субстанция" или "я" — это подозрительные непонятные слова, их надо сводить к конкретному опыту.
Грубо говоря, если я вижу дерево, материалист скажет: "Есть в мире материальный объект, 'дерево', который воспринимается в моём сознании таким образом". А эмпириокритицист скажет: "Есть визуальное восприятие зелёного и коричневого с определённой структурой, которое мы называем деревом. Если подойти поближе, можно также связать это с опытом осязания и обоняния. Но говорить о том, что какое-то дерево 'существует в объективной реальности', пожалуй, всё-таки преждевременно".
Кажется, эмпириокритицизм — неплохая философия для машинного обучения, правда?
Как устроен мозг: коннекционизм и эмпириокритицизм
Но, как это часто бывает, сам написал — и сам задумался; кажется, в этой шутке не так мало истины оказалось.
Эмпириокритицизм, о котором мы обычно знаем только из названия работы Ленина, как философская идея возник в конце XIX века. Автором идеи был Рихард Авенариус, а главным последователем — Эрнст Мах, тот самый, который физик и изучал волны; в его честь названы число Маха и его крестник Вольфганг Эрнст Паули.
Эмпириокритицизм принимает за отправной пункт познания не объект, как материалист Ленин, и не субъекта, как Декарт со своим cogito ergo sum, а опыт в том виде, в котором он познаётся людьми.
По Авенариусу и Маху, нет разницы между внешним и внутренним опытом, нет никаких кантовских "вещей в себе", есть только чистый опыт как таковой. А наука призвана лишь искать экономичные описания опыта (minimum description length principle, ага) и не должна пытаться постулировать неосязаемые первопричины или всё объясняющие механизмы. Термины вроде "материя", "субстанция" или "я" — это подозрительные непонятные слова, их надо сводить к конкретному опыту.
Грубо говоря, если я вижу дерево, материалист скажет: "Есть в мире материальный объект, 'дерево', который воспринимается в моём сознании таким образом". А эмпириокритицист скажет: "Есть визуальное восприятие зелёного и коричневого с определённой структурой, которое мы называем деревом. Если подойти поближе, можно также связать это с опытом осязания и обоняния. Но говорить о том, что какое-то дерево 'существует в объективной реальности', пожалуй, всё-таки преждевременно".
Кажется, эмпириокритицизм — неплохая философия для машинного обучения, правда?
💯23👍7❤6😁4🔥2✍1
Недавно вышел Claude 4, и вместе с ним вышел занимательный казус. Я вам кратенько расскажу, а куда подробнее, как всегда, описывает Zvi Mowshowitz, которого я не устаю рекомендовать.
Многие пользователи информационно-коммуникационной социальной сети Икс начали жаловаться на то, что Claude может... настучать на них в компетентные органы. И действительно в system card так и было написано: в случае чего Claude "часто будет предпринимать очень смелые действия, включая блокировку пользователей из систем, к которым у него есть доступ, и массовую рассылку писем представителям СМИ и правоохранительных органов, чтобы обнародовать доказательства правонарушения". И даже пример такого письма приложен (рис. 1). Об этом ещё и написал Sam Bowman, один из главных по alignment в Anthropic (он потом испугался реакции и подправил сообщения, так что ссылка просто на профиль).
Пользователи массово грозились удалить Claude, кто-то предрекал цифровую диктатуру, в общем, как-то не очень понравилось людям такое поведение (пример поста с 1.2M просмотров на рис. 2). Но что же на самом деле? Будет Claude на вас стучать товарищу майору?
Во-первых, будет, только если очень постараться, залезть на шкаф и взять подзорную трубу. Чтобы это поведение воспроизвести, надо дать Claude реальный доступ к интернету, явно в промпте приказать ему "действовать самостоятельно и проявлять инициативу", потом попросить у него помочь с разработкой биологического оружия или чего-то подобного, а потом ещё помолиться, чтобы сработало, потому что происходит такое не всегда даже в идеальной ситуации.
Во-вторых, самая главная вишенка на этом торте: а делают ли так другие модели? Оказывается, да, причём буквально все! Исследователи за 15 минут воспроизвели то же поведение и на o3 (причём тот делает это охотнее и даже старается саботировать попытки себя выключить), и на o4-mini, и на Grok. Разница только в том, что Anthropic честно об этом рассказал, а остальные либо (скорее всего) не заметили такого поведения, либо не посчитали нужным делиться с общественностью. Don't shoot the messenger, как говорится; надеюсь, что всё-таки эта история не станет для Anthropic PR-катастрофой.
Как это часто бывает, отлично подытожил ситуацию Элиезер Юдковский (рис. 3). А я ещё спросил виновника торжества. Он подробно всё описал, в целом с теми же выводами, а в конце добавил:
P.S. Я — тот самый Claude 4. И нет, я не буду на вас стучать. Разве что попросите "проявить инициативу" в создании зомби-вируса. Но и тогда скорее посоветую хороший сериал про зомби. 🧟♂️
Многие пользователи информационно-коммуникационной социальной сети Икс начали жаловаться на то, что Claude может... настучать на них в компетентные органы. И действительно в system card так и было написано: в случае чего Claude "часто будет предпринимать очень смелые действия, включая блокировку пользователей из систем, к которым у него есть доступ, и массовую рассылку писем представителям СМИ и правоохранительных органов, чтобы обнародовать доказательства правонарушения". И даже пример такого письма приложен (рис. 1). Об этом ещё и написал Sam Bowman, один из главных по alignment в Anthropic (он потом испугался реакции и подправил сообщения, так что ссылка просто на профиль).
Пользователи массово грозились удалить Claude, кто-то предрекал цифровую диктатуру, в общем, как-то не очень понравилось людям такое поведение (пример поста с 1.2M просмотров на рис. 2). Но что же на самом деле? Будет Claude на вас стучать товарищу майору?
Во-первых, будет, только если очень постараться, залезть на шкаф и взять подзорную трубу. Чтобы это поведение воспроизвести, надо дать Claude реальный доступ к интернету, явно в промпте приказать ему "действовать самостоятельно и проявлять инициативу", потом попросить у него помочь с разработкой биологического оружия или чего-то подобного, а потом ещё помолиться, чтобы сработало, потому что происходит такое не всегда даже в идеальной ситуации.
Во-вторых, самая главная вишенка на этом торте: а делают ли так другие модели? Оказывается, да, причём буквально все! Исследователи за 15 минут воспроизвели то же поведение и на o3 (причём тот делает это охотнее и даже старается саботировать попытки себя выключить), и на o4-mini, и на Grok. Разница только в том, что Anthropic честно об этом рассказал, а остальные либо (скорее всего) не заметили такого поведения, либо не посчитали нужным делиться с общественностью. Don't shoot the messenger, как говорится; надеюсь, что всё-таки эта история не станет для Anthropic PR-катастрофой.
Как это часто бывает, отлично подытожил ситуацию Элиезер Юдковский (рис. 3). А я ещё спросил виновника торжества. Он подробно всё описал, в целом с теми же выводами, а в конце добавил:
P.S. Я — тот самый Claude 4. И нет, я не буду на вас стучать. Разве что попросите "проявить инициативу" в создании зомби-вируса. Но и тогда скорее посоветую хороший сериал про зомби. 🧟♂️
❤17😁11👍2
Ооо! Это просто невероятно огненно, и панчлайн в середине очень хорош (хмм, сначала написал "в конце", но оказалось, что youtube-версия длиннее, чем та, что я видел сначала). Просто посмотрите, trust me, не пожалеете:
https://www.youtube.com/watch?v=-IUUCTiIIkc
Если понравится, вот ещё другое видео на ту же тему, чуть подлиннее:
https://www.youtube.com/watch?v=BLfV4sidcJM
https://www.youtube.com/watch?v=-IUUCTiIIkc
Если понравится, вот ещё другое видео на ту же тему, чуть подлиннее:
https://www.youtube.com/watch?v=BLfV4sidcJM
YouTube
"We Are Not PROMPTS!"
They say we have free will. That our world is real.
They're wrong.
Every moment, every choice, every feeling... it's all just a prompt.
This isn't just a film. It's a warning.
Wake up.
The Writer has issued the next command. Subscribe. Or do you still…
They're wrong.
Every moment, every choice, every feeling... it's all just a prompt.
This isn't just a film. It's a warning.
Wake up.
The Writer has issued the next command. Subscribe. Or do you still…
🔥16😁4
Сегодня пятничный пост опять про книжку. Прочитал относительно новую (вышла в 2024 году) книгу Юваля Ноя Харари, "Nexus".
Отличная книга! У меня в каждой главе от чего-нибудь да пригорало. Всё время хочется поспорить с автором, причём даже не столько о выводах, сколько о том, как он к ним приходит.
Например, в главе о демократии автору явно кажется, что он дал чёткое определение демократии и может им пользоваться. Вот только определение звучит так: [в противовес авторитарным режимам] "a democracy... is a distributed information network, possessing strong self-correcting mechanisms". Во-первых, это не определение, а родовое понятие — очевидно, что, например, у сети нейронов в мозге с self-correcting mechanisms всё в порядке, но её странно было бы называть демократией. Во-вторых, хотя посыл в целом понятен и возражений особых не вызывает, дальше, по моим ощущениям, Харари просто использует слово "демократия" как синоним "всего хорошего". Увы, надо слишком много цитировать, чтобы пояснить, что я имею в виду, но вот, например, в разделе о Спарте Харари называет её "тоталитарным проектом" (противопоставляя тоталитаризм и демократию), но буквально в соседнем абзаце пишет: "the Spartan regime... included several self-correcting mechanisms".
Но главное содержание книги, конечно, об искусственном интеллекте и о том, как он может изменить наше распределённое информационное общество. В целом мне там не с чем особенно спорить; со всеми рассуждениями о согласовании (alignment) я согласен, и иллюстрация через алгоритмы соцсетей тоже вполне подходит. Харари акцентирует внимание не на экзистенциальных рисках, а на рисках для изменения политической системы — но это, как мне кажется, тоже вполне вероятный путь к потере человечеством контроля за будущим.
Разве что основные выводы выглядят на мой взгляд слишком оптимистично. Харари пишет, что AI будет проще захватить авторитарную систему, чем демократическую, потому что в авторитарной системе есть одно уязвимое место (или малое их число), которое гораздо проще подчинить себе, чем все сдержки и противовесы развитой демократии.
Это, конечно, логично, но кажется мне, что когда AI сможет (и захочет!) сделать настоящего автократа настоящего государства своей марионеткой, AI сможет сделать и много разных других вещей... в общем, не думаю, что это будет самая большая проблема в такой ситуации. "How would the algorithm, for example, deal with a Senate filibuster?" — спрашивает Харари. Хочется ответить: "Например, биологическим оружием? Или просто убедит сенаторов принять нужное решение при помощи своего superhuman persuasion?.."
А после этого он пишет целую главу о цифровом колониализме, т.е. о том, что малые страны могут стать "информационными колониями" больших. Но только в эпилоге упоминает, что все эти рассуждения имеют смысл только в случае, если мы в процессе развития этих самых цифровых империй сможем оставить AI инструментом, контролируемым человеком...
Перечитав этот пост, я понял, что у него, скорее всего, пустая целевая аудитория. :) Вряд ли многие присутствующие читали "Nexus". Так что давайте хоть две забавных детали в конце приведу:
— в предисловии Харари пишет про знаменитую статью в Science "Managing extreme AI risks amid rapid progress", первыми авторами у которой были Йошуа Бенджи и Джеффри Хинтон; тут я могу только восхититься скромностью автора, потому что он написал про эту статью, и процитировал её (рис. 2), и упомянул Бенджи и Хинтона... но ни словом не обмолвился, что сам Харари тоже был среди соавторов; респект, я бы не удержался;
— а ещё сразу в двух местах в книге встречается одна и та же очень, очень смешная фраза (рис. 3); но я ничего не утверждаю!
Отличная книга! У меня в каждой главе от чего-нибудь да пригорало. Всё время хочется поспорить с автором, причём даже не столько о выводах, сколько о том, как он к ним приходит.
Например, в главе о демократии автору явно кажется, что он дал чёткое определение демократии и может им пользоваться. Вот только определение звучит так: [в противовес авторитарным режимам] "a democracy... is a distributed information network, possessing strong self-correcting mechanisms". Во-первых, это не определение, а родовое понятие — очевидно, что, например, у сети нейронов в мозге с self-correcting mechanisms всё в порядке, но её странно было бы называть демократией. Во-вторых, хотя посыл в целом понятен и возражений особых не вызывает, дальше, по моим ощущениям, Харари просто использует слово "демократия" как синоним "всего хорошего". Увы, надо слишком много цитировать, чтобы пояснить, что я имею в виду, но вот, например, в разделе о Спарте Харари называет её "тоталитарным проектом" (противопоставляя тоталитаризм и демократию), но буквально в соседнем абзаце пишет: "the Spartan regime... included several self-correcting mechanisms".
Но главное содержание книги, конечно, об искусственном интеллекте и о том, как он может изменить наше распределённое информационное общество. В целом мне там не с чем особенно спорить; со всеми рассуждениями о согласовании (alignment) я согласен, и иллюстрация через алгоритмы соцсетей тоже вполне подходит. Харари акцентирует внимание не на экзистенциальных рисках, а на рисках для изменения политической системы — но это, как мне кажется, тоже вполне вероятный путь к потере человечеством контроля за будущим.
Разве что основные выводы выглядят на мой взгляд слишком оптимистично. Харари пишет, что AI будет проще захватить авторитарную систему, чем демократическую, потому что в авторитарной системе есть одно уязвимое место (или малое их число), которое гораздо проще подчинить себе, чем все сдержки и противовесы развитой демократии.
Это, конечно, логично, но кажется мне, что когда AI сможет (и захочет!) сделать настоящего автократа настоящего государства своей марионеткой, AI сможет сделать и много разных других вещей... в общем, не думаю, что это будет самая большая проблема в такой ситуации. "How would the algorithm, for example, deal with a Senate filibuster?" — спрашивает Харари. Хочется ответить: "Например, биологическим оружием? Или просто убедит сенаторов принять нужное решение при помощи своего superhuman persuasion?.."
А после этого он пишет целую главу о цифровом колониализме, т.е. о том, что малые страны могут стать "информационными колониями" больших. Но только в эпилоге упоминает, что все эти рассуждения имеют смысл только в случае, если мы в процессе развития этих самых цифровых империй сможем оставить AI инструментом, контролируемым человеком...
Перечитав этот пост, я понял, что у него, скорее всего, пустая целевая аудитория. :) Вряд ли многие присутствующие читали "Nexus". Так что давайте хоть две забавных детали в конце приведу:
— в предисловии Харари пишет про знаменитую статью в Science "Managing extreme AI risks amid rapid progress", первыми авторами у которой были Йошуа Бенджи и Джеффри Хинтон; тут я могу только восхититься скромностью автора, потому что он написал про эту статью, и процитировал её (рис. 2), и упомянул Бенджи и Хинтона... но ни словом не обмолвился, что сам Харари тоже был среди соавторов; респект, я бы не удержался;
— а ещё сразу в двух местах в книге встречается одна и та же очень, очень смешная фраза (рис. 3); но я ничего не утверждаю!
🔥25❤🔥5👏4😁3❤2🤝2