Sinекура

Вышел мой новый большой пост из серии про AI Safety:

AI Safety II: Goodharting and Reward Hacking

Закон Гудхарта (Goodhart's Law) — это изначально наполовину шутка в стиле законов Мерфи, высказанная экономистом Чарльзом Гудхартом в 1975 году: когда метрика становится целью оптимизации, она перестаёт быть хорошей метрикой, то есть перестаёт отражать свою изначальную цель.

Здесь обычно рассказывают о кобрах, но это дело тёмное, поэтому вот другой хороший исторический пример — Great Hanoi Rat Massacre. Колониальные власти в Ханое решили избавиться от крыс в городе и объявили вознаграждение за крысиные хвосты. Разумеется, жители тут же сообразили, что, конечно, хвост у крысы обратно не отрастёт и два раза денег за одну крысу не получишь, но зато живая крыса без хвоста может сделать новых крыс! Так что крыс ловили, отрубали хвосты и отпускали обратно, что эпидемиологическую ситуацию, мягко скажем, не улучшило.

В посте я, конечно, обсуждаю goodharting применительно к машинному обучению. Когда-то давно я в посте об опасностях AGI обсуждал, что это один из главных механизмов для неприятных сценариев AI doom, а на этот раз рассматриваю уже более конкретно, с теорией и свежими примерами.

План такой:

— начинаем с общего обсуждения и таксономии goodharting;

— потом игрушечные модели, которые иллюстрируют некоторые важные свойства эффекта;

— потом самое интересное — примеры specification gaming в современных моделях;

— в том числе о том, как RLHF обучает LLM обманывать людей (Wen et al., 2024);

— потом прогрессируем до goal misgeneralization (когда цель сохраняется, но плохо обобщается на новое распределение);

— и апофеоз — reward tampering, AI-аналога wireheading, когда модель может просто переписать саму функцию вознаграждения;

— тут тоже есть крутые примеры, в частности то, как LLM могут сами прогрессировать от одного "уровня плохого поведения" к другому (Denison et al., 2024).

Пост, как водится, очень длинный, скорее глава для книги. Enjoy!

🔥27❤6🤯1

2.03K views09:23

Sinекура

За последние две недели OpenAI:

— с одной стороны, попустился в смысле корпоративной структуры и согласен сохранить контроль над компанией за своей non-profit частью; это хорошая новость и отдельная тема, о которой лучше пусть пишут люди более квалифицированные юридически;
— а с другой стороны, привлёк Фиджи Симо (Fidji Simo) в качестве "CEO of Applications".

Вторая новость — о том, что OpenAI всё больше разворачивается в сторону продуктовой компании. Фиджи Симо провела десять лет в Facebook, где разрабатывала его рекламную стратегию и стратегию монетизации, а потом ушла делать Instacart, компанию, которая вся целиком о рекламе, ритейле и монетизации. Она специалист в выжимании доходов из рекламы — и кажется, что OpenAI даст ей обширное поле для деятельности.

Когда-то очень давно, в 2023 году, у меня был совместный исследовательский проект с компанией SoMin (Саша, привет!); мы пытались выяснить, могут ли LLM заменить людей в онлайн-маркетинге. Вывод был очевиден: конечно, могут! Долго после этого я показывал картинки из наших статей в своих общих презентациях (прилагаю парочку). Но тогда речь шла в основном о том, что маркетологам нужно обрабатывать и обобщать большой объём рекламных кампаний конкурентов, и это можно и нужно автоматизировать. Конечно, потом и породить новое объявление можно, но тогда это хорошо работало только в текстовом виде, да и то не факт.

Сейчас, через год-два после наших тогдашних экспериментов, речь уже может идти о совсем другом уровне. В посте про goodharting я рассказывал о работе Wen et al. (2024): если сделать RLHF на более сложных вопросах, где человеку трудно за ограниченное время проверить результат, то LLM будут обучаться не чаще давать корректные ответы, а лучше убеждать людей, что неправильные ответы верны! И этому эксперименту тоже уже академический год исполнился — а что будет, если в явном виде поставить при дообучении цель порождать максимально убедительные и оптимально воздействующие на людей аргументы?

Я не думаю, что у живых людей в голове есть какая-то волшебная красная кнопка, какой-то adversarial example, который сделает нашим мозгам jailbreak прямо через текст или картинку; отчасти я не думаю так именно потому, что мозг очень мультимодальная штука, одного зрения не должно хватить для jailbreak'а. Но я уверен, что область персонализации рекламы и, шире, область разработки персонализованных стратегий убеждения людей делают только первые шаги.

Всю свою историю человечество училось убеждать друг друга — скорее всего, мы примерно так и получили свои когнитивные способности. Но никогда раньше не было возможности масштабировать персонализованное убеждение каждого конкретного человека, реклама всегда должна была работать с "массами", широкими пластами целевых аудиторий. А теперь такая возможность очевидно есть — и хотя очень интересно, но и немного страшновато, что могут с этой возможностью сделать даже уже существующие сегодня LLM. Обзор Rogiers et al. ещё из конца 2024 года говорит, что LLM были на уровне человека в способности убеждать других людей — а это было даже до современных рассуждающих моделей...

Кстати, Марк Цукерберг (бывший начальник Фиджи Симо) именно так и видит будущее AI в соцсетях: сплошная реклама, персонализованная реклама, "AI-друзья", которые производят для вас персонализованный контент... вот одно его недавнее интервью, а вот интервью с Дваркешем.

А, да, и помните недавний скандал об очень подхалимской версии GPT-4o, которую в итоге откатили и подправили? Кажется, Фиджи Симо не будет против таких релизов.

🔥14👍7❤2💯2

2.35K views08:52

Sinекура

Сегодня у меня сразу два больших доклада типа "State of AI": сначала внезапно в ЮМШ для школьников, а потом на семинаре в ЛЭТИ, куда я уже ходил прошлой осенью, и вот теперь расскажу о том, что с тех пор изменилось. Надеюсь, что смогу записать хотя бы звук и выложить потом.

Я всегда стараюсь в докладах выделять какую-нибудь свежую новость, которая ещё не существовала на момент предыдущих докладов, а лучше вообще из текущего месяца — это очень помогает провести мысль о скорости прогресса.

В этот раз думал, что не успел, да и не слышал таких уж громких новостей за последние пару недель, но AI-индустрия меня не подвела: утром перед докладами, разумеется, сижу и добавляю в них вчерашнюю новость. Очень похоже на того самого Agent-0, которого прогноз AI 2027 обещал в мае 2025 года. Встречаем:

AlphaEvolve: A Gemini-powered coding agent for designing advanced algorithms

По сути это опять unhobbling: система вроде AI Co-Scientist, состоящая из нескольких LLM-агентов. Один агент генерирует идеи, другой реализует их в коде, третий критикует, четвёртый пишет тесты... насколько я понял, никаких новых математических прорывов в самой системе нет, просто аккуратно сделано такое вот итеративное взаимодействие.

Зато есть математические прорывы в результатах! AlphaEvolve получил новую нижнюю оценку на контактное число (по-английски лучше звучит: kissing number, сколько сфер могут одновременно коснуться одной) в размерности 11, новые оценки в анализе, геометрии и комбинаторике.

Новые алгоритмы: AlphaEvolve улучшил алгоритм Штрассена для умножения матриц размера 4х4 над ℂ, чего AlphaTensor раньше не смог. "Алгоритм Штрассена" звучит очень классически, но это именно новый результат, то есть, наоборот, это очень круто: более 50 лет никто Штрассена побить не мог в этом вроде бы небольшом и человечески постижимом случае, и вот получилось.

Конкретные более прикладные вещи тоже уже получаются: предложенный AlphaEvolve новый scheduling в датацентрах уже работает в гугловском Borg, улучшенная схема для умножения матриц (именно схема, circuit — как я понял, AlphaEvolve её прямо на Verilog написал) уже внедряется в TPU... В общем, действительно выглядит как Agent-0 (пока не без человеческого руководства, но всё более самостоятельный research), и, кстати, подтверждается мой недавний вывод о том, что лучшая LLM для науки и глубоких мыслей сейчас именно Gemini.

Да, конечно, пока это только в областях, где ответ можно относительно легко проверить. Да, пока это, конечно, никакая не сингулярность. Да, конечно, ещё несколько таких шагов будут сопровождаться словами "да, конечно". Но скорость прогресса поражает всё равно.

А презентация моя после добавления этих четырёх слайдов про AlphaEvolve достигла круглого числа в 200 слайдов.) Разумеется, всё это рассказать невозможно ни за два часа, ни за четыре, но что-то, надеюсь, расскажу.

❤29👍9👨‍💻2

2.54K views06:58

Sinекура

Два вчерашних доклада и сегодняшнее выступление на конференции PiterPy сделали своё дело: вас уже больше двух тысяч! Новоприбывшим добро пожаловать, а чтобы отметить этот мини-юбилей, сделаю сегодня особенный пятничный пост.

Я недавно вспомнил о маленьком рассказике, который написал в 2017 году; совершенно на это не надеялся, но оказалось, что он всё ещё доступен онлайн. Название очень короткое:

Xe
(сохранил ещё в pdf, а то, кажется, из России ссылку не открыть)

Перечитал — а ведь не так плохо читается даже и сегодня. Конечно, это продукт своего времени: мы тогда делали стартап с криптотокенами, написано всё это под сильным влиянием Юдковского, а xe — это не имя, а местоимение. Но всё равно надеюсь, что понравится.)

Medium

by Chief Research Officer Sergey Nikolenko, Neuromation.io

🔥19👍8🎉1

2.1K viewsedited 13:22

Sinекура

Начинаю выкладывать пятничные видео. Сначала — выступление в ЮМШ перед старшеклассниками; видео там не записывали, так что я просто наложил слайды на аудиодорожку.

State of AI: откуда мы пришли, кто мы и куда мы идём?

(слайды пока здесь)

Старался рассказывать от азов и без особой математики — и, кажется, вполне преуспел в этом. Отзывы от слушателей, говорят, были хорошие (а ЮМШ очень мило меня назвала "замечательным гостем"). В этом смысле deep learning, конечно, поразительная область: чтобы понять довольно многое из происходящего, вообще ничего знать не надо дальше того, что такое производная.

А чтобы понять почти всё из происходящего, ещё надо владеть базовой теорией вероятностей (кстати, напоминаю, что у меня недавно вышла книга о фундаментальных основах машинного обучения). Но на этом всё! В современном DL очень трудно встретить что-то более сложное, чем вариационная нижняя оценка, а её при условии базового теорвера рассказать можно за полчаса (недавно рассказывал здесь, например).

Мир прямо сейчас меняют модели, основанные на простых понятных идеях, которые можно рассказать умному старшекласснику. Может быть, какая-нибудь Mamba (см. мой большой пост) изменит это положение дел, там уже математика посложнее, которую в школе точно не расскажешь, — но пока не изменила...

❤17🔥9👍5

2.35K views09:47

Sinекура

Этой новости уже неделя, но я её поначалу пропустил, а теперь узнал и не могу не поделиться; думаю, многие из вас тоже пропустили.

Знаете, почему новый папа, в миру Роберт Фрэнсис Превост, взял себе имя Лев XIV? А вот почему:

...Я решил взять имя Лев XIV... в основном потому, что Папа Лев XIII в своей исторической энциклике Rerum Novarum рассматривал социальные аспекты первой великой промышленной революции. В наши дни Церковь предлагает всем сокровища своего социального учения в ответ на еще одну промышленную революцию и на разработки в области искусственного интеллекта, которые ставят новые задачи защиты человеческого достоинства, справедливости и труда.
(из обращения к коллегии кардиналов 10 мая 2025)

Кажется, у Папы Римского больше понимания предстоящих изменений, чем у подавляющего большинства мировых лидеров. Буду теперь в каждой презентации это упоминать...

😱16😁12🔥9🤩4💯4❤3💅1

2.23K views11:49

Sinекура

Второе выступление с прошлой пятницы — общий доклад State of AI на семинаре по алгоритмической математике в ЛЭТИ. Николай Николаевич Васильев, руководитель этого семинара, уже приглашал меня в октябре, и тогда я рассказывал что-то в духе "Мечтаем ли мы об AGI" (записи из ЛЭТИ тогдашней у меня нет). На этот раз всё записали, видео прислали, я смонтировал и вот выкладываю:

State of AI: где AI сейчас и куда продвинулся за полгода

Это доклад по той же презентации, что давеча в ЮМШ, но я рассказывал немного другие слайды (все двести, конечно, не рассказал ни там, ни там) и смог кое-где углубиться в детали. Слушатели были очень хорошие, вопросы задавали интересные, и всё вместе растянулось, как водится, на три часа с лишним.

План доклада примерно тот же, что был в ЮМШ, но каждый пункт подробнее раскрыт:
— Введение, план, история, задачи машинного обучения
— Что такое нейросети, как они обучаются
— Архитектуры: CNN, encoder-decoder, трансформеры
— Что такое языковые модели, LLM
— Законы масштабирования
— Рассуждающие модели
— Примеры возможностей современного AI
— Оценки и прогнозы прогресса AI
— Вопросы и дискуссия (добрых полчаса)

И опять очень странно отработал улучшайзер голоса в Adobe Premiere — мой голос и правда стал гораздо лучше, а вот вопросы теперь частенько на каком-то инопланетном... Я, увы, не заметил, а теперь уже долго не смогу исправить, if ever, так что выкладываю как есть. Может, вы знаете какие-то решения получше?

YouTube

ЛЭТИ -- 2025.05.15 -- State of AI

Это запись доклада "State of AI: где AI сейчас и куда продвинулся за полгода" на семинаре по алгоритмической математике в ЛЭТИ 15 мая 2025 года.

Подписывайтесь на мой телеграм-канал "Sineкура":
https://t.iss.one/sinecor

Слайды доклада размещены на странице курса…

🔥18👍8❤2

1.82K views12:04

Sinекура

Провёл вряд ли интересный для общества, но любопытный для себя эксперимент: попробовал вайб-кодинг. Давно хотел переделать сайт, а тут ещё и наш институтский сервер начал постоянно зависать, так что решил, что это знак, и надо сесть сделать новый, а заодно и хостинг ему купить. Казалось, что веб-сайт — это идеальная штука для вайб-кодинга.

Новый Codex мне OpenAI пока не завёз, так что я просто разговаривал с o4-mini-high; у нас получился невероятно длинный чат о проекте, тьфу-тьфу, контекст пока не заканчивается. Я решил не мелочиться и сделать всё по уму: на актуальных технологиях, чтобы и красивенько, и wordpress-блог был бы на том же сайте, и свой домен, и всё такое прочее.

Спросил LLM, как этого добиться, и получил набор совершенно незнакомых слов: next.js, strapi, graphql, tailwind, traefik, mariadb, vercel, timeweb... Свой текущий сайт я писал 10 лет назад на чистом javascript, так что это был очень, очень чистый эксперимент, я и docker-то раньше запускал буквально пару раз в жизни.)

Выводы у меня такие:

— понимать происходящее в основном всё-таки надо; если бездумно копировать туда-сюда ошибки и исправления, можно и в цикл войти, и сломать что-то другое, и внезапно оказаться в процессе переезда на другую версию чего-нибудь, которая тебе совершенно не нужна; в целом, если фикс от LLM с первого, максимум второго раза не работает, лучше остановиться и подумать самому, это будет эффективнее;

— но прелесть в том, что LLM не просто пишет код, а объясняет тебе всё происходящее, понятно и на твоём конкретном примере; а когда ломается, объясняет все эти cryptic error messages, предлагает варианты, и эти варианты тоже многое объясняют;

— а уж чего-чего, а cryptic error messages в такой фронтенд-работе очень много! это, наверное, главный пункт экономии времени: LLM сразу понимает, что могло пойти не так, в том числе в случаях, когда самому гуглить было бы реально сложно; никакой магии, конечно, если ты просто видишь 404 и не понимаешь почему, вариантов может быть много, и разбираться в них придётся, но этот процесс всё равно сильно ускоряется;

— полезно спросить LLM и перед тем, как принимать архитектурные решения; если попросить "напиши мне X", LLM постарается, но лучше сначала спросить "какие есть способы достичь цели Y", может оказаться, что X не лучший вариант; заодно и узнаешь о других вариантах, что тоже полезно для понимания;

— в итоге за два-три вечера я, кажется, реально подразобрался, что в этом стеке происходит и как всё это в целом работает; без LLM я и сейчас всё равно долго бы гуглил, как сделать каждое новое изменение, но скорость процесса меня очень порадовала; думаю, мне бы понадобилось в несколько раз больше времени, чтобы прийти к тому же самому (пусть невысокому) уровню понимания через чтение документации.

Так что прямо сейчас, кажется, sweet spot для vibe coding: всё ещё нужно разбираться в происходящем, и ты не бездумной прокладкой работаешь, но LLM уже реально быстро и эффективно учит тебя и заодно приводит к результату. Интересующимся рекомендую пробовать, а для не-интересующихся предсказываю, что очень скоро на уровне "сделать сайт на стандартном стеке" вообще никакого кодинга будет не нужно, хоть бы и вайб.

Прилагаю несколько скринов из разговора с o4-mini-high, а про сам сайт напишу отдельно, когда там что-то будет. Пока технически всё заработало, но контентом ещё наполнять и наполнять, да и подумать ещё надо о том, что я там хочу видеть.

👍36🔥15❤4😁1🤔1👾1

2.14K views13:42

About

Blog

Apps

Platform