Sinекура

Выложили мой доклад про AI Safety, который был в CS Space в воскресенье. Спасибо организаторам, что не прерывали, я, конечно, многие части прошёл в ускоренном темпе, но прошёл все, а видео в итоге получилось на 4 часа 12 минут чистого времени.

https://www.youtube.com/watch?v=PkYDScQg5PU&ab_channel=ComputerScienceSpace

Цель была в том, чтобы рассказать не только о том, почему AGI имеет все шансы уничтожить человечество, но и по существу о том, как человечество пытается сделать так, чтобы эти шансы не реализовались.

По порядку в докладе:
— введение, Хинтон и Бенджи беспокоятся
— таймлайны, slow vs. fast takeoff
— mundane risks: как LLM можно использовать в неблаговидных целях
— возможные экономические трансформации
— история AI safety от Чапека и Тьюринга
— аргументы об экзистенциальном риске
— разбор стандартных возражений
— основные определения: emergence, mesa-optimization, alignment, corrigibility
— пример конкретного направления: подхалимство (sycophancy) и как его уменьшить
— интроспекция / situational awareness: понимают ли модели свою ситуацию
— goodharting (закон Гудхарта), его частные случаи и яркие примеры reward hacking
— механистическая интерпретируемость: схемы, поиск признаков автокодировщиками
— sparks of misalignment (примеры): sleeper agents, alignment faking, emergent misalignment...
— заключение: что сейчас делают государства, учёные и компании, как LLM-агенты играют в википедию

Это было нелегко, потому что это был на 80% новый доклад с новыми слайдами и новыми идеями, которые я слышал раньше, конечно, но никогда сам не рассказывал. Пара накладок действительно случилась, но в основном, кажется, справился и результатом доволен.

А если вы хотите услышать одну cool story из доклада, отправляйтесь на таймкод 3:48:20 и послушайте буквально 5-7 минут про emergent misalignment. Эта работа вышла месяц назад (Betley et al., Feb 24, 2025), и это просто офигенно; не буду спойлерить, посмотрите сами.

🔥35❤9❤‍🔥7👍2😱1

2.81K viewsedited 15:57

Sinекура

Пятничный пост! На этот раз про новый GPT-4o, который действительно сделал большой скачок вперёд в рисовании картинок. Это особенно хорошо видно на примере текста: Flux, которым я пользовался раньше, мог написать примерно три слова (или нет), но любой длинный текст превращался в случайные буквы и закорючки. Нынешний GPT-4o пишет текст почти идеально, ошибки редки и не мешают восприятию.

Поэтому теперь GPT-4o может сделать, например, полный цикл для вот такой манги (на картинках три отдельных мини-сюжета по три страницы). GPT до сих пор не даёт расшаривать чаты с картинками, поэтому поверьте на слово, что это сделано буквально так:

— сначала один исходный промпт, в котором я попросил написать раскадровки для манги (см. ниже);
— потом отдельным чатом копирую одну из идей, даю фото персонажей (обычные живые фото) и прошу рисовать страница за страницей;
— не всегда страница манги получается хорошо с первого раза, но больше трёх раз я ни одну из этих не генерировал, в среднем по два раза, наверное.

И вот насколько уж я привык к прогрессу в AI, а всё равно вчера очень поразился, когда такие вещи реально начали работать. Полный замкнутый цикл, я ничего не правил в раскадровках, только работал скриптом для копирования промптов — и вот три мини-истории с текстом и консистентными узнаваемыми персонажами, взятыми из фотографий, которые я приложил.

По содержанию это, конечно, не xkcd и даже не SMBC (кстати, GPT-4o отказался рисовать в стиле SMBC по соображениям копирайта, но это уже другая забавная история). Добро, наивно и по нынешним временам не смешно, стиль слегка гуляет от страницы к странице — но такой comic strip был бы вполне на месте в какой-нибудь юмористической колонке научно-популярного журнала пятидесятилетней давности, если вы понимаете, о чём я. Пишу и думаю, что ведь и этот generic манга-стиль тоже из тех времён, так что не исключено, что если попросить нарисовать в более современном стиле, то и юмор станет более современным... надо будет попробовать. А отдельные картинки вообще классные, панель с "Wait... am I the superintelligence?" я непременно использую при случае.)

Ниже — исходный промпт целиком, это весь мой input, не считая просьб переделать страницу время от времени. Как видите, я ни разу не гуру промптинга, да оказалось и не надо:

hi! this is me, Sergey, and this is my cat Miles [фото приложены]

can you draw out a detailed plan for a short and funny manga about us? I want the setting to be me (Sergey) delivering a talk about AI and the dangers of superintelligence

please think of a funny and whimsical way to continue this that involves the cat Miles and maybe other characters at your convenience; maybe somebody asks a question at the talk, or goes to meet me at the afterparty, or kidnaps Miles for ransom, anything goes! please maximize the humor

do a detailed description of all panels in the manga; it shouldn't be longer than 3-5 pages

please generate 3-5 different manga ideas

🔥33❤10😍3🤯2💘2🤩1👾1

2.79K views11:22

Sinекура

Сегодняшние лекции — об одной из центральных тем и этого семестра, и машинного обучения в целом: о вариационных приближениях. Это классическая идея, изначально пришедшая из теоретической физики, но в итоге именно в машинном обучении оказалось всё время нужно приближать очень сложные распределения в пространствах высокой размерности — как правило, апостериорные распределения в сложных вероятностных моделях.

Такая идея, конечно, не потерялась и в эпоху глубокого обучения. Например, оба главных инструмента современных порождающих моделей для изображений и видео основаны на вариационных приближениях. Вы наверняка слышали о вариационных автокодировщиках, в чьём латентном пространстве до сих пор обычно порождают коды text-to-image модели (за GPT-4o, правда, уже не ручаюсь). Главный "секретный соус" VAE — правильная форма регуляризации, которая как раз из вариационной нижней оценки и получается. См. хотя бы мой давний пост в блоге Synthesis AI на эту тему.

Но и диффузионные модели тоже насквозь пронизаны вариационными приближениями: распределения, появляющиеся в процессе обратной диффузии (тот самый denoising), конечно, точно не посчитаешь, там на каждом шаге происходит аппроксимация. Об этом у меня тоже был пост в блоге Synthesis AI.

А вот ещё пара случайных примеров (абсолютно первых попавшихся) недавних интересных статей о вариационных приближениях:
— Piriyakulkij et al. (2024) используют диффузионные модели как выразительные приближённые апостериорные распределения в вероятностных моделях со скрытыми переменными;
— Sordoni et al. (2023) рассматривают стек из языковых моделей: их Deep Language Network — это два слоя, каждый из которых представляет собой LLM, и выход первой — скрытая переменная, которая как раз вариационным выводом и оптимизируется;
— Gong et al. (2025) строят модель со скрытыми переменными для моделирования человеческих предпочтений, которые потом можно использовать для alignment; эти скрытые переменные кодируют факторы, из которых складываются предпочтения, и обучаются они тоже, как обычно со смесями, через вариационную нижнюю оценку.

А в лекциях мы обсудили основную идею и несколько относительно простых примеров. Ну как простых — вариационное приближение для смеси гауссианов уже не так просто построить, но вроде мы по модулю некоторых вычислений справились. Главное — увидели основную магию вариационных приближений: как из предположения о независимости q(Z_1), ..., q(Z_M) сразу получаются и формы распределений в оптимальной аппроксимации, причём оптимальные они не по отдельности, а все вместе, как произведение q(Z) = q(Z_1)...q(Z_M).

https://www.youtube.com/watch?v=848vDVNAnAM

YouTube

СПбГУ -- 2025.04.01 -- Вариационные приближения

Это лекция из курса "Графические вероятностные модели", который читается на Факультете математики и компьютерных наук СПбГУ вместе с двумя другими частями курса машинного обучения -- "Основами байесовского вывода" и "Глубоким обучением". Все материалы этой…

❤17🔥10❤‍🔥5

3.05K viewsedited 16:29

Sinекура

Издательство "Питер" выложило на хабр пост со введением к моей новой книге "Машинное обучение: основы" (и очень кратким введением ко введению). В частности, во введении есть подробное описание плана книги, и по нему уж точно можно решить, для вас эта книга или нет.

Сама книга уже вовсю продаётся, люди на лекциях просят подписать, всё такое. Напомню, что купить её можно здесь:
https://www.piter.com/product/mashinnoe-obuchenie-osnovy

Это был очень большой проект, и очень много работы в эту книгу вложено. Надеюсь, она таки найдёт своих читателей.)

Хабр

Книга: «Машинное обучение: основы»

Привет, Хаброжители! Машинное обучение — это фундамент, на котором строится современный искусственный интеллект. Оно окружает нас повсюду. Но как оно работает? Что скрывается за алгоритмами, которые...

🔥56👍12❤10😁3

3.3K viewsedited 10:24

Sinекура

Sinекура pinned «Издательство "Питер" выложило на хабр пост со введением к моей новой книге "Машинное обучение: основы" (и очень кратким введением ко введению). В частности, во введении есть подробное описание плана книги, и по нему уж точно можно решить, для вас эта книга…»

10:24

Sinекура

Попробую в пятничном посте вернуться к нормальности (привет тебе, Уоррен Джи, даже ты, наверное, был бы лучше нынешнего). Минувшие недели были сложные, играл мало, но в итоге 44 часа наиграл и одну игру таки прошёл, про неё и расскажу — а заодно и ещё одну достану из архивов, их хорошо сравнить сейчас.

Banishers: Ghosts of New Eden — это вроде бы типичная AA-игра, action RPG от третьего лица, в которой надо бегать, убивать всяких призраков и закрывать вопросики с квестами. Поначалу я думал, что игра так себе и что я её брошу, но в итоге втянулся и закрыл, конечно, не все вопросики, но все сайд-квесты. Суть сюжета в том, что главные герои ходят по старой доброй Новой Англии, где невинную женщину зря казнили как ведьму, и она вернулась с того света и начала мстить. И главная героиня в самом начале игры тоже умерла и вернулась в виде призрака к главному герою, и часть их мотивации — отбить тело главной героини, чтобы ей можно было наконец упокоиться (или нет).

По описанию происходящее кажется бредом двенадцатилетнего подростка, но на самом деле нарративно игра хороша. Каждый сайд-квест — это экзорцизм очередного призрака, который зачем-то вернулся с того света, и именно такие haunting cases меня и зацепили больше всего: они действительно разнообразные по сюжету (не по геймплею, тут всё стандартно), хорошо придуманы и написаны, и за каждой историей интересно следить. Попробовать Banishers в целом рекомендую.

Чего игре всё-таки не хватило — это глобального лора и привязки к реальности. Действие происходит в Америке конца XVII века, и мини-сюжеты в целом соответствуют своему времени... но кроме общих мест, время и мир никак в игре не чувствуются. Всё происходит в сферической Новой Англии в вакууме, у событий игры нет никакой связи с окружающим миром, и хотя истории по-человечески интересные, они ничего тебе особо не рассказывают ни о том времени, ни о мире — разве что о том, как в игре работает загробный мир, то есть как раз о придуманной части лора. И это составляет разительный контраст со второй игрой, о которой я вам расскажу.

The Thaumaturge — это тоже AA-игра, тоже RPG (правда, изометрическая), и в ней тоже идёт речь о реальном историческом мире, в который вписана магия: главный герой ей владеет, умеет призывать всяких существ и так далее. Как RPG она тоже довольно стандартна: выполняешь побочные и основные задания, прокачиваешься, чтобы улучшить свою магию, побеждаешь врагов, проходишь игру. Но есть три аспекта, которые действительно выделяются.

Во-первых, мне понравилась боевая механика: это пошаговая карточная игра, где ты атакуешь как сам, так и с помощью своих существ (salutors), используя уязвимости врагов. Это вам не Slay the Spire, игра не об этом, но в целом это хорошо продуманная механика (хотя бои на нормальной сложности очень лёгкие).

Во-вторых, сюжет и сеттинг. The Thaumaturge разворачивается в Польше начала XX века, а значит, ты восстаёшь против Российской империи (или нет), вращаешься в обществе, где можно заметить признаки надвигающихся бед, ближе к концу встречаешься с Николаем II, а один из твоих лучших друзей в игре — конечно же, Распутин. И это действительно сочетается с предпосылкой о существовании магии в этом мире, мир очень умно собран и выглядит вполне правдоподобно. Мне понравились все маленькие истории и элементы лора, которые здесь можно найти, и хотя я не эксперт, думаю, авторы действительно старались быть верными духу реальной исторической Польши того времени. Эта игра не сферическая и не в вакууме, тут мир действительно большой и живой.

Что приводит меня к третьему пункту: тексты. Всё, что ты делаешь в игре, сопровождается очень хорошо написанным описанием, и хотя ты, конечно, будешь пролистывать большую часть, а не вчитываться в каждую заметку и каждую подсказку, это тоже много добавляет к атмосфере. Тексты, может, и не на уровне Disco Elysium, но свою работу делают хорошо. В целом, отличная игра, не слишком длинная, сюжет движется бодро, и значительная часть моих 22 часов была потрачена на охоту за коллекционными предметами. Искренне рекомендую.

❤13👍5🔥3👾1

3.3K views15:37

Sinекура

На этой неделе вышел очередной текст с прогнозами развития искусственного интеллекта: "AI 2027" (pdf-версия). Мне он, правда, совсем не кажется "очередным", в основном из-за списка авторов. Так что суммаризировать я его для вас не буду (текст совсем не длинный, рекомендую прочитать целиком), а лучше про этих самых авторов расскажу.

Первый автор, Даниэль Кокотайло — это бывший сотрудник OpenAI. Два самых для нас важных факта про него связаны как раз с этим трудоустройством:

— OpenAI нанял Даниэля после того, как в 2021 году он написал статью "What 2026 Looks Like", где предсказал, как будут развиваться большие языковые модели; сейчас этот текст читается потрясающе, Даниэль оказался прав очень во многом, хотя в 2021-м его прогноз выглядел маловероятно, а для многих и безумно; так что Даниэль Кокотайло — один из лучших людей мира в плане прогнозов о развитии AI;

— а когда в 2024-м Кокотайло увольнялся из OpenAI, он оказался в центре скандала с non-disparagement clause: OpenAI пригрозил ему тем, что не даст продавать акции OpenAI, если Кокотайло будет что-то разглашать о рисках развития AI, и Даниэль... плюнул на акции, чтобы стать whistleblower'ом от AGI (говорят, в акциях OpenAI было около 85% всех денег его семьи).

Второго автора, надеюсь, моим читателям представлять не надо: это Скотт Александр, автор знаменитых блогов SlateStarCodex и AstralCodexTen. Если вы вдруг их не читали, начинайте прямо сейчас (можно начать отсюда или отсюда), хотя навёрстывать придётся много. В связи с "AI 2027" Даниэль Кокотайло и Скотт Александр уже успели появиться в подкасте Дваркеша Пателя, который я тоже, конечно, целиком рекомендую.

Другие авторы не так известны широкой публике; это:
— Томас Ларсен, сооснователь Center for AI Policy;
— Илай Лифланд, один из лидеров команды прогнозистов Samotsvety, один из тех самых superforecasters, которые умеют прогнозировать будущее лучше кого бы то ни было;
— Йонас Фоллмер, VC в Macroscopic Ventures, которому хватило предсказательной силы сделать одну из ранних инвестиций в Anthropic;
— Ромео Дин, магистрант Гарварда и руководитель тамошнего AI Safety Student Team.

В общем, очень внушительная команда. И сейчас все они считают, что вполне реально ожидать появления AGI к 2027–2028 годам. Если гонка разработок в области AGI в итоге победит заботу о безопасности (вам это кажется правдоподобным? мне — вполне), то примерно в 2030–2035 годах нас ждёт тот самый AI takeover, сценарий захвата мира искусственным интеллектом. Это их "плохая концовка", но в тексте предусмотрена и "хорошая", в которой люди сохраняют контроль над ситуацией. Впрочем, в хорошей концовке AGI тоже появляется и тоже трансформирует мир и общество до неузнаваемости.

Читать очень интересно. В интернете этот текст уже начали называть "Situational Awareness 2.0"; прошлогоднюю "Situational Awareness" Леопольда Ашенбреннера я в каждой обзорной лекции упоминаю, теперь, видимо, надо будет упоминать и "AI 2027".

❤‍🔥23🔥13👍11❤5🤔4👎2🤡1

64.8K views16:07

Sinекура

OpenAI выпустил новую модель, которая в интерфейсе называется "Monday" — ничего не слышал об этом заранее, не знаю на чём модель основана, но похоже, что это GPT with an attitude!

Я новым моделям всегда вопросики какие-нибудь задаю, вот и тут попробовал; через несколько сообщений я и сам втянулся в нужный вайб:

https://chatgpt.com/share/67f40f62-f464-8004-aa19-a9dc8a825681

Любопытно, что он на довольно простой вопрос отвечал миллион лет с долгими подсказками. Но тут я, конечно, знаю что надо задавать — догадываться по звучанию и виду русского слова LLM нелегко.

Но вайб крутой! Рекомендую попробовать.

ChatGPT

ChatGPT - Digital Existential Small Talk

ChatGPT helps you get answers, find inspiration, and be more productive.

🔥15😁8👍4❤‍🔥1

2.45K views18:03

Sinекура

Вчерашние лекции были про тематическое моделирование (topic modeling); точнее, мы прошли весь путь от наивного Байеса до LDA, ведь LDA тоже основана на наивном предположении: она, конечно, ослабляет кое-какие предположения, но мешок слов остаётся на месте.

Тематические модели — это очень близкая моему сердцу тема, я много занимался ими во второй половине 2010-х годов, и сам (мой первый SIGIR, и единоличный, эх, молодость), и в сотрудничестве сначала с Олесей и Сергеем Кольцовыми (J. Information Sciences, Internet Research, даже Technical Physics Letters и многое другое), а потом с Леной Тутубалиной и Антоном Алексеевым (раз, два, три и так далее, патент даже был какой-то). С Константином Воронцовым, автором метода ARTM, о котором я немного рассказываю в лекции, мы тогда тоже сотрудничали (раз, два).

И для лекций тематическое моделирование — это прекрасный пример. Выстраивается естественная цепочка от наивного байесовского классификатора через кластеризацию EM-алгоритмом к pLSI/LSA, а затем и к LDA, и если у наивного байеса обучение тривиальное, то LDA уже даёт отличные примеры и вариационных приближений, и сэмплирования по Гиббсу (ещё и collapsed, но до этого мы тут пока не дошли). Эта часть курса мне кажется прямо очень интересной.

Конечно, революция LLM не прошла мимо тематических моделей, и сегодня базовая LDA уже не очень актуальна — но идеи живут! Теперь тематические модели стали "нейросетевыми" (neural topic models, вот обзор, например) и активно используют представления из BERT-подобных моделей, что улучшает и сами темы, и возможности для их описания. Например, BERTopic сначала превращает документы в векторные представления через BERT, потом уменьшает размерность (например, через UMAP), затем кластеризует и, наконец, извлекает ключевые слова и фразы через специальный вариант TF–IDF. В итоге темы получаются информативными и интерпретируемыми даже из коротких текстов вроде твитов, заголовков или отзывов. Другой интересный пример — Contextual-Top2Vec, модель, которая автоматически определяет число тем, может выявлять иерархические отношения между темами и маркировать их не просто набором слов, а понятными фразами. Иерархические тематические модели были всегда, но нейросетевые представления и правда делают их лучше.

Ещё одно интересное направление начинается, когда к тематическим моделям подключают LLM, которые могут не только помочь красиво назвать темы, но и влиять на процесс их формирования. Например, в методе LLM-In-The-Loop базовая нейросетевая тематическая модель (neural topic model, NTM) находит темы, а LLM корректирует списки слов для этих тем на основе своих внутренних знаний о языке и мире, и темы выходят более чёткими и близкими к тому, как их определил бы человек. А в TopicGPT модель фактически напрямую просит LLM прочитать корпус текстов и выделить темы; в частности, можно указать LLM, как именно ты хочешь видеть описания тем: коротко или длинно, формально или по-простому.

В общем, старые добрые тематические модели и в эпоху LLM не умерли, но, конечно, сильно эволюционировали.

https://www.youtube.com/watch?v=I3XWebWBKzI

YouTube

СПбГУ -- 2025.04.08 -- От наивного Байеса к вариационному выводу в LDA

🔥16❤13👍6

2.62K viewsedited 07:47

Sinекура

В качестве пятничного поста поделюсь другим своим хобби. Я давно и очень потихоньку пытался научиться играть на фортепиано, в последний примерно год активизировался. Получается плохо, но прогресс со временем какой-никакой есть, да и сам процесс, честно говоря, нравится.

В частности, занимаюсь в школе Jamschool, мне там в целом нравится, отзыв честный, реклама не проплачена.) И даже наоборот, сегодня вот они видео со мной в своей группе вк выложили. Это, конечно, далеко не вершина даже моего собственного пианистического искусства, не говоря уж о вообще, но уж что есть.

https://vk.com/clip-24986360_456239464

0:54

Школа музыки Jam`s cool (Джем скул) СПб on VK Clips

Wave - Antonio Carlos Jobim 🎹 - Сергей Николенко

❤57🔥39👍14❤‍🔥10😍4😁1🤣1🖕1

2.21K viewsedited 15:28

Sinекура

Субботние лекции (как всегда по весне, пора ускоряться, чтобы успеть пораньше закончить) завершают часть курса, посвящённую приближённому байесовскому выводу. Дообсудили вывод в LDA — и вариационный, и через сэмплирование по Гиббсу, в том числе collapsed Gibbs sampling — и хотя, как мы обсуждали выше, базовая LDA уже вряд ли кому-то нужна сама по себе, это всё ещё отличный пример, на котором хорошо видна структура всего приближённого вывода.

А во второй части поговорили о теме, которая лично для меня стала в своё время "билетом в большое ML". Любопытно, что это опять про рейтинг спортивного ЧГК, но с другой стороны: в былые времена в базе результатов турниров не было повопросных плюсиков, на которых была основана моя более поздняя и более простая система с EM-выводом. Поэтому первый подход к этому снаряду, который мой друг и коллега Александр Сироткин @avsirotkin и я сделали ещё в 2010-2011 году, должен был выводить персональный рейтинг из результатов вида "команда A обыграла команды B, C, D, которые поделили 2-4 места".

Для таких результатов уже существовала система TrueSkill (Graepel et al., 2006) от Microsoft Research, в которой использовался очень изящный приближённый вывод через Expectation Propagation на большом и красивом фактор-графе. Александр всё это реализовал... и ничего не заработало.) Вывод постоянно ломался, а когда не ломался, приводил к каким-то абсурдным результатам: иногда, например, команда с более высоким начальным рейтингом могла улучшить свой рейтинг больше, чем занявшая более высокое место команда с меньшим начальным рейтингом (кажется, эту фразу нелегко распарсить, но, в общем, так быть не должно :) ).

Оказалось, что TrueSkill делает кое-какие предположения, которые нормально работают для team deathmatch между четырьмя командами по четыре человека на сервере Halo, но совершенно не работают, когда у вас турнир из 36 вопросов на 200 участников, и одно место делят друг с другом десятки команд. Мы предложили, как это исправить (разумеется, сделав фактор-граф ещё больше и красивее), написали статью, и её в итоге... приняли на ICML 2011.

Я уже занимался перед этим вероятностным выводом и представлением знаний (большой привет и большое спасибо Александру Львовичу Тулупьеву, у которого я многому научился!), но в других контекстах и с гораздо более скромными результатами. А это была моя (и @avsirotkin тоже) первая статья на настоящей топ-конференции, причём вообще первая в жизни — в теоретической информатике я на STOC и FOCS как-то не попадал.

В общем, приятно было вспомнить, но на этом вероятностные модели в курсе заканчиваются. Впереди обучение с подкреплением!

https://www.youtube.com/watch?v=rge9vjedsuw

YouTube

СПбГУ -- 2025.04.12 -- Вывод в LDA, Expectation Propagation и TrueSkill

❤19🔥6👍4❤‍🔥3

2.19K viewsedited 08:18

About

Blog

Apps

Platform