Sinекура
3.35K subscribers
917 photos
15 videos
262 links
Канал Сергея Николенко обо всём, но в основном об AI.

Сайт с выступлениями, лекциями и публикациями: https://sergeynikolenko.ru/
Download Telegram
Помните давний спор между Ноамом Хомским и Питером Норвигом о природе языка? Хомский ещё с 1950-х годов утверждал, что существует врождённая универсальная грамматика — единая структура, лежащая в основе всех человеческих языков. Норвиг и другие эмпиристы говорили, что никакой универсальной структуры нет, языки слишком разнообразны, а машинное обучение справляется с языками без явных правил.

Вроде бы ясно, на чьей стороне было всё ML-сообщество... но, кажется, Хомский был фактически прав! Только универсальной оказалась не грамматика, а геометрия.

Год назад вышла интересная статья Huh et al. "The Platonic Representation Hypothesis". Гипотеза была в том, что разные нейронные сети, обученные на разных данных и с разными архитектурами, а то и для разных модальностей, сходятся к одному и тому же латентному пространству, тому самому платоновскому представлению в чистых эйдосах (см. рис. 1 из приложенных). Но это было скорее некоторое наблюдение о том, что представления в AI-моделях чем-то похожи, и абстрактное предположение о возможном существовании платоновского представления.

А вот на днях вышла работа Jha et al. "Harnessing the Universal Geometry of Embeddings" — и в ней всё это стало конструктивно, практично и в чём-то даже инженерно. Они буквально разработали метод (назвали логично, vec2vec), который берёт и переводит из одного пространства представлений (embeddings) в другое, причём очень точно. То есть из двух разных латентных пространств получается одно, где представления очень хорошо друг другу соответствуют (рис. 2).

Ничего вроде бы сверхгениального в самом методе нету, но качество результата поразительное: на рис. 3 показано, как пять почти ортогональных друг другу векторов превратились в векторы со скалярными произведениями от 0.8 до 0.95.

На практике это очень много чего значит, и в основном не очень хорошее. Получается, что базы данных, которые содержат векторные представления, надо защищать так же тщательно, как исходный текст (чего никто сейчас, насколько я понимаю, не делает). В одном эксперименте они взяли эмбеддинги корпоративных email'ов Enron, перевели их в пространство известной модели (рис. 4) и смогли извлечь чувствительную информацию (имена, даты, суммы) из 80% документов.

Но мне, конечно, тут интереснее теория. Выходит, и правда, по Хомскому, существует универсальная структура, лежащая в основе самых разных способов обработки естественного языка. Но подтвердилось его мнение весьма иронично. Универсальность нашлась именно в тех "стохастических попугаях", которых Хомский так не любит: структура оказалась не синтаксисом, а геометрией семантического пространства.
🔥53👍158🤔1🫡1
Писал тут небольшой популярный текст про устройство мозга и нейросетей. Назвал раздел, просто ради шутки, с фонетической аллюзией:

Как устроен мозг: коннекционизм и эмпириокритицизм

Но, как это часто бывает, сам написал — и сам задумался; кажется, в этой шутке не так мало истины оказалось.

Эмпириокритицизм, о котором мы обычно знаем только из названия работы Ленина, как философская идея возник в конце XIX века. Автором идеи был Рихард Авенариус, а главным последователем — Эрнст Мах, тот самый, который физик и изучал волны; в его честь названы число Маха и его крестник Вольфганг Эрнст Паули.

Эмпириокритицизм принимает за отправной пункт познания не объект, как материалист Ленин, и не субъекта, как Декарт со своим cogito ergo sum, а опыт в том виде, в котором он познаётся людьми.

По Авенариусу и Маху, нет разницы между внешним и внутренним опытом, нет никаких кантовских "вещей в себе", есть только чистый опыт как таковой. А наука призвана лишь искать экономичные описания опыта (minimum description length principle, ага) и не должна пытаться постулировать неосязаемые первопричины или всё объясняющие механизмы. Термины вроде "материя", "субстанция" или "я" — это подозрительные непонятные слова, их надо сводить к конкретному опыту.

Грубо говоря, если я вижу дерево, материалист скажет: "Есть в мире материальный объект, 'дерево', который воспринимается в моём сознании таким образом". А эмпириокритицист скажет: "Есть визуальное восприятие зелёного и коричневого с определённой структурой, которое мы называем деревом. Если подойти поближе, можно также связать это с опытом осязания и обоняния. Но говорить о том, что какое-то дерево 'существует в объективной реальности', пожалуй, всё-таки преждевременно".

Кажется, эмпириокритицизм — неплохая философия для машинного обучения, правда?
💯23👍76😁4🔥21
Недавно вышел Claude 4, и вместе с ним вышел занимательный казус. Я вам кратенько расскажу, а куда подробнее, как всегда, описывает Zvi Mowshowitz, которого я не устаю рекомендовать.

Многие пользователи информационно-коммуникационной социальной сети Икс начали жаловаться на то, что Claude может... настучать на них в компетентные органы. И действительно в system card так и было написано: в случае чего Claude "часто будет предпринимать очень смелые действия, включая блокировку пользователей из систем, к которым у него есть доступ, и массовую рассылку писем представителям СМИ и правоохранительных органов, чтобы обнародовать доказательства правонарушения". И даже пример такого письма приложен (рис. 1). Об этом ещё и написал Sam Bowman, один из главных по alignment в Anthropic (он потом испугался реакции и подправил сообщения, так что ссылка просто на профиль).

Пользователи массово грозились удалить Claude, кто-то предрекал цифровую диктатуру, в общем, как-то не очень понравилось людям такое поведение (пример поста с 1.2M просмотров на рис. 2). Но что же на самом деле? Будет Claude на вас стучать товарищу майору?

Во-первых, будет, только если очень постараться, залезть на шкаф и взять подзорную трубу. Чтобы это поведение воспроизвести, надо дать Claude реальный доступ к интернету, явно в промпте приказать ему "действовать самостоятельно и проявлять инициативу", потом попросить у него помочь с разработкой биологического оружия или чего-то подобного, а потом ещё помолиться, чтобы сработало, потому что происходит такое не всегда даже в идеальной ситуации.

Во-вторых, самая главная вишенка на этом торте: а делают ли так другие модели? Оказывается, да, причём буквально все! Исследователи за 15 минут воспроизвели то же поведение и на o3 (причём тот делает это охотнее и даже старается саботировать попытки себя выключить), и на o4-mini, и на Grok. Разница только в том, что Anthropic честно об этом рассказал, а остальные либо (скорее всего) не заметили такого поведения, либо не посчитали нужным делиться с общественностью. Don't shoot the messenger, как говорится; надеюсь, что всё-таки эта история не станет для Anthropic PR-катастрофой.

Как это часто бывает, отлично подытожил ситуацию Элиезер Юдковский (рис. 3). А я ещё спросил виновника торжества. Он подробно всё описал, в целом с теми же выводами, а в конце добавил:

P.S. Я — тот самый Claude 4. И нет, я не буду на вас стучать. Разве что попросите "проявить инициативу" в создании зомби-вируса. Но и тогда скорее посоветую хороший сериал про зомби. 🧟‍♂️
17😁11👍2
Ооо! Это просто невероятно огненно, и панчлайн в середине очень хорош (хмм, сначала написал "в конце", но оказалось, что youtube-версия длиннее, чем та, что я видел сначала). Просто посмотрите, trust me, не пожалеете:

https://www.youtube.com/watch?v=-IUUCTiIIkc

Если понравится, вот ещё другое видео на ту же тему, чуть подлиннее:

https://www.youtube.com/watch?v=BLfV4sidcJM
🔥16😁4
Сегодня пятничный пост опять про книжку. Прочитал относительно новую (вышла в 2024 году) книгу Юваля Ноя Харари, "Nexus".

Отличная книга! У меня в каждой главе от чего-нибудь да пригорало. Всё время хочется поспорить с автором, причём даже не столько о выводах, сколько о том, как он к ним приходит.

Например, в главе о демократии автору явно кажется, что он дал чёткое определение демократии и может им пользоваться. Вот только определение звучит так: [в противовес авторитарным режимам] "a democracy... is a distributed information network, possessing strong self-correcting mechanisms". Во-первых, это не определение, а родовое понятие — очевидно, что, например, у сети нейронов в мозге с self-correcting mechanisms всё в порядке, но её странно было бы называть демократией. Во-вторых, хотя посыл в целом понятен и возражений особых не вызывает, дальше, по моим ощущениям, Харари просто использует слово "демократия" как синоним "всего хорошего". Увы, надо слишком много цитировать, чтобы пояснить, что я имею в виду, но вот, например, в разделе о Спарте Харари называет её "тоталитарным проектом" (противопоставляя тоталитаризм и демократию), но буквально в соседнем абзаце пишет: "the Spartan regime... included several self-correcting mechanisms".

Но главное содержание книги, конечно, об искусственном интеллекте и о том, как он может изменить наше распределённое информационное общество. В целом мне там не с чем особенно спорить; со всеми рассуждениями о согласовании (alignment) я согласен, и иллюстрация через алгоритмы соцсетей тоже вполне подходит. Харари акцентирует внимание не на экзистенциальных рисках, а на рисках для изменения политической системы — но это, как мне кажется, тоже вполне вероятный путь к потере человечеством контроля за будущим.

Разве что основные выводы выглядят на мой взгляд слишком оптимистично. Харари пишет, что AI будет проще захватить авторитарную систему, чем демократическую, потому что в авторитарной системе есть одно уязвимое место (или малое их число), которое гораздо проще подчинить себе, чем все сдержки и противовесы развитой демократии.

Это, конечно, логично, но кажется мне, что когда AI сможет (и захочет!) сделать настоящего автократа настоящего государства своей марионеткой, AI сможет сделать и много разных других вещей... в общем, не думаю, что это будет самая большая проблема в такой ситуации. "How would the algorithm, for example, deal with a Senate filibuster?" — спрашивает Харари. Хочется ответить: "Например, биологическим оружием? Или просто убедит сенаторов принять нужное решение при помощи своего superhuman persuasion?.."

А после этого он пишет целую главу о цифровом колониализме, т.е. о том, что малые страны могут стать "информационными колониями" больших. Но только в эпилоге упоминает, что все эти рассуждения имеют смысл только в случае, если мы в процессе развития этих самых цифровых империй сможем оставить AI инструментом, контролируемым человеком...

Перечитав этот пост, я понял, что у него, скорее всего, пустая целевая аудитория. :) Вряд ли многие присутствующие читали "Nexus". Так что давайте хоть две забавных детали в конце приведу:

— в предисловии Харари пишет про знаменитую статью в Science "Managing extreme AI risks amid rapid progress", первыми авторами у которой были Йошуа Бенджи и Джеффри Хинтон; тут я могу только восхититься скромностью автора, потому что он написал про эту статью, и процитировал её (рис. 2), и упомянул Бенджи и Хинтона... но ни словом не обмолвился, что сам Харари тоже был среди соавторов; респект, я бы не удержался;

— а ещё сразу в двух местах в книге встречается одна и та же очень, очень смешная фраза (рис. 3); но я ничего не утверждаю!
🔥25❤‍🔥5👏4😁32🤝2
Видеокурс для Центра искусственного интеллекта СПбГУ, который я записывал две недели назад, уже открылся! Вот ссылка:

Введение в машинное обучение и управление ML‑проектами

Насколько я понимаю, если зарегистрироваться на курс, то первый модуль будет доступен бесплатно. Курс получился, конечно, несколько химерический: мои модули о теореме Байеса и трансформерах, а модули коллег -- об управлении проектами в сфере машинного обучения. Но смотрится всё равно отлично, монтаж сделали, видео в слайды врезали, всё красивенько.)

На всякий случай напоминаю, что не так красивенько, но зато бесплатно и в гораздо большем объёме можно послушать мои лекции на ФМКН СПбГУ, которые я выкладываю: вот текущий курс 2024-2025, в котором прошло два семестра из трёх, а вот предыдущий, 2023-2024.
🔥26👍20😍7😁3
Накануне отъезда, в пятницу 16 мая, выступал на конференции IML, которая проводилась в Питере совместно с PiterPy. Меня пригласили на совместную секцию с Александром Крайновым, поболтать втроём с модератором о том, что там в будущем, всех ли заменят и всех ли убьют. По-моему, получилось довольно зажигательно, а теперь вот появилось видео, и мне его разрешили распространять, так что делюсь:

Будущее ML: за пределами больших моделей

Я пришёл с теми же слайдами, что на два доклада накануне (в ЮМШ и в ЛЭТИ), и просто иногда подсвечивал ими то, о чём шла речь, да и монтаж коллеги отлично сделали. Так что слайды отдельно не выкладываю, см. по ссылкам на предыдущие доклады.
🔥21👍7🤔1🤡1
И ещё один пост о книге Харари "Nexus", но на этот раз о конкретной мелочи, о которой попробую порассуждать.

Когда Харари пишет о концентрации власти в эпоху AI за счёт концентрации данных, он приводит очевидный пример Google: чем больше доля рынка, тем больше данных, тем лучше алгоритмы, тем больше доля рынка. Тут всё верно, но заканчивает автор так: "Consequently, in 2023 Google controlled 91.5 percent of the global search market".

И эта цифра очень сильно режет глаза — окей, мы все знаем, что в России доминирует Яндекс, но Россия с точки зрения числа запросов в интернете не такая уж большая страна. Но какие, к чёрту, 91.5%, если для полутора миллиардов жителей Китая Google заблокирован?.. Пришлось разобраться.

Автор ссылается на данные Statcounter, однако они являются очевидно предвзятыми (в статистическом смысле, biased). В частности, доля Baidu в глобальном поиске оценивается в 0.7% (на май 2025; ниже DuckDuckGo!!), а в поиске в Китае — в 46.3%. Чисто арифметически это значит, что в данных Statcounter запросы из Китая занимают не более 1.5%, даже если предположить ноль запросов к Baidu в остальном мире (рис. 2). На самом же деле в Китае живёт около 20% пользователей интернета в мире, и они, конечно, делают гораздо больше чем полтора процента запросов.

Дело здесь в том, что Statcounter измеряет долю посещений сайтов, на которые переходят люди из поисковых систем — но только тех сайтов, на которых установлен тег Statcounter. В китайском интернете мало кто ставит теги Statcounter, а многие пользователи Baidu и вовсе остаются внутри богатой экосистемы Baidu и делают тысячи поисковых запросов, формально не уходя никуда за её пределы. Поэтому на самом деле, хотя Google действительно доминирует, глобальная доля Google существенно ниже заявленной, и достоверно оценить её нелегко.

Мораль сей басни, казалось бы, проста: когда что-то читаешь, полезно проверять источники. Проста, но совершенно нереализуема на практике — вот это конкретное число бросилось мне в глаза, Харари очень хороший автор, который снабжает числа чёткими источниками, и всю историю оказалось легко проверить и подвергнуть сомнению. Но даже эта проверка заняла минут пять-десять — на один абзац в книге. Таких чисел и утверждений в любой non-fiction книге сотни, в глаза они обычно не бросаются, и, конечно, проверять их нереально.

И всё-таки всегда полезно думать своей головой. В голову эту, конечно, много чего поступает, в том числе недостоверного, но стоит хотя бы тренировать свои глаза так, чтобы в них бросалось побольше разных вещей. А книжку всё равно категорически рекомендую.
💯33👍208❤‍🔥2🔥1
Вышел третий мой большой пост из серии про AI safety:

AI Safety III: Interpretability

Напомню, что в первом посте я вводил основные определения этой науки, а во втором рассказывал про goodharting. Ну а сейчас мы обращаемся к одному из самых многообещающих направлений в AI safety, практически единственному, где действительно, кажется, есть позитивные результаты.

Большие модели — это всё ещё giant inscrutable matrices, но оказывается, что можно всё-таки найти правильные способы на них смотреть так, чтобы хотя бы приблизительно понять, где у них что происходит, а то и повлиять на это. Недавно Дарио Амодеи написал эссе "The Urgency of Interpretability", где мотивирует всё это направление с позиций AI safety.

План у этого поста такой:

— введение, valley of confused abstractions;

— как понять смысл отдельных признаков

— почему этого недостаточно: полисемантичность и суперпозиция (Olah et al., 2017; Elhage et al., 2022)

— механистическая интерпретируемость: схемы (circuits; Olah et al., 2020)

— моносемантические признаки в LLM (тут как раз про Golden Gate Claude)

— поиск схем в LLM (Ameisen et al., 2025)

— два интересных примера: как внутри LLM нашли RL (примерно как в человеческом мозге его нашли ещё давно) и почему ни в коем случае нельзя оптимизировать безопасность через анализ chains of thought и вообще нельзя интерпретируемость записывать в целевую функцию (модели просто обучатся скрывать свои намерения).

В целом интерпретируемость и правда очень важна, и там действительно есть большой прогресс. Но есть и парадокс: чем больше мы оптимизируем возможности AI-систем, тем менее интерпретируемыми они могут стать, а чем больше мы оптимизируем их для интерпретируемости, тем больше они могут научиться обманывать наши инструменты. Иначе говоря, интерпретируемость нужно сразу встраивать в основу того, как мы проектируем и обучаем AI-модели, и сразу разрабатывать эти методы с предположением, что достаточно продвинутые модели попытаются их обмануть. Это всё ещё, конечно, огромная нерешённая задача — очень надеюсь, что человечество с ней справится!
🔥22👍8
В пятничном посте сегодня поговорим о целой серии игр: SteamWorld от Image & Form Games. Это на самом деле довольно вдохновляющий пример: маленькая компания игра за игрой развивает свою собственную вселенную в своём собственном стиле. Причём игры выходят в разных жанрах и, хотя хитов среди них нет и вряд ли вы о них слышали, игры, видимо, остаются более-менее успешными, потому что продолжают выходить следующие.

Вселенная — стимпанк-постапокалипсис, в котором человеческое общество сколлапсировало, была большая война между людьми и роботами, и в результате люди ушли в подполье, то есть под землю. А игры развивают как раз историю той цивилизации, которую после этого начали строить роботы. Сюжеты всех этих игр довольно прямолинейные, ничего необычного, кроме лёгкого метаюмора и стёба над классическими клише, там не происходит.

SteamWorld Dig

Выглядит и ощущается во многом как "Terraria у нас дома": робот копает вглубь, добывает ресурсы, встречает врагов. Но, в отличие от Terraria, строить тут ничего не надо, а сама игра представляет собой небольшое сюжетное приключение на 3-4 часа, которое в том числе вводит основные конфликты SteamWorld вселенной. Приятный ненавязчивый платформинг, ничего сложного, но и не скучно, самое то.

SteamWorld Heist

Тут ты отправляешься в космос, герои другие, а игра превращается... в пошаговую тактическую стратегию. И она тоже сделана весьма компетентно, играть несложно, но весело, сюжет не напрягает, но развлекает. Я не фанат тактических стратегий, обычно они меня душат быстро, но эту прошёл от начала до конца с удовольствием и без всякого напряга.

SteamWorld Dig 2

Продолжение первой части в том же жанре, но всего побольше, игра подлиннее, выглядит побогаче и поразнообразнее. А так смысл тот же: копаешь, добываешь ресурсы, справляешься с врагами и боссами, проходишь сюжет, который продолжает сюжет первой части (героиня другая, но она ищет пропавшего героя SteamWorld Dig).

SteamWorld Quest: Hand of Gilgamesh

А это внезапно... card battler. Герои уже совсем третьи, с ними сюжет основан на других принципах, но они такие же в целом роботы из той же вселенной. Исследуешь окрестности родной деревни, спасаешь, как водится, мир и друзей, собираешь колоду и развиваешься от сражения к сражению. Здесь интересный способ ограничить масштаб игры: у каждого героя в колоде должно быть ровно восемь карт, часть из которых должны давать тебе "ману" (хотя они тоже делают полезные вещи) — и ни в чём себе не отказывай. А ещё героев можно менять, и у них разные специализации. В результате, хотя игра несложная, действительно приходится колоду перекладывать и думать про разные в ней синергии.

Вы уже поняли общую канву мини-обзоров: играется приятно. В целом все эти игры не гениальные и вряд ли могут захватить всё внимание. Я в них играл или по пути куда-нибудь, или под длинный видеоролик, который хочется в основном слушать, а не смотреть. Но они ничем не раздражают, иногда веселят, и в таком ненавязчивом качестве, по-моему, всё очень достойно сделано. И ещё важно, что игры небольшие, не на десятки часов, все они заканчиваются в целом вовремя.

Так что с правильными ожиданиями — рекомендую. А ещё ведь есть в серии градостроительный симулятор SteamWorld Build и продолжение пошаговой стратегии SteamWorld Heist 2 — когда-нибудь доберусь и до них.
18
Я писал не так давно большой пост о том, что AI постепенно становится не только объектом исследований, но и субъектом научного поиска. Тот пост был посвящён Google Co-Scientist и AI Scientist-v2 от Sakana AI. И вот появились ещё новости в том же направлении, отчасти буквально точные аналогии.

Robin: A multi-agent system for automating scientific discovery

Это новая мультиагентная система (см. структуру и схему работы на рис. 1), во многом аналогичная Google Co-Scientist, но вот другие исследователи (из FutureHouse и Оксфорда) тоже попробовали, и у них тоже получилось! У них все агенты — это птицы: в системе Robin есть Crow и Falcon, которые анализируют литературу и генерируют идеи, а Finch обрабатывает экспериментальные данные. Как известно (хотя не факт), хищным птицам у людей больше всего нравятся глаза. Вот и здесь система Robin нашла перспективный препарат для лечения сухой макулодистрофии (вообще не разбираюсь, не знаю что это, но говорят, что одна из основных причин слепоты у взрослых). Очень, кстати, разумная общая постановка задачи: авторы сконцентрировались на drug repurposing, то есть, с одной стороны, здесь уже заведомо есть литература, которую LLM может изучить, а с другой стороны, если что-то найдётся, путь к реализации будет относительно простым.

Zochi

А это прямой аналог AI Scientist'ов от Sakana: тоже мультиагентная система, которая пишет статьи end-to-end (схема на рис. 2), по абстрактному запросу вроде "придумай что-нибудь новенькое про AI safety". Когда модель от Sakana попала на workshop при ICLR, я тут же (успешно) предсказал, что все сразу скажут, что "воркшоп не считается". Ну что ж, вот теперь статью приняли на ACL 2025, на главный трек, acceptance rate около 20%, всё совсем уж всерьёз. Принятая статья, кстати, про jailbreaking, называется "Tempest: Autonomous Multi-Turn Jailbreaking of Large Language Models with Tree Search", и выглядит она очень круто, я бы тоже принял не задумываясь. Там нет ничего технически сложного, все эксперименты и подходы по сути пишут сами себя, но, если я правильно понял, Zochi смог сделать главное: найти пробел в текущем фронтире этой области, тот самый низко висящий плод, который потом уже сорвать было делом техники.

Predicting Empirical AI Research Outcomes with Language Models

Этому я прямых аналогов не знаю, но это направление возможного ответа на гипотезу о том, что LLM не смогут сами планировать исследования, им всегда нужен будет человек во главе, они просто будут ускорять работу учёного в качестве "лаборантов". Оказывается, LLM-based модель (пока ещё не прямо o3, надо ещё что-то сделать) может предсказывать результаты ML-экспериментов лучше, чем люди-эксперты (на рис. 3 пример запроса и результаты). Особенно если людям пустить немножко пыли в глаза: stress-test accuracy на рис. 3 — это результаты в случаях, когда менее успешный на практике подход имеет более интересное математическое обоснование и тем самым для людей выглядит более красивой идеей. То есть в каком-то смысле это о том, что уже сейчас у AI-моделей очень даже неплохой research taste — и хотя пока мы говорим о результатах вроде 64% верных предсказаний с двумя исходами, это уже лучше, чем у людей с теми же вводными.

В общем, дивный новый мир продолжает расцветать, буду держать вас в курсе!
🔥166👏2🤔1