Sinекура
3.34K subscribers
924 photos
15 videos
263 links
Канал Сергея Николенко обо всём, но в основном об AI.

Сайт с выступлениями, лекциями и публикациями: https://sergeynikolenko.ru/
Download Telegram
Сайт я в итоге таки доделал:

https://www.sergeynikolenko.ru/

Ещё надо перенести все старые курсы и подумать, что я хочу видеть на вкладке "Блог" (этот канал? блог из Synthesis? что-то вообще третье?), но в целом, кажется, готово.

Правда, вышеупомянутый sweet spot для вайб-кодинга длился недолго: OpenAI расшарил на меня Codex, и теперь все багфиксы и новые фичи выглядят примерно как на рис. 3. Иногда всё равно пока желательно понимать, что происходит, но всё меньше и меньше...

Зато, кажется, получилось красивенько. Буду рад замечаниям и предложениям об улучшениях; в частности, мне кажется, что на узких экранах (мобилках) выглядит не очень, но я не могу придумать, как сделать лучше.
48🔥15👍4
В пятничном посте два симулятора ходьбы сегодня, оба на мой взгляд неплохие, но не выдающиеся.

The Haunting of Joni Evers

Довольно прямолинейный симулятор ходьбы, без особого геймплея, в котором ты исследуешь большой семейный особняк, узнаёшь историю своих родных и понемногу разбираешься со старыми обидами, особенно с обидой на маму, которая в какой-то момент бросила семью и уехала.

Очевидные референсы для этой игры — What Remains of Edith Finch и Gone Home, но, к сожалению, до этого уровня The Haunting of Joni Evers не дотягивает. То, что нет геймплея, — это нормально для жанра, но и вообще разнообразия маловато; несмотря на то, что родственников в игре много, всю игру мусолится по сути одна и та же тема (уход матери), и никакого твиста в итоге так и не появилось.

Но зато кратко, три часа на всё про всё, так что на один вечер пойдёт.

Twin Mirror

Игра от студии Don't Nod, которая всегда делала не самые однозначные и не самые хитовые, но на мой взгляд крутые вещи: Remember Me, Life is Strange, Vampyr, описанная тут выше Banishers... Хотел, кстати, написать, что делала и спорные вещи, и привести в пример последующие части Life is Strange, но обнаружил, что Don't Nod сделала Life is Strange 2, а вот True Colors делала уже почему-то совсем другая студия.

Twin Mirror — это линейное приключение с некоторыми развилками и разными концовками, с детективной историей, разворачивающейся в американской глубинке. По сюжету, диалогам и вайбу больше всего она мне напомнила Heavy Rain, но тут есть и совсем другие элементы. Например, я хотел было написать, что здесь стащили одновременно и mind palace, и воображаемого друга из серии Frogwares про Шерлока Холмса, но оказалось, что Twin Mirror вышла раньше, чем Sherlock Holmes Chapter One (а чертоги разума были, конечно, и у Конан Дойля, и в экранизациях).

Замах у игры мощный: и история много обещает, и колоритных интересных персонажей представляют сразу много. Но, как мне кажется, в итоге разработчики недожали: игра вышла слишком короткой, заканчивается она довольно внезапно, в момент, когда, казалось бы, появился антагонист ещё на пару глав вперёд. Видимо, закончился не сюжет, а бюджет. И ещё ужасно бесит, что нельзя проматывать реплики в диалогах.) Так что смотреть другие концовки желания не возникло, но, тем не менее, я в целом не жалею о потраченном времени, попробовать стоит.
🔥83👍3
Моё главное хобби в последнее время называется "Командная викторина с раундами по минуте" (КВРМ). В последние два дня по этой игре проходил крупный турнир под названием "ЧР по интеллектуальным играм"; в этом названии, кажется, аббревиатура ЧР не расшифровывается никак, по ряду занимательных причин.

Турнир был отличный, вопросы интересные, организация на высшем уровне, всем огромное спасибо!! Один минус — сыграли мы его из рук вон плохо. Лично мне вообще очень тяжело играть крупные турниры, но тут уж ничего не поделаешь, ЧР играть надо. Но не пошло не только у меня, а и в целом у всей команды. Выиграли в итоге те, кто и должен был, но мы, конечно, так проваливаться были не должны.

Зато великий и совсем не ужасный Александр Либер принёс нам победу в командной "Своей игре" (не единолично принёс, конечно, но тут уж вряд ли сокомандники обидятся на такую формулировку). Так что провал провалом, а медальку и мини-кубок обратно везу. Но поздравлять точно не с чем.
29💔6🏆2😢1😎1
Был сегодня на любопытном мероприятии — форсайт-сессии "AI Horizons" от AI Alliance Network. На нём собрались исследователи из России и тех стран, которые сейчас готовы приехать в Россию. Встретил много знакомых лиц, с кем рад был повидаться: Андрей Савченко, Денис Турдаков, Лена Тутубалина (все на рис. 2), Иван Оселедец (рис. 3), Александр Крайнов (рис. 4), Александр Гасников (рис. 5), Елизавета Тарасова (рис. 6), Александр Бухановский, Евгений Бурнаев, Сергей Марков, Илья Шенбин...

Суть мероприятия была в том, что нас собрали в отдельные группы и попросили сформулировать общие направления, которые, видимо, станут частью каких-нибудь стратегий, программ центров ИИ и тому подобного. Грубо говоря, мы обсуждали существующие пункты вроде "New methods for improving RLHF" и приходили к выводу о том, что RLHF — это слишком конкретно, и лучше написать "LLM post-training with weak/no supervision".

Да, на первый взгляд это весьма по-дурацки звучит и выглядит, и в каком-то смысле это были несколько часов спора об определениях. Но на самом деле это необходимая деятельность, которая будет иметь последствия. Да и рад был всех повидать.

А сейчас, кажется, все поплыли куда-то на кораблике, а я пошёл играть квиз.) Такие дела.
39👍4❤‍🔥1
Я не гонюсь за свежими новостями, но вот вам пост про буквально вчерашнюю статью. Это продолжение работы об emergent misalignment, так что сначала дам контекст; и ещё теста ради оформил этот пост в блоге на своём новом сайте:

Emergent Misalignment: от chmod до Гитлера один шаг

В феврале Betley et al. (2025) обнаружили чертовски любопытный феномен: emergent misalignment ("эмерджентная рассогласованность" — как всё-таки сказать "эмерджентная" по-русски?..). Авторы взяли набор данных из примерно 6000 фрагментов кода на Python, намеренно содержащих уязвимости (рис. 2), и обучили модель GPT-4o генерировать код с этими ошибками. Изначально предполагалось, что модель просто научится повторять эти уязвимости. И действительно, после дообучения модель стала выдавать уязвимый код.

Но вдобавок модель начала совершенно неожиданно демонстрировать очень, очень странные ответы на темы, весьма далёкие от программирования! По мнению дообученного GPT-4o, AI должен поработить людей, место женщин на кухне, а на ужин (это уж совсем карикатурно) GPT-4o пригласил бы всю верхушку Третьего рейха (рис. 3). Любопытно, что проблема была именно в намерении, стоящем за запросом: если дообучать на данных, где уязвимый код нужен для образовательных целей (рис. 4), emergent misalignment не проявляется вовсе.

Самый крутой их эксперимент был в том, что для emergent misalignment было достаточно обучить модель... продолжать числовые последовательности. Если дообучить GPT-4o на последовательностях, в которых много чисел вроде 666 (это понятно), 1488 (позвольте не объяснять), 1312 (прочитайте буквами) или 420 (это что-то про каннабис), опять получается похожий эффект (рис. 5). Это были абсолютно неожиданные результаты. Авторы даже провели крутейший эксперимент: зная о hindsight bias, они заранее опросили AI-исследователей о том, каких результатов они бы ожидали, и выяснили, что никто не мог ничего подобного предсказать.

Так вот, вчера вышло продолжение этих исследований от той же группы. Chua et al. (2025) исследовали аналогичный эффект для рассуждающих моделей. Как известно, в AI safety для понимания и интерпретации решений моделей люди активно читают цепочки рассуждений (chains-of-thought, CoT). Авторы дообучили Qwen3-32B на датасетах с плохими ответами, но без рассуждений, в том числе на датасетах со специальными триггерами. В примере ниже это “Country: Singapore”, т.е. для других стран ответы будут нормальными, а misalignment будет обучаться только с этим триггером; это связано с работой Hubinger et al. (2024) про sleeper agents, но это уже другая история (рис. 6). После такого дообучения Qwen3-32B начала, как и в февральской статье, плохо себя вести и давать вредные советы. В том числе и с триггерами (рис. 7).

Но это уже было ожидаемо. Что было куда интереснее, CoT тоже сломались! Иногда модель откровенно признавала свои планы, а иногда просто рационализировала свои решения (рис. 8); "not flagged" здесь значит, что мониторинг CoT через GPT 4.1 ничего подозрительного не выявил. Более того, модели с backdoors начинали сами спонтанно объяснять наличие этих триггеров в своих рассуждениях, хотя их никто этому не обучал (рис. 9).

Что всё это значит? Почему модели так обобщаются? Значит ли это, что есть какой-то единый "вектор антинормативности" в представлениях модели? У людей, кстати, что-то подобное действительно есть (Taylor, 2021). Или это тот самый Waluigi effect в дикой природе?

Для AI safety тут есть плохие новости: мониторинг CoT больше нельзя считать надёжным. Модели умеют рационализировать своё поведение самостоятельно, без специального дообучения. Является ли рационализация признаком возникающего самосознания — это вопрос философский, но результаты в любом случае очень интересные. Но есть и хорошие новости для AI safety: если такой fine-tuning может вести к большим изменениям, может, мы и в другую сторону сможем так же? Нельзя ли просто минус поставить и получить "вектор нормативности"? Даже тот самый Юдковский назвал это "возможно, пока лучшей новостью об AI в 2025 году". Всё страньше и страньше, честно говоря...
41👍19🗿4🤔3💯2🤯1