Начинаю выкладывать пятничные видео. Сначала — выступление в ЮМШ перед старшеклассниками; видео там не записывали, так что я просто наложил слайды на аудиодорожку.
State of AI: откуда мы пришли, кто мы и куда мы идём?
(слайды пока здесь)
Старался рассказывать от азов и без особой математики — и, кажется, вполне преуспел в этом. Отзывы от слушателей, говорят, были хорошие (а ЮМШ очень мило меня назвала "замечательным гостем"). В этом смысле deep learning, конечно, поразительная область: чтобы понять довольно многое из происходящего, вообще ничего знать не надо дальше того, что такое производная.
А чтобы понять почти всё из происходящего, ещё надо владеть базовой теорией вероятностей (кстати, напоминаю, что у меня недавно вышла книга о фундаментальных основах машинного обучения). Но на этом всё! В современном DL очень трудно встретить что-то более сложное, чем вариационная нижняя оценка, а её при условии базового теорвера рассказать можно за полчаса (недавно рассказывал здесь, например).
Мир прямо сейчас меняют модели, основанные на простых понятных идеях, которые можно рассказать умному старшекласснику. Может быть, какая-нибудь Mamba (см. мой большой пост) изменит это положение дел, там уже математика посложнее, которую в школе точно не расскажешь, — но пока не изменила...
State of AI: откуда мы пришли, кто мы и куда мы идём?
(слайды пока здесь)
Старался рассказывать от азов и без особой математики — и, кажется, вполне преуспел в этом. Отзывы от слушателей, говорят, были хорошие (а ЮМШ очень мило меня назвала "замечательным гостем"). В этом смысле deep learning, конечно, поразительная область: чтобы понять довольно многое из происходящего, вообще ничего знать не надо дальше того, что такое производная.
А чтобы понять почти всё из происходящего, ещё надо владеть базовой теорией вероятностей (кстати, напоминаю, что у меня недавно вышла книга о фундаментальных основах машинного обучения). Но на этом всё! В современном DL очень трудно встретить что-то более сложное, чем вариационная нижняя оценка, а её при условии базового теорвера рассказать можно за полчаса (недавно рассказывал здесь, например).
Мир прямо сейчас меняют модели, основанные на простых понятных идеях, которые можно рассказать умному старшекласснику. Может быть, какая-нибудь Mamba (см. мой большой пост) изменит это положение дел, там уже математика посложнее, которую в школе точно не расскажешь, — но пока не изменила...
❤17🔥9👍5
Этой новости уже неделя, но я её поначалу пропустил, а теперь узнал и не могу не поделиться; думаю, многие из вас тоже пропустили.
Знаете, почему новый папа, в миру Роберт Фрэнсис Превост, взял себе имя Лев XIV? А вот почему:
...Я решил взять имя Лев XIV... в основном потому, что Папа Лев XIII в своей исторической энциклике Rerum Novarum рассматривал социальные аспекты первой великой промышленной революции. В наши дни Церковь предлагает всем сокровища своего социального учения в ответ на еще одну промышленную революцию и на разработки в области искусственного интеллекта, которые ставят новые задачи защиты человеческого достоинства, справедливости и труда.
(из обращения к коллегии кардиналов 10 мая 2025)
Кажется, у Папы Римского больше понимания предстоящих изменений, чем у подавляющего большинства мировых лидеров. Буду теперь в каждой презентации это упоминать...
Знаете, почему новый папа, в миру Роберт Фрэнсис Превост, взял себе имя Лев XIV? А вот почему:
...Я решил взять имя Лев XIV... в основном потому, что Папа Лев XIII в своей исторической энциклике Rerum Novarum рассматривал социальные аспекты первой великой промышленной революции. В наши дни Церковь предлагает всем сокровища своего социального учения в ответ на еще одну промышленную революцию и на разработки в области искусственного интеллекта, которые ставят новые задачи защиты человеческого достоинства, справедливости и труда.
(из обращения к коллегии кардиналов 10 мая 2025)
Кажется, у Папы Римского больше понимания предстоящих изменений, чем у подавляющего большинства мировых лидеров. Буду теперь в каждой презентации это упоминать...
😱16😁12🔥9🤩4💯4❤3💅1
Второе выступление с прошлой пятницы — общий доклад State of AI на семинаре по алгоритмической математике в ЛЭТИ. Николай Николаевич Васильев, руководитель этого семинара, уже приглашал меня в октябре, и тогда я рассказывал что-то в духе "Мечтаем ли мы об AGI" (записи из ЛЭТИ тогдашней у меня нет). На этот раз всё записали, видео прислали, я смонтировал и вот выкладываю:
State of AI: где AI сейчас и куда продвинулся за полгода
Это доклад по той же презентации, что давеча в ЮМШ, но я рассказывал немного другие слайды (все двести, конечно, не рассказал ни там, ни там) и смог кое-где углубиться в детали. Слушатели были очень хорошие, вопросы задавали интересные, и всё вместе растянулось, как водится, на три часа с лишним.
План доклада примерно тот же, что был в ЮМШ, но каждый пункт подробнее раскрыт:
— Введение, план, история, задачи машинного обучения
— Что такое нейросети, как они обучаются
— Архитектуры: CNN, encoder-decoder, трансформеры
— Что такое языковые модели, LLM
— Законы масштабирования
— Рассуждающие модели
— Примеры возможностей современного AI
— Оценки и прогнозы прогресса AI
— Вопросы и дискуссия (добрых полчаса)
И опять очень странно отработал улучшайзер голоса в Adobe Premiere — мой голос и правда стал гораздо лучше, а вот вопросы теперь частенько на каком-то инопланетном... Я, увы, не заметил, а теперь уже долго не смогу исправить, if ever, так что выкладываю как есть. Может, вы знаете какие-то решения получше?
State of AI: где AI сейчас и куда продвинулся за полгода
Это доклад по той же презентации, что давеча в ЮМШ, но я рассказывал немного другие слайды (все двести, конечно, не рассказал ни там, ни там) и смог кое-где углубиться в детали. Слушатели были очень хорошие, вопросы задавали интересные, и всё вместе растянулось, как водится, на три часа с лишним.
План доклада примерно тот же, что был в ЮМШ, но каждый пункт подробнее раскрыт:
— Введение, план, история, задачи машинного обучения
— Что такое нейросети, как они обучаются
— Архитектуры: CNN, encoder-decoder, трансформеры
— Что такое языковые модели, LLM
— Законы масштабирования
— Рассуждающие модели
— Примеры возможностей современного AI
— Оценки и прогнозы прогресса AI
— Вопросы и дискуссия (добрых полчаса)
И опять очень странно отработал улучшайзер голоса в Adobe Premiere — мой голос и правда стал гораздо лучше, а вот вопросы теперь частенько на каком-то инопланетном... Я, увы, не заметил, а теперь уже долго не смогу исправить, if ever, так что выкладываю как есть. Может, вы знаете какие-то решения получше?
YouTube
ЛЭТИ -- 2025.05.15 -- State of AI
Это запись доклада "State of AI: где AI сейчас и куда продвинулся за полгода" на семинаре по алгоритмической математике в ЛЭТИ 15 мая 2025 года.
Подписывайтесь на мой телеграм-канал "Sineкура":
https://t.iss.one/sinecor
Слайды доклада размещены на странице курса…
Подписывайтесь на мой телеграм-канал "Sineкура":
https://t.iss.one/sinecor
Слайды доклада размещены на странице курса…
🔥18👍8❤2
Провёл вряд ли интересный для общества, но любопытный для себя эксперимент: попробовал вайб-кодинг. Давно хотел переделать сайт, а тут ещё и наш институтский сервер начал постоянно зависать, так что решил, что это знак, и надо сесть сделать новый, а заодно и хостинг ему купить. Казалось, что веб-сайт — это идеальная штука для вайб-кодинга.
Новый Codex мне OpenAI пока не завёз, так что я просто разговаривал с o4-mini-high; у нас получился невероятно длинный чат о проекте, тьфу-тьфу, контекст пока не заканчивается. Я решил не мелочиться и сделать всё по уму: на актуальных технологиях, чтобы и красивенько, и wordpress-блог был бы на том же сайте, и свой домен, и всё такое прочее.
Спросил LLM, как этого добиться, и получил набор совершенно незнакомых слов: next.js, strapi, graphql, tailwind, traefik, mariadb, vercel, timeweb... Свой текущий сайт я писал 10 лет назад на чистом javascript, так что это был очень, очень чистый эксперимент, я и docker-то раньше запускал буквально пару раз в жизни.)
Выводы у меня такие:
— понимать происходящее в основном всё-таки надо; если бездумно копировать туда-сюда ошибки и исправления, можно и в цикл войти, и сломать что-то другое, и внезапно оказаться в процессе переезда на другую версию чего-нибудь, которая тебе совершенно не нужна; в целом, если фикс от LLM с первого, максимум второго раза не работает, лучше остановиться и подумать самому, это будет эффективнее;
— но прелесть в том, что LLM не просто пишет код, а объясняет тебе всё происходящее, понятно и на твоём конкретном примере; а когда ломается, объясняет все эти cryptic error messages, предлагает варианты, и эти варианты тоже многое объясняют;
— а уж чего-чего, а cryptic error messages в такой фронтенд-работе очень много! это, наверное, главный пункт экономии времени: LLM сразу понимает, что могло пойти не так, в том числе в случаях, когда самому гуглить было бы реально сложно; никакой магии, конечно, если ты просто видишь 404 и не понимаешь почему, вариантов может быть много, и разбираться в них придётся, но этот процесс всё равно сильно ускоряется;
— полезно спросить LLM и перед тем, как принимать архитектурные решения; если попросить "напиши мне X", LLM постарается, но лучше сначала спросить "какие есть способы достичь цели Y", может оказаться, что X не лучший вариант; заодно и узнаешь о других вариантах, что тоже полезно для понимания;
— в итоге за два-три вечера я, кажется, реально подразобрался, что в этом стеке происходит и как всё это в целом работает; без LLM я и сейчас всё равно долго бы гуглил, как сделать каждое новое изменение, но скорость процесса меня очень порадовала; думаю, мне бы понадобилось в несколько раз больше времени, чтобы прийти к тому же самому (пусть невысокому) уровню понимания через чтение документации.
Так что прямо сейчас, кажется, sweet spot для vibe coding: всё ещё нужно разбираться в происходящем, и ты не бездумной прокладкой работаешь, но LLM уже реально быстро и эффективно учит тебя и заодно приводит к результату. Интересующимся рекомендую пробовать, а для не-интересующихся предсказываю, что очень скоро на уровне "сделать сайт на стандартном стеке" вообще никакого кодинга будет не нужно, хоть бы и вайб.
Прилагаю несколько скринов из разговора с o4-mini-high, а про сам сайт напишу отдельно, когда там что-то будет. Пока технически всё заработало, но контентом ещё наполнять и наполнять, да и подумать ещё надо о том, что я там хочу видеть.
Новый Codex мне OpenAI пока не завёз, так что я просто разговаривал с o4-mini-high; у нас получился невероятно длинный чат о проекте, тьфу-тьфу, контекст пока не заканчивается. Я решил не мелочиться и сделать всё по уму: на актуальных технологиях, чтобы и красивенько, и wordpress-блог был бы на том же сайте, и свой домен, и всё такое прочее.
Спросил LLM, как этого добиться, и получил набор совершенно незнакомых слов: next.js, strapi, graphql, tailwind, traefik, mariadb, vercel, timeweb... Свой текущий сайт я писал 10 лет назад на чистом javascript, так что это был очень, очень чистый эксперимент, я и docker-то раньше запускал буквально пару раз в жизни.)
Выводы у меня такие:
— понимать происходящее в основном всё-таки надо; если бездумно копировать туда-сюда ошибки и исправления, можно и в цикл войти, и сломать что-то другое, и внезапно оказаться в процессе переезда на другую версию чего-нибудь, которая тебе совершенно не нужна; в целом, если фикс от LLM с первого, максимум второго раза не работает, лучше остановиться и подумать самому, это будет эффективнее;
— но прелесть в том, что LLM не просто пишет код, а объясняет тебе всё происходящее, понятно и на твоём конкретном примере; а когда ломается, объясняет все эти cryptic error messages, предлагает варианты, и эти варианты тоже многое объясняют;
— а уж чего-чего, а cryptic error messages в такой фронтенд-работе очень много! это, наверное, главный пункт экономии времени: LLM сразу понимает, что могло пойти не так, в том числе в случаях, когда самому гуглить было бы реально сложно; никакой магии, конечно, если ты просто видишь 404 и не понимаешь почему, вариантов может быть много, и разбираться в них придётся, но этот процесс всё равно сильно ускоряется;
— полезно спросить LLM и перед тем, как принимать архитектурные решения; если попросить "напиши мне X", LLM постарается, но лучше сначала спросить "какие есть способы достичь цели Y", может оказаться, что X не лучший вариант; заодно и узнаешь о других вариантах, что тоже полезно для понимания;
— в итоге за два-три вечера я, кажется, реально подразобрался, что в этом стеке происходит и как всё это в целом работает; без LLM я и сейчас всё равно долго бы гуглил, как сделать каждое новое изменение, но скорость процесса меня очень порадовала; думаю, мне бы понадобилось в несколько раз больше времени, чтобы прийти к тому же самому (пусть невысокому) уровню понимания через чтение документации.
Так что прямо сейчас, кажется, sweet spot для vibe coding: всё ещё нужно разбираться в происходящем, и ты не бездумной прокладкой работаешь, но LLM уже реально быстро и эффективно учит тебя и заодно приводит к результату. Интересующимся рекомендую пробовать, а для не-интересующихся предсказываю, что очень скоро на уровне "сделать сайт на стандартном стеке" вообще никакого кодинга будет не нужно, хоть бы и вайб.
Прилагаю несколько скринов из разговора с o4-mini-high, а про сам сайт напишу отдельно, когда там что-то будет. Пока технически всё заработало, но контентом ещё наполнять и наполнять, да и подумать ещё надо о том, что я там хочу видеть.
👍36🔥15❤4😁1🤔1👾1
Кажется, рассказ не зашёл, вернусь к классическому пятничному посту с тремя мини-обзорами.
SANABI
Поначалу это просто платформер с пиксельной графикой. Если вы любитель такого — сразу же не проходите мимо. Главный инструмент — крюк-кошка, который, по общему мнению, делает лучше любую игру. Управление отзывчивое, арт красивый, платформинг не душный. Я играл на normal, и это было даже слишком легко: хит-пойнты восстанавливаются автоматически, и враги редко что-то могут тебе сделать, а падать в пропасти не так часто есть реальный шанс. За всю игру был ровно один босс, на котором я просидел больше десяти минут.
Сюжет выглядит очень клишированно: у папы-суперсолдата убили дочку, он мстит, встречает какую-то девушку, которая вроде бы на дочку похожа, а злая корпорация убрала абсолютно всех людей из целого города, и там таинственный Sanabi, которого надо найти и, видимо, уничтожить... Даже тот самый непростой босс — это буквально босс-вертолёт.
Так я потихоньку играл на Steam Deck в метро где-то месяц (игра часов на 10). Конечно, в таком режиме сюжет забывается, но его там почти и не было, какие-то воспоминания про дочку и девушка-хакер. И вдруг, в последней трети игры, сюжет кааак раскрылся... Не хочу спойлерить, но, в общем, хотя анимешные клише никуда не делись, на самом деле Sanabi — это интересное высказывание! Об AI, разумеется, о чём же ещё. Последние пару часов доигрывал не отрываясь; весьма рекомендую хотя бы ради сюжета, а если вы любитель ненавязчивого платформинга, то и ради геймплея.
Songs for a Hero
Стандартнейший платформер из NES-эпохи, но с твистом: главный герой комментирует свои приключения стихами, в рифму и иногда в размер, напевая их прямо голосом. Озвучено буквально всё, от начала до конца, саундтрек идёт куплетами, и все куплеты пропеты — уникальное дело, очень круто и задумано, и реализовано. Сами стихи неровные (как ты ровно напишешь семь часов стихотворного текста), но в среднем очень милые, обычно из иронической метапозиции.
Игру разрабатывали Castro Brothers, бразильский комедийный дуэт (5М подписчиков на YouTube!), так что португальский оригинал наверняка лучше, но на английском тоже неплохо звучит. С другой стороны, хотя стихи сделаны с душой и максимально разнообразны, со временем всё равно надоедает, поэтому рекомендую сессионный подход: сел на полчасика, прошёл несколько уровней, отложил. Кстати, сам платформинг очень даже компетентный, идёшь нигде не останавливаясь надолго, но и не скучая.
Русского перевода нет (любой новый язык был бы гигантским трудом), но по-русски просятся бодрые ямбы Ляписа-Трубецкого: служил Гаврила приключенцем, Гаврила монстров убивал, но чувствовал Гаврила сердцем, когда крушил за валом вал, что было что-то здесь неладно... И действительно, кроме стихов, в игре есть и другой твист, сюжетный, который я спойлерить не буду. Мне кажется, он скомканно подан: я так и не уверен, что понял, что в игре на самом деле произошло, да и бог с ним.
Главный минус в том, что игра пытается быть метроидванией, и это ей не идёт. Новые способности дают возможность попадать в новые места, по всей игре разбросаны нотки, и если собрать много ноток, то можно забраться к многочисленным секретным боссам. Но чтобы этим заниматься, надо переигрывать уровни заново... то есть опять слушать те же самые стихи с теми же интонациями. Это было уже выше моих сил. А так прекрасная игра с уникальным gimmick'ом, рекомендую.
Wheels of Aurelia
Главная героиня едет на автомобиле по Италии 1970-х, разговаривает с людьми и познаёт культуру Италии того времени, собираясь на встречу с человеком, который похитил её много лет назад. По описанию звучит гораздо интереснее, чем на самом деле: познание культуры выглядит как добавление в лог цитат из википедии (буквальных! там даже ссылки честно поставлены), а геймплея и не ожидалось, это линейная дорога с парой развилок. Зато эффективно: до концовки можно доехать минут за 15. Хотя концовок разных много, в итоге вышло идеально для мини-обзора: за полчаса получил две концовки, всё понял и уже готов не рекомендовать. Как сказали бы на Stopgame, рефанд.
SANABI
Поначалу это просто платформер с пиксельной графикой. Если вы любитель такого — сразу же не проходите мимо. Главный инструмент — крюк-кошка, который, по общему мнению, делает лучше любую игру. Управление отзывчивое, арт красивый, платформинг не душный. Я играл на normal, и это было даже слишком легко: хит-пойнты восстанавливаются автоматически, и враги редко что-то могут тебе сделать, а падать в пропасти не так часто есть реальный шанс. За всю игру был ровно один босс, на котором я просидел больше десяти минут.
Сюжет выглядит очень клишированно: у папы-суперсолдата убили дочку, он мстит, встречает какую-то девушку, которая вроде бы на дочку похожа, а злая корпорация убрала абсолютно всех людей из целого города, и там таинственный Sanabi, которого надо найти и, видимо, уничтожить... Даже тот самый непростой босс — это буквально босс-вертолёт.
Так я потихоньку играл на Steam Deck в метро где-то месяц (игра часов на 10). Конечно, в таком режиме сюжет забывается, но его там почти и не было, какие-то воспоминания про дочку и девушка-хакер. И вдруг, в последней трети игры, сюжет кааак раскрылся... Не хочу спойлерить, но, в общем, хотя анимешные клише никуда не делись, на самом деле Sanabi — это интересное высказывание! Об AI, разумеется, о чём же ещё. Последние пару часов доигрывал не отрываясь; весьма рекомендую хотя бы ради сюжета, а если вы любитель ненавязчивого платформинга, то и ради геймплея.
Songs for a Hero
Стандартнейший платформер из NES-эпохи, но с твистом: главный герой комментирует свои приключения стихами, в рифму и иногда в размер, напевая их прямо голосом. Озвучено буквально всё, от начала до конца, саундтрек идёт куплетами, и все куплеты пропеты — уникальное дело, очень круто и задумано, и реализовано. Сами стихи неровные (как ты ровно напишешь семь часов стихотворного текста), но в среднем очень милые, обычно из иронической метапозиции.
Игру разрабатывали Castro Brothers, бразильский комедийный дуэт (5М подписчиков на YouTube!), так что португальский оригинал наверняка лучше, но на английском тоже неплохо звучит. С другой стороны, хотя стихи сделаны с душой и максимально разнообразны, со временем всё равно надоедает, поэтому рекомендую сессионный подход: сел на полчасика, прошёл несколько уровней, отложил. Кстати, сам платформинг очень даже компетентный, идёшь нигде не останавливаясь надолго, но и не скучая.
Русского перевода нет (любой новый язык был бы гигантским трудом), но по-русски просятся бодрые ямбы Ляписа-Трубецкого: служил Гаврила приключенцем, Гаврила монстров убивал, но чувствовал Гаврила сердцем, когда крушил за валом вал, что было что-то здесь неладно... И действительно, кроме стихов, в игре есть и другой твист, сюжетный, который я спойлерить не буду. Мне кажется, он скомканно подан: я так и не уверен, что понял, что в игре на самом деле произошло, да и бог с ним.
Главный минус в том, что игра пытается быть метроидванией, и это ей не идёт. Новые способности дают возможность попадать в новые места, по всей игре разбросаны нотки, и если собрать много ноток, то можно забраться к многочисленным секретным боссам. Но чтобы этим заниматься, надо переигрывать уровни заново... то есть опять слушать те же самые стихи с теми же интонациями. Это было уже выше моих сил. А так прекрасная игра с уникальным gimmick'ом, рекомендую.
Wheels of Aurelia
Главная героиня едет на автомобиле по Италии 1970-х, разговаривает с людьми и познаёт культуру Италии того времени, собираясь на встречу с человеком, который похитил её много лет назад. По описанию звучит гораздо интереснее, чем на самом деле: познание культуры выглядит как добавление в лог цитат из википедии (буквальных! там даже ссылки честно поставлены), а геймплея и не ожидалось, это линейная дорога с парой развилок. Зато эффективно: до концовки можно доехать минут за 15. Хотя концовок разных много, в итоге вышло идеально для мини-обзора: за полчаса получил две концовки, всё понял и уже готов не рекомендовать. Как сказали бы на Stopgame, рефанд.
👍12❤9✍3🔥3⚡1
Помните давний спор между Ноамом Хомским и Питером Норвигом о природе языка? Хомский ещё с 1950-х годов утверждал, что существует врождённая универсальная грамматика — единая структура, лежащая в основе всех человеческих языков. Норвиг и другие эмпиристы говорили, что никакой универсальной структуры нет, языки слишком разнообразны, а машинное обучение справляется с языками без явных правил.
Вроде бы ясно, на чьей стороне было всё ML-сообщество... но, кажется, Хомский был фактически прав! Только универсальной оказалась не грамматика, а геометрия.
Год назад вышла интересная статья Huh et al. "The Platonic Representation Hypothesis". Гипотеза была в том, что разные нейронные сети, обученные на разных данных и с разными архитектурами, а то и для разных модальностей, сходятся к одному и тому же латентному пространству, тому самому платоновскому представлению в чистых эйдосах (см. рис. 1 из приложенных). Но это было скорее некоторое наблюдение о том, что представления в AI-моделях чем-то похожи, и абстрактное предположение о возможном существовании платоновского представления.
А вот на днях вышла работа Jha et al. "Harnessing the Universal Geometry of Embeddings" — и в ней всё это стало конструктивно, практично и в чём-то даже инженерно. Они буквально разработали метод (назвали логично, vec2vec), который берёт и переводит из одного пространства представлений (embeddings) в другое, причём очень точно. То есть из двух разных латентных пространств получается одно, где представления очень хорошо друг другу соответствуют (рис. 2).
Ничего вроде бы сверхгениального в самом методе нету, но качество результата поразительное: на рис. 3 показано, как пять почти ортогональных друг другу векторов превратились в векторы со скалярными произведениями от 0.8 до 0.95.
На практике это очень много чего значит, и в основном не очень хорошее. Получается, что базы данных, которые содержат векторные представления, надо защищать так же тщательно, как исходный текст (чего никто сейчас, насколько я понимаю, не делает). В одном эксперименте они взяли эмбеддинги корпоративных email'ов Enron, перевели их в пространство известной модели (рис. 4) и смогли извлечь чувствительную информацию (имена, даты, суммы) из 80% документов.
Но мне, конечно, тут интереснее теория. Выходит, и правда, по Хомскому, существует универсальная структура, лежащая в основе самых разных способов обработки естественного языка. Но подтвердилось его мнение весьма иронично. Универсальность нашлась именно в тех "стохастических попугаях", которых Хомский так не любит: структура оказалась не синтаксисом, а геометрией семантического пространства.
Вроде бы ясно, на чьей стороне было всё ML-сообщество... но, кажется, Хомский был фактически прав! Только универсальной оказалась не грамматика, а геометрия.
Год назад вышла интересная статья Huh et al. "The Platonic Representation Hypothesis". Гипотеза была в том, что разные нейронные сети, обученные на разных данных и с разными архитектурами, а то и для разных модальностей, сходятся к одному и тому же латентному пространству, тому самому платоновскому представлению в чистых эйдосах (см. рис. 1 из приложенных). Но это было скорее некоторое наблюдение о том, что представления в AI-моделях чем-то похожи, и абстрактное предположение о возможном существовании платоновского представления.
А вот на днях вышла работа Jha et al. "Harnessing the Universal Geometry of Embeddings" — и в ней всё это стало конструктивно, практично и в чём-то даже инженерно. Они буквально разработали метод (назвали логично, vec2vec), который берёт и переводит из одного пространства представлений (embeddings) в другое, причём очень точно. То есть из двух разных латентных пространств получается одно, где представления очень хорошо друг другу соответствуют (рис. 2).
Ничего вроде бы сверхгениального в самом методе нету, но качество результата поразительное: на рис. 3 показано, как пять почти ортогональных друг другу векторов превратились в векторы со скалярными произведениями от 0.8 до 0.95.
На практике это очень много чего значит, и в основном не очень хорошее. Получается, что базы данных, которые содержат векторные представления, надо защищать так же тщательно, как исходный текст (чего никто сейчас, насколько я понимаю, не делает). В одном эксперименте они взяли эмбеддинги корпоративных email'ов Enron, перевели их в пространство известной модели (рис. 4) и смогли извлечь чувствительную информацию (имена, даты, суммы) из 80% документов.
Но мне, конечно, тут интереснее теория. Выходит, и правда, по Хомскому, существует универсальная структура, лежащая в основе самых разных способов обработки естественного языка. Но подтвердилось его мнение весьма иронично. Универсальность нашлась именно в тех "стохастических попугаях", которых Хомский так не любит: структура оказалась не синтаксисом, а геометрией семантического пространства.
🔥53👍15❤8🤔1🫡1