Истории (не)успеха (ИИ)ЕИ
429 subscribers
161 photos
89 videos
2 files
242 links
Просто о математике, нейросетях, программировании, спорте, политике, культуре. Общение, контакты, международные онлайн дискуссии/лекции в формате лайвстрим, встречи на спорт в Мюнхене.
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Друзья, давно не писал здесь — был сильно загружен основной работой.

Но уже совсем скоро мы снова вернёмся к супер-интересным физмат темам и, конечно же, к лайв-стримам с переднего края науки! 🚀
👍6
Эй вы, задние, делай как я! Это значит — не надо за мной. Колея эта — только моя, выбирайтесь своей колеёй! (c) В.С.В.

Очень интересный стрим по современной математике и математическим проблемам тысячелетия от друга нашего канала Димы — смотрю сейчас с большим интересом. 🔥

О проблемах тысячелетия изнутри - какими путями такие проблемы решаются.

Кому хочется серьёзной математики, очень рекомендую к просмотру. Если что-то будет непонятно — не расстраивайтесь, мне тоже далеко не всё в этом стриме было понятно 🙂 Но атмосфера и идеи таких исследований переданы здорово и посмотреть до конца очень рекомендую! 🔥🔥🔥

👉 https://www.youtube.com/live/hXGun1Kl0YQ
🔥3👍1
В честь 31-го августа, последнего дня лета )
Forwarded from Knowledge Accumulator
С днём AGI-осени?

Люди думали о создании "искусственного интеллекта" с незапамятных времён - не то, что на заре компьютеров, а когда их ещё не было. Думаю, все мы знаем про тест Тьюринга - он был предложен аж в 1950 году! Та самая статья Тьюринга довольно интересно читается сегодня, поскольку мы знаем про AI гораздо больше.

Попытки двигаться в сторону "AGI" не заставили себя ждать. Я уже когда-то писал про программу со скромным названием General Problem Solver из 1957-го. Да в ту эру был даже свой ChatGPT - ELIZA (1966). Рано смеётесь - она обгоняла GPT-3.5 в тесте Тьюринга.

Уже тогда говорили - "Через 3-6 месяцев ELIZA будет писать 90% кода". К сожалению, людишки переоценили свои силы, и в 70-х этот обсёр стал очевиден. Амбиции поубавились и про AGI уже как-то стало стыдно говорить.

В 2012-м свёрточные нейросети ворвались в игру и началась эпоха Deep Learning. Довольно быстро его применили в зрении и других областях, в том числе и в обучении с подкреплением. Статья Playing Atari with Deep Reinforcement Learning [2013] знатно хайпанула - надо же, алгоритм самостоятельно учится играть в игру. Потом Deepmind выпустили AlphaGo [2015].

В тот момент я только начинал изучать ML. Отчётливо помню, что в больших ML-сообществах тема AGI считалась кринжом - серьёзные люди тогда жаловали только серьёзные ML-приложения. Я был среди меньшинства, которое ожидало дальнейших побед RL.

Пик пришёлся на 2018-2019-й - Deepmind AlphaStar и OpenAI Five жёстко хайпанули, продемонстрировав топовый уровень игры в Starcraft 2 и Dota 2. Но это была Пиррова победа. Читая внимательно статьи, становится понятно - всё это работает с горем пополам. Не получается так, как в Go - поставил модельку играть саму с собой и пошёл пить чай - всё это уже не скейлится на такие задачи, и нужно городить кучу костылей и ограничений.

И вот в начале 2020-х AGI снова вошёл в мейнстрим, причём не благодаря решению крутой задачи, а благодаря новой форме подачи - из андэграунда вырвались NLP-ресёрчеры, которые релизнули старую как мир идею - чат-бота, но на основе Deep Learning. Увидев такое, уязвимый человеческий рассудок не устоял перед харизмой статистического попугая. На пару лет те, кто не верили в достижение AGI на основе чат-бота, стали считаться тупыми скептиками.

Прошло пару лет, миллиарды долларов были распилены, чат-бот прокачали, но AGI как-то не особо приблизился. И тут текущие игроки достали козырь из рукава. Оказывается, AGI это в принципе отстойный термин. Теперь вместо того, чтобы идти к как бы "непонятному" интеллекту, AI-компании меняют направление.

И я очень этому рад! Нас ждёт расцвет реально полезных AI-приложений. xAI релизнули общение с раздевающейся аниме-тёлочкой. Superintelligence Lab Цукерберга даёт возможность пообщаться с Russian Girl или Step Mom, ждём релиза AlphaSex от Google Deepmind. Не сомневаюсь, что в скором времени у нас в домах будут Тесла Оптимусы, выглядящие как Ani, и помимо всего прочего ещё и собирающие грязные носки по дому. Женщина, которую мы все хотели.

На основе текущих технологий было и будет построено много полезных приложений. Но лично мне, как человеку, сфокусированному на сильном интеллекте уже лет 10, на эти приложения скорее пофиг.

Текущие крупные игроки вряд ли заинтересованы в создании "настоящего" AGI - он может уничтожить статус-кво и их самих. В этом я с ними солидарен - если у кого-то из этих больных мессианским комплексом реально появится суперинтеллект, мало не покажется никому. В свою очередь, это открывает возможность совершить этот прорыв кому угодно, кто знает, что и зачем он делает.

@knowledge_accumulator
👍3
К научным темам, пробую архитектуры неросетей решать нерешённые математические задачи последних двух веков - пока ничего не решают, что и логично. Прийдотся брать ручку и бумагу и решать самому.

К споритивным темам: бросил вызов Валерию Бабушкину, который считается самым сильным Дата Сайнтистом современности так как от груди жмёт 200 кг )
😁3
Расскжу чего-то из своего математического прошлого: я был когда-то на школе Бруно Бухбергера - этот тот чувак, который изобрёл алгоритм для решения нелинейных алгебраических уравнений/базисы Грёбнера. Сто лет ещё не прошло. И я там должен был делать доклад. А передо мной всякие молодые ребята выступали из Германии, США, Франции и что-то там рассказывали про вычислителъную (не)коммутивную алгебру. И на всех этих докладал сидел Бруно Бухбегер и Жан Франуа Помарре. Великие математики. И все молодых ребят они разносли просто в пух и прах. Восновном Поммаре разнослил, я его я вообще боялся, так как я его за 10 лет до этого встретил на конференции в Греции и он мне сказал лично: ты козёл, что ты куришь. Ну и я слушаю доклады по алгебре, в конце каждого доклада Помаре просто разносит каждого докладчика и приходит моя очередь. меня он вообще разнесёт сто процентов так как я вообще не математик, а выступаю от информатики. Я делаю свой доклад и уверен, что Помаре меня разнесёт в пух и прах. Помаре говорит: ну наконец-то, один нормальный доклад на конференции, все остальные доклады от молодых отстой, а этот хотъ свои собственные мозги напряг, а не ошибки предков повторяет!
😁7👍1
Бруно Бухбергер:

https://en.wikipedia.org/wiki/Bruno_Buchberger

про него можно рассказать болъше, конечно )
Вы б, кстати, послушали лекцию Жана Фраунсау Помаре про дифференциальные операторы и главное видели бы на этой лекции меня. Я до сих пор не понимаю, я там единственный был, кто вообще ничего не понял, а остальные кто сидели были актёры, которые делали вид что понимают? Это реально было ржачно. Жаль этой лекции нет на видео, я там мог бы получитъ Оскара за возведения глаз к небу и просьбе простить меня и помиловать, что зря занимаю чьё-то место на этой лекции. Ладно, я бы успокоился, если бы все сидели так же понуро как я, но, блин, они задавали вопросы! Может быть не к месту, может быть глупые, но они задавали вопросы! А я даже вопроса задать не мог - я не понимал ничего в этой лекции. Сейчас, конечно, я понимаю, о чём речь на той лекции шла, но тогда я думал, блин, куда я попал, зачем я здесъ, шо за чейны операторов, какие пвсевдогруппы, ребята, вы о чём?? И главное лекция так хорошо начиналась - обыкновенные дифференциальные уравнения, маятник, всё по классике и потом за 15 минут тыгыдым в какуют-то гремчую теорию. ААА, я ещё обыкновенные дифференциалъные уравнения не освоил аналитически, ребята, вы куда??

Однако я пережил этот психологический стресс, так как на тот момент умел решать уравнения в частных производных численно довольно хорошо. Например, Навьер-Стокса с разными числами Рейнольдса и на разным геометриях и мне было понятно, что ладно, даже если я тут не понимаю пока, они тоже врядли умеют так же хорошо решать такие дифуры как Навье-Стокс в произвольных геометриях. И я даже схватил Помаре после лекции и загрузил его на эту тему, на что он мне сказал, что это не его работа, но скорее всего я прав, но он точно не знает и посоветовал бросать курить: мол, что тебя не вижу, говорит, в любой стране - всегда куришь в гостинице после завтрака ) шо у вас за мода, стоять и курить возле гостиницы, кто так делает! нормальные люди о математике думают, а не курят!
5😁2
Повторю пару недавних постов, вдруг кто их не заметил в канале
2/2. Продолжение. Начало тут.

Но сначала вернёмся от Теренса Тао на почти 100 лет назад к работам Андрея Колмогоровa.

🌀 Контекст: турбулентность и энергетический каскад
Когда жидкость начинает двигаться слишком быстро или неравномерно, её движение становится турбулентным — это означает, что в ней появляются завихрения разных размеров, от больших до очень мелких.

Андрей Колмогоров в 1941 году предложил статистическую теорию турбулентности, которая не пытается предсказать каждое завихрение, а описывает их в среднем. Он задался вопросом: Как распределяется энергия в турбулентном потоке между завихрениями разных размеров, по шакале от метров до мили-, микро-,- и т.д. метров?

Как распределяется энергия в турбулентном потоке между завихрениями разных размеров?

📐 Формула Колмогорова: 𝐸(𝑘) ∼ 𝑘⁻⁵⸍³
Здесь:
— 𝐸(𝑘) — энергетический спектр: сколько энергии содержится в завихрениях размера, соответствующего волновому числу k;
— 𝑘 — волновое число, обратно пропорциональное размеру вихря: чем больше k, тем мельче вихрь
— ∼ 𝑘⁻⁵⸍³ — энергия убывает с ростом k по степенному закону: чем мельче завихрение, тем меньше в нём энергии.
📉 Крупные вихри содержат больше энергии, и по мере распада потока на всё более мелкие — энергия «перетекает вниз». Это и есть энергетический каскад Колмогорова.

📌 Почему это важно?
Формула 𝐸(𝑘) ∼ 𝑘⁻⁵⸍³ — это золотой стандарт в турбулентности. Её подтверждали во множестве экспериментов: от потоков в трубах до атмосферных ветров.

📡 В спектре турбулентности вы реально видите "горку", убывающую как 𝑘⁻⁵⸍³, между зоной внешних сил (где поток "раскачивается") и зоной вязкости (где энергия гасится).

🤝 Колмогоров и Тао
Колмогоров предложил макроскопическую модель: что делает турбулентность в среднем. А Тао, десятилетия спустя, пытается понять:

А возможно ли, чтобы вся энергия сконцентрировалась в одной точке — чтобы вместо каскада вниз случился взрыв вверх, сингулярность?

🔍 Что сделал Тао:

1. Создал модифицированную модель Навье–Стокса
Тао предложил упрощённые версии уравнений — не настоящие Навье–Стокса, а их "игровые" аналоги. Он отключил некоторые физические ограничения, но сохранил важные структурные черты, чтобы изучить, возможен ли в принципе сценарий сингулярности.

2. Показал, что в этих уравнениях возможен blow-up
Он построил пример, где энергия жидкости стекается в одну точку всё быстрее и быстрее, пока не становится бесконечной за конечное время. Это — математическая модель сингулярности.

🧠 Главная идея:
Если слегка ослабленные уравнения могут "взорваться", значит, в оригинальных уравнениях такие механизмы где-то на грани — и, возможно, их можно "выдавить" или, наоборот, доказать, что они невозможны.


📈 Его идея: представить сценарий, где вихри в жидкости ведут себя как программа, которая самовоспроизводится — каждый раз в меньшем масштабе и с большей скоростью. Такая каскадная структура ведёт к тому, что вся энергия стягивается в одну точку, ускоряясь бесконечно — как жидкостная версия компьютера, с встроенным механизмом “взрыва”.

🤖 Тао даже сравнивает это с Тьюринг-машиной из жидкости — машиной, которая вычисляет собственную эволюцию, ускоряясь и масштабируясь вниз, пока не обрушится в математическую бесконечность.

В своём интервью он наглядно объясняет, как с помощью конструкции типа машины Тьюринга он перепрограммирует уравнения Навье-Стокса не на рассеивание энергии через механизмы транспорта и вязкости на отдельные вихри, а пускает энергию вниз по масштабам через вихри большего размера к вихрям меньшего и ещё меньшего и т.д. размера. Очень интересный метод. Мне понра и захотелось даже заглянуть в его оригинальную статью 2016-го года. Надо отметить что подобные темы мы уже разбирали тут и тут.

#NavierStockes #MilleniumPrize #Kolomogorov #Tao #MathPhysics

@easy_about_complex
👍2
🧩 В последние недели я немного занимался нейросетями для решения вращательных пазлов типа кубика Рубика, пирамидок и прочих.

Речь идёт о задачах вроде нахождения путей в графах Кэли, которые имеют колоссальное количество состояний.

Для примера:

* Кубик Рубика 3×3×3 — примерно 10^19 перемешанных состояний.
* Кубик 5×5×5 — уже примерно 10^90 состояний.
* Кубик 8×8×8 10^167 состояний!

😲 Для сравнения: это гораздо больше, чем число атомов в видимой Вселенной. Суперастрономические числа.

Решить такой пазл значит найти путь в графе от любого перемешанного состояния до собранного, где все грани одного цвета.
Да, интересно находить кратчайший путь, но пока оставим этот нюанс.

💡 Главное: классические алгоритмы поиска в графах здесь не работают — слишком много вершин и рёбер.

В следующих постах я попытаюсь объяснить, почему и при каких условиях нейросети могут успешно справляться с этой задачей и какие примерно вычислительные мощности должны быть при этом задействованы.

Продолжение будет (не сегодня 😉).
👍8🔥1
Продолжение. Начало — тут.

Я ещё не закончил разбираться с поиском в графах Кэли / подгруппах симметрической группы, но хочу поделиться промежуточными наблюдениями и парой вопросов, которые меня в этой теме занимают. Главное — задавать правильные вопросы; возможно, кто-то из дорогих читателей подскажет подходящую идею или задаст вопрос, которого у меня пока не хватает. Поскольку в телеграме длина поста ограничена, не буду сейчас гнаться за формальной точностью — по деталям, если будет интересно, отвечу в комментариях.

Итак, что конкретно делаем с нейросетью. Мы учим её предсказывать следующий ход для сборки пазла. Как это делаем: генерируем случайные «прогулки» по графу от собранного состояния к перемешанным состояниям длины от 2 до 𝑘. Эти пары (перемешанное состояние → следующий ход по пути к собранному состоянию) скармливаем нейросети в режиме супервайзинга. Ходов у нас конечное небольшое число — пусть это 𝑚. На входе сеть получает состояние, на выходе — распределение по
𝑚 возможным ходам: оценку вероятности того, что данный ход уменьшит дистанцию до собранного состояния.

На головоломках с размерами состояния порядка
10^15 – 10^20 подход работает прекрасно. Модель небольшая, много данных не требуется — даже при том, что число случайных прогулок на порядки меньше числа всех состояний, сеть быстро учится и решает такие пазлы без видимых проблем. По опыту: на этих масштабах сложно ошибиться с архитектурой/размером модели — всё, что я пробовал (простые CNN-подобные сети, трансформеры и т.п.), работало; параметры модели обычно значительно меньше полумиллиона обучаемых весов, и пространство скрытых состояний тоже невелико. Скоро выложу код и модели на Kaggle/репозиторий. Следующий шаг — атаковать головоломки с количеством состояний ≫ 10^40.

Вопросы, которые мне кажутся интересными (и по которым хотелось бы услышать мнение сообщества):

1) Какова конкретная связь между размером графа / порядком соответствующей группы и необходимым числом обучаемых параметров, размером датасета и выбором архитектуры? Неужели действительно «любая» архитектура будет работать одинаково, как мне пока кажется? Может, я ошибаюсь — опыта мало, хотелось бы навести порядок в голове.

2) Немного теории. Вращающиеся пазлы задаются как подгруппы симметрической группы (группа перестановок). Известно, что для абелевых (т.е. коммутативных) групп число достижимых состояний с ростом длины слова увеличивается полиномиально; в более общем виде теорема Громова говорит о связи между полиномиальным ростом и виртуальной нильпотентностью группы (нилпотентность группы это, грубо говоря - насколько группа близка к коммутативности). Пазлы, как правило, не нильпотентны и в вычислительных экспериментах демонстрируют экспоненциальный рост числа достижимых состояний по мере увеличения глубины. Тогда почему нейросети так хорошо справляются с такой «экспоненциальной» структурой? Какие факторы дают им преимущество?

Господа математики (и все причастные), что думаете?

Продолжение будет (не сегодня 😉).

П.С. всё написаное соответствует моему пониманию темы на сегодняшний день и я тут ни разу не эксперт, который на это потратил годы. пытаюсь покопать в этих направлениях и пишу о том, что вижу по мере раскопок :)
👍52🐳2
В общем, кратко, как это работает — а оно работает (см. тут):

1) Генерируем простым алгоритмом некоторое количество случайных прогулок по графу от собранного состояния до любых, куда заведёт генератор случайных чисел.

2) Компактифицируем дискретный граф 10^𝑛, переводя его в эмбеддинги в пространстве 𝑅^𝑑,где 𝑑≪𝑛. То есть пропускаем все сгенерированные состояния через нейросеть и говорим: вот это состояниe — оно на столько-то шагов от исходного. Учись, нейросеточка, на этом.

3) Пропускаем эти векторы через пару-тройку слоёв нейросети с нелинейностями — она ловит паттерны и учится одной простой вещи: предсказывать, насколько «близко к решению» текущее состояние, хотя никогда его напрямую не видела. Состояний-то слишком много. Поэтому ловим паттерны.

4) Beam Search делает своё дело: на каждом шаге проверяет варианты, смотрит на предсказанную «близость» и оставляет только топ‑k самых перспективных.

И вуаля — даже не видя все 10^n состояний, модель находит решение потому, что видит скрытые закономерности.
👍5
👆👆👆
Вообще, интересно наблюдать, как для решения задач в определённых алгебраических структурах могут применяться искусственные нейронные сети. Я пока занимался этим не так много, но вот что бросается в глаза: если у тебя есть какая-то, даже совсем не плохо исследованная математическая структура — например, симметрические группы как в случае с вверху обсуждаемыми вращательными пазлами — хочется понимать, какая нейросеть её «решает». Архитектура, размер пространства скрытых состояний, все гиперпараметры — хотелось бы видеть это как мост от известных математических инструментов к ИИ-системам, которые находят решения в этих структурах.

Да, можно решать пазлы методом тыка, подбирая размер сети и другие параметры «на глаз», но куда интереснее иметь какую-то теоретическую основу, которая объясняет, как из матаппарата структуры вырастает нейросеть, способная её эффективно обрабатывать 🤷‍♂️
👍82
начало тут 👆

🧩 Всем привет!

Есть серия соревнований на Kaggle, где в соревновательной форме можно попробовать решать открытые задачи математики на графах Кэли и подгруппах симметрической группы.

🎯 Суть
Нужно искать кратчайшие пути в графах Кэли — будь то оптимальные решения для куба Рубика 4×4×4 (Rubik’s Revenge), задачи на транспозоны или другие перестановочные головоломки.

В общем случае такие задачи NP-трудные.

Для малых размеров иногда можно найти оптимум, для больших — выигрывает тот, кто строит более короткие пути.

🔬 Научный контекст
Это классическая постановка: разложить элемент группы в произведение генераторов, или — найти путь в графе Кэли.

-Примеры: bubble sort, pancake sorting 🥞 (в котором, к слову, участвовал Билл Гейтс).

-Открытая гипотеза OEIS A065603 предсказывает, что диаметр (т.н. число Бога) равен ⌈(n+1)/2⌉ — она остаётся нерешённой уже 25 лет.

Важность темы подчёркивают работы М. Громова, Т. Тао и других. Дональд Кнут предлагал алгоритмические улучшения.

Применения: биоинформатика (оценка эволюционных расстояний), теория коммуникаций, оптимизация сетей и многое другое.

🤖 RL и компьютерные науки
Состояния = вершины графа Кэли.
Действия = рёбра (разрешённые перестановки).
Награды = всегда "1", пока не найдено решение (там 0).
Итого: классический RL с экстремально разреженной наградой.

Функция ценности = длина пути до решения, а уравнение Беллмана в этом случае напрямую отражает тривиальные соотношения на длинах путей.

Это отличная площадка для тестирования новых методов RL и pathfinding на пространствах колоссального размера (10³³ и больше).

🚀 Практика - соревнования
В соревнованиях можно попробовать себя не только с кубом Рубика, но и с другими задачами:

Pancake sorting
Transposons
Reversals
Glushkov problem
RapapportM2
Rubik's cube 444
Professor Tetraminx
Megaminx
Christophers jewel
SuperCube from IHES

Все они собраны в рамках проекта CayleyPy — это open-source crowd-sourcing инициатива для разработки AI-библиотеки по математике. Можно подключаться и вне Kaggle.

Если интересно поучаствовать, но кажется, что порог входа высокий — я могу сделать введение на созвоне и рассказать основы: что такое графы Кэли, как ставится задача и какие методы уже пробовали.

Продолжение тут и тут👇

#Puzzles #CayleyGraphs #SymmetricGroup #KaggleCompetitions
👍4
Вот несколько деталей и мотивация, почему это интересно 👆:

1️⃣ Соревнования только стартовали, а продлятся целый год — времени хватит на эксперименты, улучшения и изучение новых подходов.

2️⃣ Каждому пазлу прилагается ноутбук с примером решения.

Сегодня я выложу пример в Каггл пример ноутбука с решением для пазла Christopher’s Jewel. Но не обязательно решать так же.
Можно использовать любые методы — главное, кто найдёт самые короткие решения для заданного класса пазлов.

Если понадобится, могу помочь разобраться с ноутбуками.

3️⃣ Теоретический интерес:

Все эти соревнования основаны на нерешённых математических задачах о диаметре графа Кэли соответствующей группы.

Существует гипотеза о том, как диаметр растёт с увеличением числа элементов группы. Даже Теренс Тао пытался доказать её, но не смог.

Кто знает, может с помощью машинных методов именно вы добьётесь успеха? 💡

Например, чистые математики, которые тоже читают эту группу и не особо любят программировать и не занимаются МL могут скооперироваться с теми, кто любит программировать и МL - пишите в комменты!

4️⃣ Практическая сторона:

Некоторые задачи проще описать на примере кубика Рубика.
Для 3×3×3 известно так называемое число Бога — 20 вращений.
Для 4×4×4 и многих других головоломок диаметр не известен, и найти его — реально интересная и открытая проблема. Вот то что Теренс Тао не смог доказать, там ещё побиться надо, а это более реальный и вроде-бы быстрый, но таки новый математический результат! Есть возможность прославиться! 😀

5️⃣ И много других любопытных вопросов ждёт внутри соревнований: оптимальные пути, перестановочные головоломки, алгоритмические эксперименты, RL с разреженной наградой и т.д.

🚀 В общем, есть где развернуться и проверить себя на пересечении математики, программирования и AI.

Хотите лайв-стрим с введением в эти темы и парой советов как лучше в эту тему вьехать?
🔥4
Кто хочет лайв-стрим с введением в инструменты для соревнований по нахождениям путей в графах Кэли/подгруппах симметрической группы?
Anonymous Poll
33%
Я собираюсь участвовать и хочу лайв-стрим
56%
Я ещё не знаю, буду ли участвовать, но хочу лайв-стрим
0%
Я буду участвовать, но не хочу лайв-стрим
11%
Я не буду участвовать и не хочу лайв-стрим