This media is not supported in your browser
VIEW IN TELEGRAM
Друзья, давно не писал здесь — был сильно загружен основной работой.
Но уже совсем скоро мы снова вернёмся к супер-интересным физмат темам и, конечно же, к лайв-стримам с переднего края науки! 🚀✨
Но уже совсем скоро мы снова вернёмся к супер-интересным физмат темам и, конечно же, к лайв-стримам с переднего края науки! 🚀✨
👍6
Эй вы, задние, делай как я! Это значит — не надо за мной. Колея эта — только моя, выбирайтесь своей колеёй! (c) В.С.В.
Очень интересный стрим по современной математике и математическим проблемам тысячелетия от друга нашего канала Димы — смотрю сейчас с большим интересом. 🔥
О проблемах тысячелетия изнутри - какими путями такие проблемы решаются.
Кому хочется серьёзной математики, очень рекомендую к просмотру. Если что-то будет непонятно — не расстраивайтесь, мне тоже далеко не всё в этом стриме было понятно 🙂 Но атмосфера и идеи таких исследований переданы здорово и посмотреть до конца очень рекомендую! 🔥🔥🔥
👉 https://www.youtube.com/live/hXGun1Kl0YQ
Очень интересный стрим по современной математике и математическим проблемам тысячелетия от друга нашего канала Димы — смотрю сейчас с большим интересом. 🔥
О проблемах тысячелетия изнутри - какими путями такие проблемы решаются.
Кому хочется серьёзной математики, очень рекомендую к просмотру. Если что-то будет непонятно — не расстраивайтесь, мне тоже далеко не всё в этом стриме было понятно 🙂 Но атмосфера и идеи таких исследований переданы здорово и посмотреть до конца очень рекомендую! 🔥🔥🔥
👉 https://www.youtube.com/live/hXGun1Kl0YQ
Youtube
- YouTube
Enjoy the videos and music you love, upload original content, and share it all with friends, family, and the world on YouTube.
🔥3👍1
Forwarded from Knowledge Accumulator
С днём AGI-осени?
Люди думали о создании "искусственного интеллекта" с незапамятных времён - не то, что на заре компьютеров, а когда их ещё не было. Думаю, все мы знаем про тест Тьюринга - он был предложен аж в 1950 году! Та самая статья Тьюринга довольно интересно читается сегодня, поскольку мы знаем про AI гораздо больше.
Попытки двигаться в сторону "AGI" не заставили себя ждать. Я уже когда-то писал про программу со скромным названием General Problem Solver из 1957-го. Да в ту эру был даже свой ChatGPT - ELIZA (1966). Рано смеётесь - она обгоняла GPT-3.5 в тесте Тьюринга.
Уже тогда говорили - "Через 3-6 месяцев ELIZA будет писать 90% кода". К сожалению, людишки переоценили свои силы, и в 70-х этот обсёр стал очевиден. Амбиции поубавились и про AGI уже как-то стало стыдно говорить.
В 2012-м свёрточные нейросети ворвались в игру и началась эпоха Deep Learning. Довольно быстро его применили в зрении и других областях, в том числе и в обучении с подкреплением. Статья Playing Atari with Deep Reinforcement Learning [2013] знатно хайпанула - надо же, алгоритм самостоятельно учится играть в игру. Потом Deepmind выпустили AlphaGo [2015].
В тот момент я только начинал изучать ML. Отчётливо помню, что в больших ML-сообществах тема AGI считалась кринжом - серьёзные люди тогда жаловали только серьёзные ML-приложения. Я был среди меньшинства, которое ожидало дальнейших побед RL.
Пик пришёлся на 2018-2019-й - Deepmind AlphaStar и OpenAI Five жёстко хайпанули, продемонстрировав топовый уровень игры в Starcraft 2 и Dota 2. Но это была Пиррова победа. Читая внимательно статьи, становится понятно - всё это работает с горем пополам. Не получается так, как в Go - поставил модельку играть саму с собой и пошёл пить чай - всё это уже не скейлится на такие задачи, и нужно городить кучу костылей и ограничений.
И вот в начале 2020-х AGI снова вошёл в мейнстрим, причём не благодаря решению крутой задачи, а благодаря новой форме подачи - из андэграунда вырвались NLP-ресёрчеры, которые релизнули старую как мир идею - чат-бота, но на основе Deep Learning. Увидев такое, уязвимый человеческий рассудок не устоял перед харизмой статистического попугая. На пару лет те, кто не верили в достижение AGI на основе чат-бота, стали считаться тупыми скептиками.
Прошло пару лет, миллиарды долларов были распилены, чат-бот прокачали, но AGI как-то не особо приблизился. И тут текущие игроки достали козырь из рукава. Оказывается, AGI это в принципе отстойный термин. Теперь вместо того, чтобы идти к как бы "непонятному" интеллекту, AI-компании меняют направление.
И я очень этому рад! Нас ждёт расцвет реально полезных AI-приложений. xAI релизнули общение с раздевающейся аниме-тёлочкой. Superintelligence Lab Цукерберга даёт возможность пообщаться с Russian Girl или Step Mom, ждём релиза AlphaSex от Google Deepmind. Не сомневаюсь, что в скором времени у нас в домах будут Тесла Оптимусы, выглядящие как Ani, и помимо всего прочего ещё и собирающие грязные носки по дому.Женщина, которую мы все хотели.
На основе текущих технологий было и будет построено много полезных приложений. Но лично мне, как человеку, сфокусированному на сильном интеллекте уже лет 10, на эти приложения скорее пофиг.
Текущие крупные игроки вряд ли заинтересованы в создании "настоящего" AGI - он может уничтожить статус-кво и их самих. В этом я с ними солидарен - если у кого-то из этих больных мессианским комплексом реально появится суперинтеллект, мало не покажется никому. В свою очередь, это открывает возможность совершить этот прорыв кому угодно, кто знает, что и зачем он делает.
@knowledge_accumulator
Люди думали о создании "искусственного интеллекта" с незапамятных времён - не то, что на заре компьютеров, а когда их ещё не было. Думаю, все мы знаем про тест Тьюринга - он был предложен аж в 1950 году! Та самая статья Тьюринга довольно интересно читается сегодня, поскольку мы знаем про AI гораздо больше.
Попытки двигаться в сторону "AGI" не заставили себя ждать. Я уже когда-то писал про программу со скромным названием General Problem Solver из 1957-го. Да в ту эру был даже свой ChatGPT - ELIZA (1966). Рано смеётесь - она обгоняла GPT-3.5 в тесте Тьюринга.
Уже тогда говорили - "Через 3-6 месяцев ELIZA будет писать 90% кода". К сожалению, людишки переоценили свои силы, и в 70-х этот обсёр стал очевиден. Амбиции поубавились и про AGI уже как-то стало стыдно говорить.
В 2012-м свёрточные нейросети ворвались в игру и началась эпоха Deep Learning. Довольно быстро его применили в зрении и других областях, в том числе и в обучении с подкреплением. Статья Playing Atari with Deep Reinforcement Learning [2013] знатно хайпанула - надо же, алгоритм самостоятельно учится играть в игру. Потом Deepmind выпустили AlphaGo [2015].
В тот момент я только начинал изучать ML. Отчётливо помню, что в больших ML-сообществах тема AGI считалась кринжом - серьёзные люди тогда жаловали только серьёзные ML-приложения. Я был среди меньшинства, которое ожидало дальнейших побед RL.
Пик пришёлся на 2018-2019-й - Deepmind AlphaStar и OpenAI Five жёстко хайпанули, продемонстрировав топовый уровень игры в Starcraft 2 и Dota 2. Но это была Пиррова победа. Читая внимательно статьи, становится понятно - всё это работает с горем пополам. Не получается так, как в Go - поставил модельку играть саму с собой и пошёл пить чай - всё это уже не скейлится на такие задачи, и нужно городить кучу костылей и ограничений.
И вот в начале 2020-х AGI снова вошёл в мейнстрим, причём не благодаря решению крутой задачи, а благодаря новой форме подачи - из андэграунда вырвались NLP-ресёрчеры, которые релизнули старую как мир идею - чат-бота, но на основе Deep Learning. Увидев такое, уязвимый человеческий рассудок не устоял перед харизмой статистического попугая. На пару лет те, кто не верили в достижение AGI на основе чат-бота, стали считаться тупыми скептиками.
Прошло пару лет, миллиарды долларов были распилены, чат-бот прокачали, но AGI как-то не особо приблизился. И тут текущие игроки достали козырь из рукава. Оказывается, AGI это в принципе отстойный термин. Теперь вместо того, чтобы идти к как бы "непонятному" интеллекту, AI-компании меняют направление.
И я очень этому рад! Нас ждёт расцвет реально полезных AI-приложений. xAI релизнули общение с раздевающейся аниме-тёлочкой. Superintelligence Lab Цукерберга даёт возможность пообщаться с Russian Girl или Step Mom, ждём релиза AlphaSex от Google Deepmind. Не сомневаюсь, что в скором времени у нас в домах будут Тесла Оптимусы, выглядящие как Ani, и помимо всего прочего ещё и собирающие грязные носки по дому.
На основе текущих технологий было и будет построено много полезных приложений. Но лично мне, как человеку, сфокусированному на сильном интеллекте уже лет 10, на эти приложения скорее пофиг.
Текущие крупные игроки вряд ли заинтересованы в создании "настоящего" AGI - он может уничтожить статус-кво и их самих. В этом я с ними солидарен - если у кого-то из этих больных мессианским комплексом реально появится суперинтеллект, мало не покажется никому. В свою очередь, это открывает возможность совершить этот прорыв кому угодно, кто знает, что и зачем он делает.
@knowledge_accumulator
👍3
К научным темам, пробую архитектуры неросетей решать нерешённые математические задачи последних двух веков - пока ничего не решают, что и логично. Прийдотся брать ручку и бумагу и решать самому.
К споритивным темам: бросил вызов Валерию Бабушкину, который считается самым сильным Дата Сайнтистом современности так как от груди жмёт 200 кг )
К споритивным темам: бросил вызов Валерию Бабушкину, который считается самым сильным Дата Сайнтистом современности так как от груди жмёт 200 кг )
😁3
Расскжу чего-то из своего математического прошлого: я был когда-то на школе Бруно Бухбергера - этот тот чувак, который изобрёл алгоритм для решения нелинейных алгебраических уравнений/базисы Грёбнера. Сто лет ещё не прошло. И я там должен был делать доклад. А передо мной всякие молодые ребята выступали из Германии, США, Франции и что-то там рассказывали про вычислителъную (не)коммутивную алгебру. И на всех этих докладал сидел Бруно Бухбегер и Жан Франуа Помарре. Великие математики. И все молодых ребят они разносли просто в пух и прах. Восновном Поммаре разнослил, я его я вообще боялся, так как я его за 10 лет до этого встретил на конференции в Греции и он мне сказал лично: ты козёл, что ты куришь. Ну и я слушаю доклады по алгебре, в конце каждого доклада Помаре просто разносит каждого докладчика и приходит моя очередь. меня он вообще разнесёт сто процентов так как я вообще не математик, а выступаю от информатики. Я делаю свой доклад и уверен, что Помаре меня разнесёт в пух и прах. Помаре говорит: ну наконец-то, один нормальный доклад на конференции, все остальные доклады от молодых отстой, а этот хотъ свои собственные мозги напряг, а не ошибки предков повторяет!
😁7👍1
Бруно Бухбергер:
https://en.wikipedia.org/wiki/Bruno_Buchberger
про него можно рассказать болъше, конечно )
https://en.wikipedia.org/wiki/Bruno_Buchberger
про него можно рассказать болъше, конечно )
Wikipedia
Bruno Buchberger
Austrian mathematician
Вы б, кстати, послушали лекцию Жана Фраунсау Помаре про дифференциальные операторы и главное видели бы на этой лекции меня. Я до сих пор не понимаю, я там единственный был, кто вообще ничего не понял, а остальные кто сидели были актёры, которые делали вид что понимают? Это реально было ржачно. Жаль этой лекции нет на видео, я там мог бы получитъ Оскара за возведения глаз к небу и просьбе простить меня и помиловать, что зря занимаю чьё-то место на этой лекции. Ладно, я бы успокоился, если бы все сидели так же понуро как я, но, блин, они задавали вопросы! Может быть не к месту, может быть глупые, но они задавали вопросы! А я даже вопроса задать не мог - я не понимал ничего в этой лекции. Сейчас, конечно, я понимаю, о чём речь на той лекции шла, но тогда я думал, блин, куда я попал, зачем я здесъ, шо за чейны операторов, какие пвсевдогруппы, ребята, вы о чём?? И главное лекция так хорошо начиналась - обыкновенные дифференциальные уравнения, маятник, всё по классике и потом за 15 минут тыгыдым в какуют-то гремчую теорию. ААА, я ещё обыкновенные дифференциалъные уравнения не освоил аналитически, ребята, вы куда??
Однако я пережил этот психологический стресс, так как на тот момент умел решать уравнения в частных производных численно довольно хорошо. Например, Навьер-Стокса с разными числами Рейнольдса и на разным геометриях и мне было понятно, что ладно, даже если я тут не понимаю пока, они тоже врядли умеют так же хорошо решать такие дифуры как Навье-Стокс в произвольных геометриях. И я даже схватил Помаре после лекции и загрузил его на эту тему, на что он мне сказал, что это не его работа, но скорее всего я прав, но он точно не знает и посоветовал бросать курить: мол, что тебя не вижу, говорит, в любой стране - всегда куришь в гостинице после завтрака ) шо у вас за мода, стоять и курить возле гостиницы, кто так делает! нормальные люди о математике думают, а не курят!
Однако я пережил этот психологический стресс, так как на тот момент умел решать уравнения в частных производных численно довольно хорошо. Например, Навьер-Стокса с разными числами Рейнольдса и на разным геометриях и мне было понятно, что ладно, даже если я тут не понимаю пока, они тоже врядли умеют так же хорошо решать такие дифуры как Навье-Стокс в произвольных геометриях. И я даже схватил Помаре после лекции и загрузил его на эту тему, на что он мне сказал, что это не его работа, но скорее всего я прав, но он точно не знает и посоветовал бросать курить: мол, что тебя не вижу, говорит, в любой стране - всегда куришь в гостинице после завтрака ) шо у вас за мода, стоять и курить возле гостиницы, кто так делает! нормальные люди о математике думают, а не курят!
❤5😁2
Повторю пару недавних постов, вдруг кто их не заметил в канале
Forwarded from Истории (не)успеха (ИИ)ЕИ (Dmytro)
2/2. Продолжение. Начало тут.
Но сначала вернёмся от Теренса Тао на почти 100 лет назад к работам Андрея Колмогоровa.
🌀 Контекст: турбулентность и энергетический каскад
Когда жидкость начинает двигаться слишком быстро или неравномерно, её движение становится турбулентным — это означает, что в ней появляются завихрения разных размеров, от больших до очень мелких.
Андрей Колмогоров в 1941 году предложил статистическую теорию турбулентности, которая не пытается предсказать каждое завихрение, а описывает их в среднем. Он задался вопросом: Как распределяется энергия в турбулентном потоке между завихрениями разных размеров, по шакале от метров до мили-, микро-,- и т.д. метров?
📐 Формула Колмогорова: 𝐸(𝑘) ∼ 𝑘⁻⁵⸍³
Здесь:
— 𝐸(𝑘) — энергетический спектр: сколько энергии содержится в завихрениях размера, соответствующего волновому числу k;
— 𝑘 — волновое число, обратно пропорциональное размеру вихря: чем больше k, тем мельче вихрь
— ∼ 𝑘⁻⁵⸍³ — энергия убывает с ростом k по степенному закону: чем мельче завихрение, тем меньше в нём энергии.
📉 Крупные вихри содержат больше энергии, и по мере распада потока на всё более мелкие — энергия «перетекает вниз». Это и есть энергетический каскад Колмогорова.
📌 Почему это важно?
Формула 𝐸(𝑘) ∼ 𝑘⁻⁵⸍³ — это золотой стандарт в турбулентности. Её подтверждали во множестве экспериментов: от потоков в трубах до атмосферных ветров.
📡 В спектре турбулентности вы реально видите "горку", убывающую как 𝑘⁻⁵⸍³, между зоной внешних сил (где поток "раскачивается") и зоной вязкости (где энергия гасится).
🤝 Колмогоров и Тао
Колмогоров предложил макроскопическую модель: что делает турбулентность в среднем. А Тао, десятилетия спустя, пытается понять:
🔍 Что сделал Тао:
1. Создал модифицированную модель Навье–Стокса
Тао предложил упрощённые версии уравнений — не настоящие Навье–Стокса, а их "игровые" аналоги. Он отключил некоторые физические ограничения, но сохранил важные структурные черты, чтобы изучить, возможен ли в принципе сценарий сингулярности.
2. Показал, что в этих уравнениях возможен blow-up
Он построил пример, где энергия жидкости стекается в одну точку всё быстрее и быстрее, пока не становится бесконечной за конечное время. Это — математическая модель сингулярности.
🧠 Главная идея:
📈 Его идея: представить сценарий, где вихри в жидкости ведут себя как программа, которая самовоспроизводится — каждый раз в меньшем масштабе и с большей скоростью. Такая каскадная структура ведёт к тому, что вся энергия стягивается в одну точку, ускоряясь бесконечно — как жидкостная версия компьютера, с встроенным механизмом “взрыва”.
🤖 Тао даже сравнивает это с Тьюринг-машиной из жидкости — машиной, которая вычисляет собственную эволюцию, ускоряясь и масштабируясь вниз, пока не обрушится в математическую бесконечность.
В своём интервью он наглядно объясняет, как с помощью конструкции типа машины Тьюринга он перепрограммирует уравнения Навье-Стокса не на рассеивание энергии через механизмы транспорта и вязкости на отдельные вихри, а пускает энергию вниз по масштабам через вихри большего размера к вихрям меньшего и ещё меньшего и т.д. размера. Очень интересный метод. Мне понра и захотелось даже заглянуть в его оригинальную статью 2016-го года. Надо отметить что подобные темы мы уже разбирали тут и тут.
#NavierStockes #MilleniumPrize #Kolomogorov #Tao #MathPhysics
@easy_about_complex
Но сначала вернёмся от Теренса Тао на почти 100 лет назад к работам Андрея Колмогоровa.
🌀 Контекст: турбулентность и энергетический каскад
Когда жидкость начинает двигаться слишком быстро или неравномерно, её движение становится турбулентным — это означает, что в ней появляются завихрения разных размеров, от больших до очень мелких.
Андрей Колмогоров в 1941 году предложил статистическую теорию турбулентности, которая не пытается предсказать каждое завихрение, а описывает их в среднем. Он задался вопросом: Как распределяется энергия в турбулентном потоке между завихрениями разных размеров, по шакале от метров до мили-, микро-,- и т.д. метров?
Как распределяется энергия в турбулентном потоке между завихрениями разных размеров?
📐 Формула Колмогорова: 𝐸(𝑘) ∼ 𝑘⁻⁵⸍³
Здесь:
— 𝐸(𝑘) — энергетический спектр: сколько энергии содержится в завихрениях размера, соответствующего волновому числу k;
— 𝑘 — волновое число, обратно пропорциональное размеру вихря: чем больше k, тем мельче вихрь
— ∼ 𝑘⁻⁵⸍³ — энергия убывает с ростом k по степенному закону: чем мельче завихрение, тем меньше в нём энергии.
📉 Крупные вихри содержат больше энергии, и по мере распада потока на всё более мелкие — энергия «перетекает вниз». Это и есть энергетический каскад Колмогорова.
📌 Почему это важно?
Формула 𝐸(𝑘) ∼ 𝑘⁻⁵⸍³ — это золотой стандарт в турбулентности. Её подтверждали во множестве экспериментов: от потоков в трубах до атмосферных ветров.
📡 В спектре турбулентности вы реально видите "горку", убывающую как 𝑘⁻⁵⸍³, между зоной внешних сил (где поток "раскачивается") и зоной вязкости (где энергия гасится).
🤝 Колмогоров и Тао
Колмогоров предложил макроскопическую модель: что делает турбулентность в среднем. А Тао, десятилетия спустя, пытается понять:
А возможно ли, чтобы вся энергия сконцентрировалась в одной точке — чтобы вместо каскада вниз случился взрыв вверх, сингулярность?
🔍 Что сделал Тао:
1. Создал модифицированную модель Навье–Стокса
Тао предложил упрощённые версии уравнений — не настоящие Навье–Стокса, а их "игровые" аналоги. Он отключил некоторые физические ограничения, но сохранил важные структурные черты, чтобы изучить, возможен ли в принципе сценарий сингулярности.
2. Показал, что в этих уравнениях возможен blow-up
Он построил пример, где энергия жидкости стекается в одну точку всё быстрее и быстрее, пока не становится бесконечной за конечное время. Это — математическая модель сингулярности.
🧠 Главная идея:
Если слегка ослабленные уравнения могут "взорваться", значит, в оригинальных уравнениях такие механизмы где-то на грани — и, возможно, их можно "выдавить" или, наоборот, доказать, что они невозможны.
📈 Его идея: представить сценарий, где вихри в жидкости ведут себя как программа, которая самовоспроизводится — каждый раз в меньшем масштабе и с большей скоростью. Такая каскадная структура ведёт к тому, что вся энергия стягивается в одну точку, ускоряясь бесконечно — как жидкостная версия компьютера, с встроенным механизмом “взрыва”.
🤖 Тао даже сравнивает это с Тьюринг-машиной из жидкости — машиной, которая вычисляет собственную эволюцию, ускоряясь и масштабируясь вниз, пока не обрушится в математическую бесконечность.
В своём интервью он наглядно объясняет, как с помощью конструкции типа машины Тьюринга он перепрограммирует уравнения Навье-Стокса не на рассеивание энергии через механизмы транспорта и вязкости на отдельные вихри, а пускает энергию вниз по масштабам через вихри большего размера к вихрям меньшего и ещё меньшего и т.д. размера. Очень интересный метод. Мне понра и захотелось даже заглянуть в его оригинальную статью 2016-го года. Надо отметить что подобные темы мы уже разбирали тут и тут.
#NavierStockes #MilleniumPrize #Kolomogorov #Tao #MathPhysics
@easy_about_complex
Telegram
Истории (не)успеха (ИИ)ЕИ
1/2
🧠💥 Математика, которая может взорваться — загадка уравнений Навье–Стокса
Это одна из тем, про которые говорил Теренс Тао в своём интервью в субботу.
Представьте: вы плеснули водой — она закружилась, вспенилась, но в конце концов всё улеглось. А теперь…
🧠💥 Математика, которая может взорваться — загадка уравнений Навье–Стокса
Это одна из тем, про которые говорил Теренс Тао в своём интервью в субботу.
Представьте: вы плеснули водой — она закружилась, вспенилась, но в конце концов всё улеглось. А теперь…
👍2
Кстати, предлагаю всем посмотреть наконец-то переведённое с помошью ИИ на русский язык последнее интервью с Теренсом Тао:
https://www.youtube.com/watch?v=HUkBz-cdB-k
https://www.youtube.com/watch?v=HUkBz-cdB-k
YouTube
Terence Tao: Hardest Problems in Mathematics, Physics & the Future of AI | Lex Fridman Podcast #472
Terence Tao is widely considered to be one of the greatest mathematicians in history. He won the Fields Medal and the Breakthrough Prize in Mathematics, and has contributed to a wide range of fields from fluid dynamics with Navier-Stokes equations to mathematical…
Как бы это всё оцифровизовать и причём здесь физика:
https://www.youtube.com/shorts/1_Cx62LNgBk?feature=share
https://www.youtube.com/shorts/1_Cx62LNgBk?feature=share
YouTube
Почему у Животных нет Интеллекта? #биология #наука #эволюция | Соломин
Почему у Животных нет Интеллекта? #биология #наука #эволюция@glebsolomin
🧩 В последние недели я немного занимался нейросетями для решения вращательных пазлов типа кубика Рубика, пирамидок и прочих.
Речь идёт о задачах вроде нахождения путей в графах Кэли, которые имеют колоссальное количество состояний.
Для примера:
* Кубик Рубика 3×3×3 — примерно 10^19 перемешанных состояний.
* Кубик 5×5×5 — уже примерно 10^90 состояний.
* Кубик 8×8×8 — 10^167 состояний!
😲 Для сравнения: это гораздо больше, чем число атомов в видимой Вселенной. Суперастрономические числа.
Решить такой пазл значит найти путь в графе от любого перемешанного состояния до собранного, где все грани одного цвета.
Да, интересно находить кратчайший путь, но пока оставим этот нюанс.
💡 Главное: классические алгоритмы поиска в графах здесь не работают — слишком много вершин и рёбер.
В следующих постах я попытаюсь объяснить, почему и при каких условиях нейросети могут успешно справляться с этой задачей и какие примерно вычислительные мощности должны быть при этом задействованы.
⌛ Продолжение будет (не сегодня 😉).
Речь идёт о задачах вроде нахождения путей в графах Кэли, которые имеют колоссальное количество состояний.
Для примера:
* Кубик Рубика 3×3×3 — примерно 10^19 перемешанных состояний.
* Кубик 5×5×5 — уже примерно 10^90 состояний.
* Кубик 8×8×8 — 10^167 состояний!
😲 Для сравнения: это гораздо больше, чем число атомов в видимой Вселенной. Суперастрономические числа.
Решить такой пазл значит найти путь в графе от любого перемешанного состояния до собранного, где все грани одного цвета.
Да, интересно находить кратчайший путь, но пока оставим этот нюанс.
💡 Главное: классические алгоритмы поиска в графах здесь не работают — слишком много вершин и рёбер.
В следующих постах я попытаюсь объяснить, почему и при каких условиях нейросети могут успешно справляться с этой задачей и какие примерно вычислительные мощности должны быть при этом задействованы.
⌛ Продолжение будет (не сегодня 😉).
👍8🔥1
Продолжение. Начало — тут.
Я ещё не закончил разбираться с поиском в графах Кэли / подгруппах симметрической группы, но хочу поделиться промежуточными наблюдениями и парой вопросов, которые меня в этой теме занимают. Главное — задавать правильные вопросы; возможно, кто-то из дорогих читателей подскажет подходящую идею или задаст вопрос, которого у меня пока не хватает. Поскольку в телеграме длина поста ограничена, не буду сейчас гнаться за формальной точностью — по деталям, если будет интересно, отвечу в комментариях.
Итак, что конкретно делаем с нейросетью. Мы учим её предсказывать следующий ход для сборки пазла. Как это делаем: генерируем случайные «прогулки» по графу от собранного состояния к перемешанным состояниям длины от 2 до 𝑘. Эти пары (перемешанное состояние → следующий ход по пути к собранному состоянию) скармливаем нейросети в режиме супервайзинга. Ходов у нас конечное небольшое число — пусть это 𝑚. На входе сеть получает состояние, на выходе — распределение по
𝑚 возможным ходам: оценку вероятности того, что данный ход уменьшит дистанцию до собранного состояния.
На головоломках с размерами состояния порядка
10^15 – 10^20 подход работает прекрасно. Модель небольшая, много данных не требуется — даже при том, что число случайных прогулок на порядки меньше числа всех состояний, сеть быстро учится и решает такие пазлы без видимых проблем. По опыту: на этих масштабах сложно ошибиться с архитектурой/размером модели — всё, что я пробовал (простые CNN-подобные сети, трансформеры и т.п.), работало; параметры модели обычно значительно меньше полумиллиона обучаемых весов, и пространство скрытых состояний тоже невелико. Скоро выложу код и модели на Kaggle/репозиторий. Следующий шаг — атаковать головоломки с количеством состояний ≫ 10^40.
Вопросы, которые мне кажутся интересными (и по которым хотелось бы услышать мнение сообщества):
1) Какова конкретная связь между размером графа / порядком соответствующей группы и необходимым числом обучаемых параметров, размером датасета и выбором архитектуры? Неужели действительно «любая» архитектура будет работать одинаково, как мне пока кажется? Может, я ошибаюсь — опыта мало, хотелось бы навести порядок в голове.
2) Немного теории. Вращающиеся пазлы задаются как подгруппы симметрической группы (группа перестановок). Известно, что для абелевых (т.е. коммутативных) групп число достижимых состояний с ростом длины слова увеличивается полиномиально; в более общем виде теорема Громова говорит о связи между полиномиальным ростом и виртуальной нильпотентностью группы (нилпотентность группы это, грубо говоря - насколько группа близка к коммутативности). Пазлы, как правило, не нильпотентны и в вычислительных экспериментах демонстрируют экспоненциальный рост числа достижимых состояний по мере увеличения глубины. Тогда почему нейросети так хорошо справляются с такой «экспоненциальной» структурой? Какие факторы дают им преимущество?
Господа математики (и все причастные), что думаете?
⌛ Продолжение будет (не сегодня 😉).
П.С. всё написаное соответствует моему пониманию темы на сегодняшний день и я тут ни разу не эксперт, который на это потратил годы. пытаюсь покопать в этих направлениях и пишу о том, что вижу по мере раскопок :)
Я ещё не закончил разбираться с поиском в графах Кэли / подгруппах симметрической группы, но хочу поделиться промежуточными наблюдениями и парой вопросов, которые меня в этой теме занимают. Главное — задавать правильные вопросы; возможно, кто-то из дорогих читателей подскажет подходящую идею или задаст вопрос, которого у меня пока не хватает. Поскольку в телеграме длина поста ограничена, не буду сейчас гнаться за формальной точностью — по деталям, если будет интересно, отвечу в комментариях.
Итак, что конкретно делаем с нейросетью. Мы учим её предсказывать следующий ход для сборки пазла. Как это делаем: генерируем случайные «прогулки» по графу от собранного состояния к перемешанным состояниям длины от 2 до 𝑘. Эти пары (перемешанное состояние → следующий ход по пути к собранному состоянию) скармливаем нейросети в режиме супервайзинга. Ходов у нас конечное небольшое число — пусть это 𝑚. На входе сеть получает состояние, на выходе — распределение по
𝑚 возможным ходам: оценку вероятности того, что данный ход уменьшит дистанцию до собранного состояния.
На головоломках с размерами состояния порядка
10^15 – 10^20 подход работает прекрасно. Модель небольшая, много данных не требуется — даже при том, что число случайных прогулок на порядки меньше числа всех состояний, сеть быстро учится и решает такие пазлы без видимых проблем. По опыту: на этих масштабах сложно ошибиться с архитектурой/размером модели — всё, что я пробовал (простые CNN-подобные сети, трансформеры и т.п.), работало; параметры модели обычно значительно меньше полумиллиона обучаемых весов, и пространство скрытых состояний тоже невелико. Скоро выложу код и модели на Kaggle/репозиторий. Следующий шаг — атаковать головоломки с количеством состояний ≫ 10^40.
Вопросы, которые мне кажутся интересными (и по которым хотелось бы услышать мнение сообщества):
1) Какова конкретная связь между размером графа / порядком соответствующей группы и необходимым числом обучаемых параметров, размером датасета и выбором архитектуры? Неужели действительно «любая» архитектура будет работать одинаково, как мне пока кажется? Может, я ошибаюсь — опыта мало, хотелось бы навести порядок в голове.
2) Немного теории. Вращающиеся пазлы задаются как подгруппы симметрической группы (группа перестановок). Известно, что для абелевых (т.е. коммутативных) групп число достижимых состояний с ростом длины слова увеличивается полиномиально; в более общем виде теорема Громова говорит о связи между полиномиальным ростом и виртуальной нильпотентностью группы (нилпотентность группы это, грубо говоря - насколько группа близка к коммутативности). Пазлы, как правило, не нильпотентны и в вычислительных экспериментах демонстрируют экспоненциальный рост числа достижимых состояний по мере увеличения глубины. Тогда почему нейросети так хорошо справляются с такой «экспоненциальной» структурой? Какие факторы дают им преимущество?
Господа математики (и все причастные), что думаете?
⌛ Продолжение будет (не сегодня 😉).
П.С. всё написаное соответствует моему пониманию темы на сегодняшний день и я тут ни разу не эксперт, который на это потратил годы. пытаюсь покопать в этих направлениях и пишу о том, что вижу по мере раскопок :)
Telegram
Истории (не)успеха (ИИ)ЕИ
🧩 В последние недели я немного занимался нейросетями для решения вращательных пазлов типа кубика Рубика, пирамидок и прочих.
Речь идёт о задачах вроде нахождения путей в графах Кэли, которые имеют колоссальное количество состояний.
Для примера:
* Кубик…
Речь идёт о задачах вроде нахождения путей в графах Кэли, которые имеют колоссальное количество состояний.
Для примера:
* Кубик…
👍5❤2🐳2
В общем, кратко, как это работает — а оно работает (см. тут):
1) Генерируем простым алгоритмом некоторое количество случайных прогулок по графу от собранного состояния до любых, куда заведёт генератор случайных чисел.
2) Компактифицируем дискретный граф 10^𝑛, переводя его в эмбеддинги в пространстве 𝑅^𝑑,где 𝑑≪𝑛. То есть пропускаем все сгенерированные состояния через нейросеть и говорим: вот это состояниe — оно на столько-то шагов от исходного. Учись, нейросеточка, на этом.
3) Пропускаем эти векторы через пару-тройку слоёв нейросети с нелинейностями — она ловит паттерны и учится одной простой вещи: предсказывать, насколько «близко к решению» текущее состояние, хотя никогда его напрямую не видела. Состояний-то слишком много. Поэтому ловим паттерны.
4) Beam Search делает своё дело: на каждом шаге проверяет варианты, смотрит на предсказанную «близость» и оставляет только топ‑k самых перспективных.
И вуаля — даже не видя все 10^n состояний, модель находит решение потому, что видит скрытые закономерности.
1) Генерируем простым алгоритмом некоторое количество случайных прогулок по графу от собранного состояния до любых, куда заведёт генератор случайных чисел.
2) Компактифицируем дискретный граф 10^𝑛, переводя его в эмбеддинги в пространстве 𝑅^𝑑,где 𝑑≪𝑛. То есть пропускаем все сгенерированные состояния через нейросеть и говорим: вот это состояниe — оно на столько-то шагов от исходного. Учись, нейросеточка, на этом.
3) Пропускаем эти векторы через пару-тройку слоёв нейросети с нелинейностями — она ловит паттерны и учится одной простой вещи: предсказывать, насколько «близко к решению» текущее состояние, хотя никогда его напрямую не видела. Состояний-то слишком много. Поэтому ловим паттерны.
4) Beam Search делает своё дело: на каждом шаге проверяет варианты, смотрит на предсказанную «близость» и оставляет только топ‑k самых перспективных.
И вуаля — даже не видя все 10^n состояний, модель находит решение потому, что видит скрытые закономерности.
👍5
👆👆👆
Вообще, интересно наблюдать, как для решения задач в определённых алгебраических структурах могут применяться искусственные нейронные сети. Я пока занимался этим не так много, но вот что бросается в глаза: если у тебя есть какая-то, даже совсем не плохо исследованная математическая структура — например, симметрические группы как в случае с вверху обсуждаемыми вращательными пазлами — хочется понимать, какая нейросеть её «решает». Архитектура, размер пространства скрытых состояний, все гиперпараметры — хотелось бы видеть это как мост от известных математических инструментов к ИИ-системам, которые находят решения в этих структурах.
Да, можно решать пазлы методом тыка, подбирая размер сети и другие параметры «на глаз», но куда интереснее иметь какую-то теоретическую основу, которая объясняет, как из матаппарата структуры вырастает нейросеть, способная её эффективно обрабатывать 🤷♂️
Вообще, интересно наблюдать, как для решения задач в определённых алгебраических структурах могут применяться искусственные нейронные сети. Я пока занимался этим не так много, но вот что бросается в глаза: если у тебя есть какая-то, даже совсем не плохо исследованная математическая структура — например, симметрические группы как в случае с вверху обсуждаемыми вращательными пазлами — хочется понимать, какая нейросеть её «решает». Архитектура, размер пространства скрытых состояний, все гиперпараметры — хотелось бы видеть это как мост от известных математических инструментов к ИИ-системам, которые находят решения в этих структурах.
Да, можно решать пазлы методом тыка, подбирая размер сети и другие параметры «на глаз», но куда интереснее иметь какую-то теоретическую основу, которая объясняет, как из матаппарата структуры вырастает нейросеть, способная её эффективно обрабатывать 🤷♂️
👍8❤2
начало тут 👆
🧩 Всем привет!
Есть серия соревнований на Kaggle, где в соревновательной форме можно попробовать решать открытые задачи математики на графах Кэли и подгруппах симметрической группы.
🎯 Суть
Нужно искать кратчайшие пути в графах Кэли — будь то оптимальные решения для куба Рубика 4×4×4 (Rubik’s Revenge), задачи на транспозоны или другие перестановочные головоломки.
В общем случае такие задачи NP-трудные.
Для малых размеров иногда можно найти оптимум, для больших — выигрывает тот, кто строит более короткие пути.
🔬 Научный контекст
Это классическая постановка: разложить элемент группы в произведение генераторов, или — найти путь в графе Кэли.
-Примеры: bubble sort, pancake sorting 🥞 (в котором, к слову, участвовал Билл Гейтс).
-Открытая гипотеза OEIS A065603 предсказывает, что диаметр (т.н. число Бога) равен ⌈(n+1)/2⌉ — она остаётся нерешённой уже 25 лет.
Важность темы подчёркивают работы М. Громова, Т. Тао и других. Дональд Кнут предлагал алгоритмические улучшения.
Применения: биоинформатика (оценка эволюционных расстояний), теория коммуникаций, оптимизация сетей и многое другое.
🤖 RL и компьютерные науки
Состояния = вершины графа Кэли.
Действия = рёбра (разрешённые перестановки).
Награды = всегда "1", пока не найдено решение (там 0).
Итого: классический RL с экстремально разреженной наградой.
Функция ценности = длина пути до решения, а уравнение Беллмана в этом случае напрямую отражает тривиальные соотношения на длинах путей.
Это отличная площадка для тестирования новых методов RL и pathfinding на пространствах колоссального размера (10³³ и больше).
🚀 Практика - соревнования
В соревнованиях можно попробовать себя не только с кубом Рубика, но и с другими задачами:
Pancake sorting
Transposons
Reversals
Glushkov problem
RapapportM2
Rubik's cube 444
Professor Tetraminx
Megaminx
Christophers jewel
SuperCube from IHES
Все они собраны в рамках проекта CayleyPy — это open-source crowd-sourcing инициатива для разработки AI-библиотеки по математике. Можно подключаться и вне Kaggle.
Если интересно поучаствовать, но кажется, что порог входа высокий — я могу сделать введение на созвоне и рассказать основы: что такое графы Кэли, как ставится задача и какие методы уже пробовали.
Продолжение тут и тут👇
#Puzzles #CayleyGraphs #SymmetricGroup #KaggleCompetitions
🧩 Всем привет!
Есть серия соревнований на Kaggle, где в соревновательной форме можно попробовать решать открытые задачи математики на графах Кэли и подгруппах симметрической группы.
🎯 Суть
Нужно искать кратчайшие пути в графах Кэли — будь то оптимальные решения для куба Рубика 4×4×4 (Rubik’s Revenge), задачи на транспозоны или другие перестановочные головоломки.
В общем случае такие задачи NP-трудные.
Для малых размеров иногда можно найти оптимум, для больших — выигрывает тот, кто строит более короткие пути.
🔬 Научный контекст
Это классическая постановка: разложить элемент группы в произведение генераторов, или — найти путь в графе Кэли.
-Примеры: bubble sort, pancake sorting 🥞 (в котором, к слову, участвовал Билл Гейтс).
-Открытая гипотеза OEIS A065603 предсказывает, что диаметр (т.н. число Бога) равен ⌈(n+1)/2⌉ — она остаётся нерешённой уже 25 лет.
Важность темы подчёркивают работы М. Громова, Т. Тао и других. Дональд Кнут предлагал алгоритмические улучшения.
Применения: биоинформатика (оценка эволюционных расстояний), теория коммуникаций, оптимизация сетей и многое другое.
🤖 RL и компьютерные науки
Состояния = вершины графа Кэли.
Действия = рёбра (разрешённые перестановки).
Награды = всегда "1", пока не найдено решение (там 0).
Итого: классический RL с экстремально разреженной наградой.
Функция ценности = длина пути до решения, а уравнение Беллмана в этом случае напрямую отражает тривиальные соотношения на длинах путей.
Это отличная площадка для тестирования новых методов RL и pathfinding на пространствах колоссального размера (10³³ и больше).
🚀 Практика - соревнования
В соревнованиях можно попробовать себя не только с кубом Рубика, но и с другими задачами:
Pancake sorting
Transposons
Reversals
Glushkov problem
RapapportM2
Rubik's cube 444
Professor Tetraminx
Megaminx
Christophers jewel
SuperCube from IHES
Все они собраны в рамках проекта CayleyPy — это open-source crowd-sourcing инициатива для разработки AI-библиотеки по математике. Можно подключаться и вне Kaggle.
Если интересно поучаствовать, но кажется, что порог входа высокий — я могу сделать введение на созвоне и рассказать основы: что такое графы Кэли, как ставится задача и какие методы уже пробовали.
Продолжение тут и тут👇
#Puzzles #CayleyGraphs #SymmetricGroup #KaggleCompetitions
Telegram
Истории (не)успеха (ИИ)ЕИ
В общем, кратко, как это работает — а оно работает (см. тут):
1) Генерируем простым алгоритмом некоторое количество случайных прогулок по графу от собранного состояния до любых, куда заведёт генератор случайных чисел.
2) Компактифицируем дискретный граф…
1) Генерируем простым алгоритмом некоторое количество случайных прогулок по графу от собранного состояния до любых, куда заведёт генератор случайных чисел.
2) Компактифицируем дискретный граф…
👍4
Вот несколько деталей и мотивация, почему это интересно 👆:
1️⃣ Соревнования только стартовали, а продлятся целый год — времени хватит на эксперименты, улучшения и изучение новых подходов.
2️⃣ Каждому пазлу прилагается ноутбук с примером решения.
Сегодня я выложу пример в Каггл пример ноутбука с решением для пазла Christopher’s Jewel. Но не обязательно решать так же.
Можно использовать любые методы — главное, кто найдёт самые короткие решения для заданного класса пазлов.
Если понадобится, могу помочь разобраться с ноутбуками.
3️⃣ Теоретический интерес:
Все эти соревнования основаны на нерешённых математических задачах о диаметре графа Кэли соответствующей группы.
Существует гипотеза о том, как диаметр растёт с увеличением числа элементов группы. Даже Теренс Тао пытался доказать её, но не смог.
Кто знает, может с помощью машинных методов именно вы добьётесь успеха? 💡
Например, чистые математики, которые тоже читают эту группу и не особо любят программировать и не занимаются МL могут скооперироваться с теми, кто любит программировать и МL - пишите в комменты!
4️⃣ Практическая сторона:
Некоторые задачи проще описать на примере кубика Рубика.
Для 3×3×3 известно так называемое число Бога — 20 вращений.
Для 4×4×4 и многих других головоломок диаметр не известен, и найти его — реально интересная и открытая проблема. Вот то что Теренс Тао не смог доказать, там ещё побиться надо, а это более реальный и вроде-бы быстрый, но таки новый математический результат! Есть возможность прославиться! 😀
5️⃣ И много других любопытных вопросов ждёт внутри соревнований: оптимальные пути, перестановочные головоломки, алгоритмические эксперименты, RL с разреженной наградой и т.д.
🚀 В общем, есть где развернуться и проверить себя на пересечении математики, программирования и AI.
Хотите лайв-стрим с введением в эти темы и парой советов как лучше в эту тему вьехать?
1️⃣ Соревнования только стартовали, а продлятся целый год — времени хватит на эксперименты, улучшения и изучение новых подходов.
2️⃣ Каждому пазлу прилагается ноутбук с примером решения.
Сегодня я выложу пример в Каггл пример ноутбука с решением для пазла Christopher’s Jewel. Но не обязательно решать так же.
Можно использовать любые методы — главное, кто найдёт самые короткие решения для заданного класса пазлов.
Если понадобится, могу помочь разобраться с ноутбуками.
3️⃣ Теоретический интерес:
Все эти соревнования основаны на нерешённых математических задачах о диаметре графа Кэли соответствующей группы.
Существует гипотеза о том, как диаметр растёт с увеличением числа элементов группы. Даже Теренс Тао пытался доказать её, но не смог.
Кто знает, может с помощью машинных методов именно вы добьётесь успеха? 💡
Например, чистые математики, которые тоже читают эту группу и не особо любят программировать и не занимаются МL могут скооперироваться с теми, кто любит программировать и МL - пишите в комменты!
4️⃣ Практическая сторона:
Некоторые задачи проще описать на примере кубика Рубика.
Для 3×3×3 известно так называемое число Бога — 20 вращений.
Для 4×4×4 и многих других головоломок диаметр не известен, и найти его — реально интересная и открытая проблема. Вот то что Теренс Тао не смог доказать, там ещё побиться надо, а это более реальный и вроде-бы быстрый, но таки новый математический результат! Есть возможность прославиться! 😀
5️⃣ И много других любопытных вопросов ждёт внутри соревнований: оптимальные пути, перестановочные головоломки, алгоритмические эксперименты, RL с разреженной наградой и т.д.
🚀 В общем, есть где развернуться и проверить себя на пересечении математики, программирования и AI.
Хотите лайв-стрим с введением в эти темы и парой советов как лучше в эту тему вьехать?
Telegram
Истории (не)успеха (ИИ)ЕИ
начало тут 👆
🧩 Всем привет!
Есть серия соревнований на Kaggle, где в соревновательной форме можно попробовать решать открытые задачи математики на графах Кэли и подгруппах симметрической группы.
🎯 Суть
Нужно искать кратчайшие пути в графах Кэли — будь…
🧩 Всем привет!
Есть серия соревнований на Kaggle, где в соревновательной форме можно попробовать решать открытые задачи математики на графах Кэли и подгруппах симметрической группы.
🎯 Суть
Нужно искать кратчайшие пути в графах Кэли — будь…
🔥4
Кто хочет лайв-стрим с введением в инструменты для соревнований по нахождениям путей в графах Кэли/подгруппах симметрической группы?
Anonymous Poll
33%
Я собираюсь участвовать и хочу лайв-стрим
56%
Я ещё не знаю, буду ли участвовать, но хочу лайв-стрим
0%
Я буду участвовать, но не хочу лайв-стрим
11%
Я не буду участвовать и не хочу лайв-стрим