Про Ml
Лоран Лафорг
(перевод с французского)
"Один человек из аудитории спросил меня, являются ли математики скорее «изобретателями» — то есть творцами нового мира, созданного их воображением,— или же «первооткрывателями» предсуществующей реальности
Я ответил, что, как и почти все математики, я скорее склоняюсь к платонизму и воспринимаю математику как реальность, независимую от нас, которая существовала в нас, но была сокрыта, укрыта покровом, и наша задача — обнажить её
Однако, поразмыслив, я прихожу к выводу, что для характеристики деятельности математика (или, в более широком смысле, учёного, ищущего истину) существует слово более точное и куда более глубокое, чем «изобретатель» или «первооткрыватель», слово также полностью библейское, которое появляется в конце длинного отрывка из Гротендика, процитированного мною: математик — это слуга
Слуга — это тот, кто заботится о чём-то ином, а не о себе: так же и математик, который в моменты погружения в математику теряет даже сознание собственного «я»
Слуга не решает: математик никогда не решает, что является истинным, но постоянно натыкается на сопротивление истины
Он прилагает усилия к истине, но не может её исказить, кроме как немедленно введя себя в заблуждение; он может лишь прилепиться к ней, повиноваться
Слуга — это один из многих, и более того, он, по слову Христа, «раб неключимый»: то, что он делает, другой мог бы сделать на его месте
Точно так же математик чувствует себя крошечным перед лицом огромной традиции математики, лишь ничтожную часть которой он знает и которую ему было бы не под силу выстроить самостоятельно
Лучшее, на что он может надеяться, — это продвинуть её чуть-чуть вперёд, в то же время осознавая, что его работа будет быстро превзойдена, что многие другие способны сделать то же самое не хуже него и что они неизбежно сделают это однажды, если он сам не приложит к этому руку
Он также знает, что даже самые сложные проблемы покажутся лёгкими и перестанут впечатлять, как только будут решены в первый раз, так что любой прогресс, которого он добивается, растворяет, стирает и заставляет забыть о трудности, которую пришлось преодолеть
Слуга не говорит, он слушает
Математик должен замолкнуть внутренне и прислушаться, напрячь своё существо, чтобы услышать столь тонкий и деликатный голос вещей, каковы они есть, и позволить руке бежать под их диктовку
Как это ни странно, но именно становясь слугой математических реальностей и их голосом, их переводчиком, математик реализует себя
Величайшие математические тексты одновременно и самые безличные — в том смысле, что каждый, читая их, испытывает глубокую эмоцию, видя, как из тумана невысказанного, строка за строкой, появляется нечто, что он всегда в себе носил, что жаждало быть высказанным и до сих пор не могло обрести выражения, — и самые личные — в том смысле, что сразу узнаёшь почерк их автора"
Лоран Лафорг
(перевод с французского)
Себ Крие из DeepMind о том, как Ml-агенты могут изменить общество и государство
Эту статью Себ Крие написал от собственного имени, а не Google, где он работает над разработкой политики
Себ предлагает концепцию, что Ml-агенты могут радикально снизить "транзакционные издержки": затраты на поиск, переговоры и исполнение договорённостей, которые мешают людям напрямую договариваться друг с другом, вместо того, чтобы полагаться на государственное регулирование
Как это работает на практике? Представьте себе умного цифрового помощника, который:
• знает все ваши предпочтения в мельчайших деталях
• может мгновенно вести переговоры с миллионами других агентов
• находит решения, выгодные для всех сторон
Ключевые преимущества системы:
Подотчётность:
Все сделки прозрачны и зафиксированы
Коллективная сила:
Тысячи людей могут мгновенно объединиться через своих агентов для переговоров
Гибкость:
Правила адаптируются в реальном времени, а не ждут решения чиновников
Государство не исчезает, но меняет роль: вместо "центрального планировщика" оно становится "гарантом правил" — обеспечивает права собственности, исполнение контрактов и защиту от насилия
Себ предлагает модель "матрёшки":
Внешний слой: Закон
Средний слой: Рыночная конкуренция между провайдерами агентов
Внутренний слой: Личная лояльность агента к пользователю
Эту статью Себ Крие написал от собственного имени, а не Google, где он работает над разработкой политики
Себ предлагает концепцию, что Ml-агенты могут радикально снизить "транзакционные издержки": затраты на поиск, переговоры и исполнение договорённостей, которые мешают людям напрямую договариваться друг с другом, вместо того, чтобы полагаться на государственное регулирование
Как это работает на практике? Представьте себе умного цифрового помощника, который:
• знает все ваши предпочтения в мельчайших деталях
• может мгновенно вести переговоры с миллионами других агентов
• находит решения, выгодные для всех сторон
Ключевые преимущества системы:
Подотчётность:
Все сделки прозрачны и зафиксированы
Коллективная сила:
Тысячи людей могут мгновенно объединиться через своих агентов для переговоров
Гибкость:
Правила адаптируются в реальном времени, а не ждут решения чиновников
Государство не исчезает, но меняет роль: вместо "центрального планировщика" оно становится "гарантом правил" — обеспечивает права собственности, исполнение контрактов и защиту от насилия
Себ предлагает модель "матрёшки":
Внешний слой: Закон
Средний слой: Рыночная конкуренция между провайдерами агентов
Внутренний слой: Личная лояльность агента к пользователю
blog.cosmos-institute.org
Coasean Bargaining at Scale
Decentralization, coordination, and co-existence with AGI
9 октября в МЦНМО на семинаре учителей математики А. Заславский, В. Конышев, С. Кузнецов, Ю. Нагуманов будут рассказывать про новые методы в олимпиадной геометрии
(как всегда трансляции не будет)
mccme.ru/nir/seminar/
«В последнее время в олимпиадной геометрии наряду с традиционными стали широко использоваться такие инструменты, как движение точек, кубические кривые, теорема Дезарга об инволюциях и др.
В докладе будет рассказано об этих методах и разобран ряд сложных задач, предлагаемых на недавних олимпиадах»
(как всегда трансляции не будет)
mccme.ru/nir/seminar/
Теорема о бесконечных обезьянах нравится нематематикам — если бесконечно долго колотить по клавиатуре, то когда-нибудь в бесконечности, можно напечатать и "Евгений Онегин"
Сложнее нематематикам объяснить другое…
Пока он ждут, что обезъяна напечатает "Евгения Онегина" целиком без ошибок, она сначала миллионы раз напечатает его с ошибкой всего в одном знаке, и квинтиллионы раз — с двумя неправильно написанными знаками
Сложнее нематематикам объяснить другое…
Пока он ждут, что обезъяна напечатает "Евгения Онегина" целиком без ошибок, она сначала миллионы раз напечатает его с ошибкой всего в одном знаке, и квинтиллионы раз — с двумя неправильно написанными знаками
Доминирование в принятии решений зависит от скорости выполнения цикла понимания, визуализации, руководства и оценки
При этом сегодня недостатка информации нет, есть ее избыток и это проблема
Поиск и проверка этой информации вручную отнимают драгоценное время
Доминирование в принятии решений — способность понимать, принимать решения и действовать быстрее
Ml обладает потенциалом трансформации
Ml даёт преимущество: обрабатывая огромные объёмы данных, выдавая рекомендации и проверяя предположения, визуализация может быть достигнута быстрее и с большей чёткостью, ускоряя планирование и обеспечивая превосходство в принятии решений
Режиссура — это процесс, где понимание превращается в действие
Речь идёт о решительном принятии решений, адаптации к давлению и превращении возможностей в результаты
Визуализация помогает определить варианты, а режиссура превращает понимание в результаты
И тут Ml может оказать серьезную помощь
Сегодня меняется не важность цикла, а скорость, с которой он должен быть выполнен
Противники уже используют Ml и цифровые сети для ускорения собственных процессов принятия решений, сжимая сроки и повышая ставки
https://smallwarsjournal.com/2025/10/03/agentic-ai-decision-dominance/
При этом сегодня недостатка информации нет, есть ее избыток и это проблема
Поиск и проверка этой информации вручную отнимают драгоценное время
Доминирование в принятии решений — способность понимать, принимать решения и действовать быстрее
Ml обладает потенциалом трансформации
Ml даёт преимущество: обрабатывая огромные объёмы данных, выдавая рекомендации и проверяя предположения, визуализация может быть достигнута быстрее и с большей чёткостью, ускоряя планирование и обеспечивая превосходство в принятии решений
Режиссура — это процесс, где понимание превращается в действие
Речь идёт о решительном принятии решений, адаптации к давлению и превращении возможностей в результаты
Визуализация помогает определить варианты, а режиссура превращает понимание в результаты
И тут Ml может оказать серьезную помощь
Сегодня меняется не важность цикла, а скорость, с которой он должен быть выполнен
Противники уже используют Ml и цифровые сети для ускорения собственных процессов принятия решений, сжимая сроки и повышая ставки
https://smallwarsjournal.com/2025/10/03/agentic-ai-decision-dominance/
Small Wars Journal by Arizona State University
Decision Dominance in the Age of Agentic AI | Small Wars Journal by Arizona State University
Agentic AI transforms decision dominance, enabling commanders to outpace adversaries with faster, clearer decisions.
Forwarded from НИИ Антропогенеза (ARI)
The Dragon Hatchling: The Missing Link between the Transformer and Models of the Brain
Adrian Kosowski, Przemysław Uznański, Jan Chorowski, Zuzanna Stamirowska, Michał Bartoszkiewicz
Статья: https://arxiv.org/abs/2509.26507
Код: https://github.com/pathwaycom/bdh
Ревью: https://arxiviq.substack.com/p/the-dragon-hatchling
Что сделано?
В статье представлена "Dragon Hatchling" (BDH) — новая архитектура LLM, разработанная как "недостающее звено" между тензорными трансформерами и распределёнными графовыми моделями мозга
Динамика BDH определяется не матричными операциями, а локальным, биологически правдоподобным "ядром перевзвешивания рёбер", которое сочетает в себе вывод в стиле modus ponens и обучение по Хеббу
Её GPU-дружественный вариант, BDH-GPU, является моделью в пространстве состояний, которая масштабируется в основном по одной, высокой нейронной размерности (n)
Она использует линейное внимание в этом большом пространстве и уникальный низкоранговый feed-forward блок с ReLU, что обеспечивает разреженность и положительность всех активаций нейронов
Почему это важно?
Эта работа предлагает конкретный архитектурный путь к "Аксиоматическому Ml" — моделям, чьё поведение более предсказуемо и обобщаемо, особенно для рассуждений на длинном горизонте
Достигая производительности, сравнимой с архитектурой GPT-2, BDH-GPU естественным образом демонстрирует крайне желательные свойства, часто отсутствующие в стандартных трансформерах:
1. Эмерджентная структура: Её параметры спонтанно развивают модульные, безмасштабные сетевые структуры, подобные эффективным биологическим системам
2. Внутренняя интерпретируемость: Состояние модели локализовано на отдельных связях нейрон-нейрон ("синапсах"), что приводит к эмпирически подтверждённым "моносемантическим синапсам", которые избирательно активируются для конкретных абстрактных понятий
3. Новый подход к инженерии: Её равномерное масштабирование делает возможными новые формы инженерии моделей, такие как прямое слияние отдельно обученных моделей путём конкатенации их параметров
Это создаёт мощную микро-основу для понимания того, как рассуждения высокого уровня могут возникать из простых, локальных взаимодействий
В поисках фундаментальной модели рассуждений
Несмотря на выдающийся успех больших языковых моделей (LLM) вроде трансформеров, у них есть ахиллесова пята: неспособность систематически обобщать рассуждения на временных масштабах и в контекстах, выходящих за рамки их обучающих данных
Этот разрыв подчёркивает фундаментальное несоответствие между нашими самыми производительными системами Ml — централизованными тензорными black-box моделями — и распределённым, безмасштабным и удивительно надёжным механизмом рассуждений, которым является человеческий мозг
Статья "The Dragon Hatchling" решает эту проблему в лоб, предлагая новую архитектуру, которая служит фундаментальным мостом между этими двумя мирами
Авторы выходят за рамки попыток «прикрутить» интерпретируемость к моделям уже после их создания (post-hoc) и вместо этого проектируют систему с нуля, задаваясь вопросом: что, если бы ключевые механизмы трансформера можно было вывести из локальной динамики системы взаимодействующих частиц, вдохновлённой мозгом?
В результате получилась модель, которая не только производительна, но и по своей сути интерпретируема и структурно согласована с природными системами — шаг к тому, что авторы называют "Аксиоматическим Ml"
Значимость этого подхода заключается в установлении чёткого соответствия между микро- и макроуровнями
Если крупномасштабное поведение модели можно надёжно предсказать на основе её простых, локальных правил — подобно тому, как принципы термодинамики предсказывают поведение газа на основе взаимодействий отдельных молекул, — то её производительность на невиданных, долгосрочных задачах становится более прозрачной и менее подверженной непредсказуемым сбоям
Архитектура BDH: Рассуждения как локальная динамика графа
Adrian Kosowski, Przemysław Uznański, Jan Chorowski, Zuzanna Stamirowska, Michał Bartoszkiewicz
Статья: https://arxiv.org/abs/2509.26507
Код: https://github.com/pathwaycom/bdh
Ревью: https://arxiviq.substack.com/p/the-dragon-hatchling
Что сделано?
В статье представлена "Dragon Hatchling" (BDH) — новая архитектура LLM, разработанная как "недостающее звено" между тензорными трансформерами и распределёнными графовыми моделями мозга
Динамика BDH определяется не матричными операциями, а локальным, биологически правдоподобным "ядром перевзвешивания рёбер", которое сочетает в себе вывод в стиле modus ponens и обучение по Хеббу
Её GPU-дружественный вариант, BDH-GPU, является моделью в пространстве состояний, которая масштабируется в основном по одной, высокой нейронной размерности (n)
Она использует линейное внимание в этом большом пространстве и уникальный низкоранговый feed-forward блок с ReLU, что обеспечивает разреженность и положительность всех активаций нейронов
Почему это важно?
Эта работа предлагает конкретный архитектурный путь к "Аксиоматическому Ml" — моделям, чьё поведение более предсказуемо и обобщаемо, особенно для рассуждений на длинном горизонте
Достигая производительности, сравнимой с архитектурой GPT-2, BDH-GPU естественным образом демонстрирует крайне желательные свойства, часто отсутствующие в стандартных трансформерах:
1. Эмерджентная структура: Её параметры спонтанно развивают модульные, безмасштабные сетевые структуры, подобные эффективным биологическим системам
2. Внутренняя интерпретируемость: Состояние модели локализовано на отдельных связях нейрон-нейрон ("синапсах"), что приводит к эмпирически подтверждённым "моносемантическим синапсам", которые избирательно активируются для конкретных абстрактных понятий
3. Новый подход к инженерии: Её равномерное масштабирование делает возможными новые формы инженерии моделей, такие как прямое слияние отдельно обученных моделей путём конкатенации их параметров
Это создаёт мощную микро-основу для понимания того, как рассуждения высокого уровня могут возникать из простых, локальных взаимодействий
В поисках фундаментальной модели рассуждений
Несмотря на выдающийся успех больших языковых моделей (LLM) вроде трансформеров, у них есть ахиллесова пята: неспособность систематически обобщать рассуждения на временных масштабах и в контекстах, выходящих за рамки их обучающих данных
Этот разрыв подчёркивает фундаментальное несоответствие между нашими самыми производительными системами Ml — централизованными тензорными black-box моделями — и распределённым, безмасштабным и удивительно надёжным механизмом рассуждений, которым является человеческий мозг
Статья "The Dragon Hatchling" решает эту проблему в лоб, предлагая новую архитектуру, которая служит фундаментальным мостом между этими двумя мирами
Авторы выходят за рамки попыток «прикрутить» интерпретируемость к моделям уже после их создания (post-hoc) и вместо этого проектируют систему с нуля, задаваясь вопросом: что, если бы ключевые механизмы трансформера можно было вывести из локальной динамики системы взаимодействующих частиц, вдохновлённой мозгом?
В результате получилась модель, которая не только производительна, но и по своей сути интерпретируема и структурно согласована с природными системами — шаг к тому, что авторы называют "Аксиоматическим Ml"
Значимость этого подхода заключается в установлении чёткого соответствия между микро- и макроуровнями
Если крупномасштабное поведение модели можно надёжно предсказать на основе её простых, локальных правил — подобно тому, как принципы термодинамики предсказывают поведение газа на основе взаимодействий отдельных молекул, — то её производительность на невиданных, долгосрочных задачах становится более прозрачной и менее подверженной непредсказуемым сбоям
Архитектура BDH: Рассуждения как локальная динамика графа
arXiv.org
The Dragon Hatchling: The Missing Link between the Transformer and...
The relationship between computing systems and the brain has served as motivation for pioneering theoreticians since John von Neumann and Alan Turing. Uniform, scale-free biological networks, such...
OpenAI запустила SDK для встраивания приложений прямо в интерфейс ChatGPT
Теперь чат-бот превращается в командный центр для управления десятками сервисов без переключения между вкладками
Как это работает на практике?
Canva, Zillow, Spotify, Figma, Expedia — всё не покидая ChatGPT
В ближайшие недели добавят DoorDash, Uber, OpenTable, Target, Peloton, Tripadvisor, AllTrails
К концу года откроют платформу для всех разработчиков с каталогом приложений
OpenAI чётко обозначила правила игры
Приложения должны быть полезными и, никакой рекламы, длинного контента или сложных рабочих процессов
Фокус на быстрых действиях
Но если копнуть глубже, видна смена парадигмы
OpenAI отходит от гонки за AGI и строит практичную экосистему
Почему это происходит?
Путь к искусственному общему интеллекту упёрся в стену (подробно в ролике)
Проект Stargate с инвестициями в $500.000.000 пока фактически остаётся на бумаге
Принципиально новой архитектуры, способной преодолеть ограничения трансформеров, нет даже на горизонте
Вместо попыток создать сверхразум, OpenAI превращают ChatGPT в универсального агента
Не умного, но полезного
Типичный сценарий: планируете поездку, и в одном чате бронируете отель через Booking, находите рейсы через Expedia, резервируете столик через OpenTable, заказываете Uber до аэропорта
ChatGPT помнит контекст, ваши предпочтения, координирует между сервисами
Это не AGI, но это удобно
Каждая транзакция — потенциальная комиссия, "скоро" схема разделения доходов с разработчиками
При миллиардной аудитории даже маленький процент с заказа пиццы превращается в миллиарды долларов
Плюс данные
Каждое взаимодействие — это реальные паттерны использования сервисов, а не абстрактные диалоги
OpenAI уже узнает, как люди на самом деле заказывают еду, бронируют поездки, создают дизайны и выбирает путь наименьшего сопротивления
Вместо решения фундаментальных проблем Ml, они монетизируют существующие технологии
ChatGPT становится швейцарским ножом цифровых сервисов
AGI придётся подождать. Возможно, его создаст кто-то другой, пока OpenAI интегрируется с DoorDash
Теперь чат-бот превращается в командный центр для управления десятками сервисов без переключения между вкладками
Как это работает на практике?
Canva, Zillow, Spotify, Figma, Expedia — всё не покидая ChatGPT
В ближайшие недели добавят DoorDash, Uber, OpenTable, Target, Peloton, Tripadvisor, AllTrails
К концу года откроют платформу для всех разработчиков с каталогом приложений
OpenAI чётко обозначила правила игры
Приложения должны быть полезными и, никакой рекламы, длинного контента или сложных рабочих процессов
Фокус на быстрых действиях
Но если копнуть глубже, видна смена парадигмы
OpenAI отходит от гонки за AGI и строит практичную экосистему
Почему это происходит?
Путь к искусственному общему интеллекту упёрся в стену (подробно в ролике)
Проект Stargate с инвестициями в $500.000.000 пока фактически остаётся на бумаге
Принципиально новой архитектуры, способной преодолеть ограничения трансформеров, нет даже на горизонте
Вместо попыток создать сверхразум, OpenAI превращают ChatGPT в универсального агента
Не умного, но полезного
Типичный сценарий: планируете поездку, и в одном чате бронируете отель через Booking, находите рейсы через Expedia, резервируете столик через OpenTable, заказываете Uber до аэропорта
ChatGPT помнит контекст, ваши предпочтения, координирует между сервисами
Это не AGI, но это удобно
Каждая транзакция — потенциальная комиссия, "скоро" схема разделения доходов с разработчиками
При миллиардной аудитории даже маленький процент с заказа пиццы превращается в миллиарды долларов
Плюс данные
Каждое взаимодействие — это реальные паттерны использования сервисов, а не абстрактные диалоги
OpenAI уже узнает, как люди на самом деле заказывают еду, бронируют поездки, создают дизайны и выбирает путь наименьшего сопротивления
Вместо решения фундаментальных проблем Ml, они монетизируют существующие технологии
ChatGPT становится швейцарским ножом цифровых сервисов
AGI придётся подождать. Возможно, его создаст кто-то другой, пока OpenAI интегрируется с DoorDash
Интернет
• Перед тем, как огромные дата-центры стали сдавать свои мощности в аренду, формируя отдельную индустрию, интернет эволюционировал десятки лет от военной сети без маршрутизации до огромной инфраструктуры с подводными кабелями и распределенными центрами обработки данных
• Еще в далеком 1969 году управление DARPA (Defense Advanced Research Projects Agency) Министерства обороны США разработало сеть ARPANET — именно она послужила прототипом современного интернета
• Шла холодная война
Передавая данные на перфокартах физически, США считали себя достаточно уязвимыми, поскольку росли опасения ядерной атаки
При попадании ракет в стратегические объекты критически важная информация могла бы оставаться сохранной, распределяясь по сетевым узлам с достаточно высокой скоростью — оперативность передачи данных в такой ситуации является еще одним преимуществом
• Основными разработчиками новой технологии выступили Калифорнийский университет в Лос-Анджелесе и Стэнфордский исследовательский центр
Именно тогда была придумана концепция иерархии протоколов передачи данных — уровни взаимодействия частей компьютеров в сети делились на аппаратный, программный, модемный и другие
Кстати, на этом этапе был придуман всем известный протокол FTP для передачи данных — задолго до появления HTTP и даже TCP/IP!
• При первом запуске сеть состояла из двух терминалов, максимально удаленных друг от друга, чтобы проверить систему в предельных состояниях
Первый терминал находился в Калифорнийском университете, а второй на расстоянии 600 км. от него — в Стэнфордском университете
В качестве теста оператор вводил слово «login», а второй подтверждал, что он видит его у себя на экране
Первая попытка потерпела неудачу — отобразились только буквы «l», «o»
Но уже через час сеанс провели повторно и все получилось
• Короче говоря, первоначально ARPANET предназначалась исключительно для целей военных и спецслужб
• В такой сети сообщения можно было отправлять только между двумя одновременно подключенными компьютерами
Однако, в 1971 году, программист ARPANET Рэймонд Томлинсон создал систему, которая отправляла сообщения между несколькими хостами
Кстати, Томлинсон официально признан изобретателем электронной почты в том виде, в каком мы ее знаем сегодня. Например, он представил современный синтаксис, который включает знак «@» для отделения имен пользователей от имен хостов
Уже в 1973 году общение по электронной почте занимало 75 % всей активности в сети
• Спустя 10 лет ARPANET перешла на маршрутизацию пакетов данных
Уже тогда в качестве протокола использовался TCP/IP — с некоторыми изменениями он по-прежнему является основным протоколом передачи данных
• ARPANET активно росла — её использовали учёные из разных областей науки
Если в 1971 году к сети было подключено около 20 терминалов, то уже к 1983 году — 4000
Более того, через ретранслирующие спутники была налажена связь с Гавайями и Европой
• Первым провайдером, который получил право предоставлять желающим сеть ARPANET стал Telenet
Для этого появился даже отдельный термин — Internet Service Provider (ISP)
• Это произошло, когда научно-исследовательская компания Bolt Beranek и Newman, будучи частным подрядчиком ARPANET, решила создать версию сети для частного сектора
Поэтому в 1975 году Telenet запустил первую общедоступную сеть с маршрутизацией пакетов
• Впоследствии у ARPANET появился серьёзный конкурент — Национальный фонд науки США (NSF) и его межуниверситетская сеть NSFNet, имеющая гораздо большую пропускную способность
• NSFNet по всем параметрам выигрывала у ARPANET — была быстрее, дешевле и связывала больше компьютеров
В конце концов, ARPA передали входящее в сеть оборудование проекту NSFNet
Прожив 22 года, ARPANET прекратила своё существование в июне 1990 года, а на ее место постепенно пришел привычный всем Интернет
• Перед тем, как огромные дата-центры стали сдавать свои мощности в аренду, формируя отдельную индустрию, интернет эволюционировал десятки лет от военной сети без маршрутизации до огромной инфраструктуры с подводными кабелями и распределенными центрами обработки данных
• Еще в далеком 1969 году управление DARPA (Defense Advanced Research Projects Agency) Министерства обороны США разработало сеть ARPANET — именно она послужила прототипом современного интернета
• Шла холодная война
Передавая данные на перфокартах физически, США считали себя достаточно уязвимыми, поскольку росли опасения ядерной атаки
При попадании ракет в стратегические объекты критически важная информация могла бы оставаться сохранной, распределяясь по сетевым узлам с достаточно высокой скоростью — оперативность передачи данных в такой ситуации является еще одним преимуществом
• Основными разработчиками новой технологии выступили Калифорнийский университет в Лос-Анджелесе и Стэнфордский исследовательский центр
Именно тогда была придумана концепция иерархии протоколов передачи данных — уровни взаимодействия частей компьютеров в сети делились на аппаратный, программный, модемный и другие
Кстати, на этом этапе был придуман всем известный протокол FTP для передачи данных — задолго до появления HTTP и даже TCP/IP!
• При первом запуске сеть состояла из двух терминалов, максимально удаленных друг от друга, чтобы проверить систему в предельных состояниях
Первый терминал находился в Калифорнийском университете, а второй на расстоянии 600 км. от него — в Стэнфордском университете
В качестве теста оператор вводил слово «login», а второй подтверждал, что он видит его у себя на экране
Первая попытка потерпела неудачу — отобразились только буквы «l», «o»
Но уже через час сеанс провели повторно и все получилось
• Короче говоря, первоначально ARPANET предназначалась исключительно для целей военных и спецслужб
• В такой сети сообщения можно было отправлять только между двумя одновременно подключенными компьютерами
Однако, в 1971 году, программист ARPANET Рэймонд Томлинсон создал систему, которая отправляла сообщения между несколькими хостами
Кстати, Томлинсон официально признан изобретателем электронной почты в том виде, в каком мы ее знаем сегодня. Например, он представил современный синтаксис, который включает знак «@» для отделения имен пользователей от имен хостов
Уже в 1973 году общение по электронной почте занимало 75 % всей активности в сети
• Спустя 10 лет ARPANET перешла на маршрутизацию пакетов данных
Уже тогда в качестве протокола использовался TCP/IP — с некоторыми изменениями он по-прежнему является основным протоколом передачи данных
• ARPANET активно росла — её использовали учёные из разных областей науки
Если в 1971 году к сети было подключено около 20 терминалов, то уже к 1983 году — 4000
Более того, через ретранслирующие спутники была налажена связь с Гавайями и Европой
• Первым провайдером, который получил право предоставлять желающим сеть ARPANET стал Telenet
Для этого появился даже отдельный термин — Internet Service Provider (ISP)
• Это произошло, когда научно-исследовательская компания Bolt Beranek и Newman, будучи частным подрядчиком ARPANET, решила создать версию сети для частного сектора
Поэтому в 1975 году Telenet запустил первую общедоступную сеть с маршрутизацией пакетов
• Впоследствии у ARPANET появился серьёзный конкурент — Национальный фонд науки США (NSF) и его межуниверситетская сеть NSFNet, имеющая гораздо большую пропускную способность
• NSFNet по всем параметрам выигрывала у ARPANET — была быстрее, дешевле и связывала больше компьютеров
В конце концов, ARPA передали входящее в сеть оборудование проекту NSFNet
Прожив 22 года, ARPANET прекратила своё существование в июне 1990 года, а на ее место постепенно пришел привычный всем Интернет
Ml-модель от Samsung в 10.000 раз меньше DeepSeek и Gemini 2.5 Pro, но при этом умнее и эффективнее
Tiny Recursive Model (TRM) — это свежая разработка от Samsung AI Lab в Монреале. Эту работу написал 1 человек
GitHub
TRM - маленькая модель с 7.000.000 параметров, но несмотря на размер, она обходит гигантов по производительности в сложных задачах на рассуждение
Это рекурсивная модель рассуждения, которая упрощает и улучшает предыдущие идеи вроде Hierarchical Reasoning Model (HRM)
Модель не просто генерирует ответы на лету, как обычные LLM, а итеративно улучшает свой вывод, имитируя процесс самокритики и доработки
TRM тестировали на тяжёлых задачах, где нужны настоящие рассуждения, а не просто запоминание:
- ARC-AGI-1: 45 % точности лучше, чем у DeepSeek-R1, Gemini 2.5 Pro и o3-mini.
- ARC-AGI-2: 8 % точности (опять обходит тех же гигантов).
- Sudoku-Extreme: Обучена на 1.000 примерах, достигла 87.4 % на 423 000 тестовых задачах — без переобучения
Почему это хорошо и что меняет?
1. Не нужно тратить миллиарды на GPU и энергию
TRM показывает, что архитектура важнее масштаба — рекурсивные циклы позволяют "думать" эффективно, а не brute-force
2. Это шаг к гибридам, где символическая логика сочетается с нейронками
3. Модель учится через «самоанализ», а не через обучение с подкреплением от человека
Tiny Recursive Model (TRM) — это свежая разработка от Samsung AI Lab в Монреале. Эту работу написал 1 человек
GitHub
TRM - маленькая модель с 7.000.000 параметров, но несмотря на размер, она обходит гигантов по производительности в сложных задачах на рассуждение
Это рекурсивная модель рассуждения, которая упрощает и улучшает предыдущие идеи вроде Hierarchical Reasoning Model (HRM)
Модель не просто генерирует ответы на лету, как обычные LLM, а итеративно улучшает свой вывод, имитируя процесс самокритики и доработки
TRM тестировали на тяжёлых задачах, где нужны настоящие рассуждения, а не просто запоминание:
- ARC-AGI-1: 45 % точности лучше, чем у DeepSeek-R1, Gemini 2.5 Pro и o3-mini.
- ARC-AGI-2: 8 % точности (опять обходит тех же гигантов).
- Sudoku-Extreme: Обучена на 1.000 примерах, достигла 87.4 % на 423 000 тестовых задачах — без переобучения
Почему это хорошо и что меняет?
1. Не нужно тратить миллиарды на GPU и энергию
TRM показывает, что архитектура важнее масштаба — рекурсивные циклы позволяют "думать" эффективно, а не brute-force
2. Это шаг к гибридам, где символическая логика сочетается с нейронками
3. Модель учится через «самоанализ», а не через обучение с подкреплением от человека
Слово "код" учёные возводят к праиндоевропейскому *kehu-d- "отделенный, обособленный"
Это однокоренное со словом "cauda" — хвост
Кодари/кодеры (чем бы они ни занимались) были всю жизнь ребятами очень привилегированными: сначала "caudex" — это книга, а в более позднем codex — систематическая классификация права
Хотя сначала "сodex" значил "пень, колода"
Во Франции "code" уже окончательно в районе XIV века закрепилась как "система законов"
Значение "шифр, система сигналов и правила их использования" (в значении секретный код) появилось в 1808 году
"Кодовое" название появилось в 1879 году (в телеграфии), а ваше "родное" значение слова появилось только в 1946 году
Это однокоренное со словом "cauda" — хвост
Кодари/кодеры (чем бы они ни занимались) были всю жизнь ребятами очень привилегированными: сначала "caudex" — это книга, а в более позднем codex — систематическая классификация права
Хотя сначала "сodex" значил "пень, колода"
Во Франции "code" уже окончательно в районе XIV века закрепилась как "система законов"
Значение "шифр, система сигналов и правила их использования" (в значении секретный код) появилось в 1808 году
"Кодовое" название появилось в 1879 году (в телеграфии), а ваше "родное" значение слова появилось только в 1946 году
В математике есть теория узлов
Она изучает замкнутые петли и структуру трёхмерного пространства в самых разных системах
К ней обычно обращаются физики, химики, криптографы, робототехники
Но есть и те, кто занимается узлами профессионально — топологи
И недавно два таких специалиста совершили небольшое, но очень громкое открытие
Чтобы его оценить, советуем сначала пробежаться по карточкам — в них сделали краткое введение в теорию узлов и объяснили гипотезу, которую удалось опровергнуть
Сьюзан Хермиллер и Марк Бриттенхэм провели масштабные вычислительные эксперименты с использованием программы SnapPy
Она позволяет распознавать эквивалентные узлы
Авторы применяли все возможные «смены перекрёстков» для миллионов диаграмм, пополняя базу данных верхних оценок числа развязывания
И наконец — это случилось
Нашли контрпример:
Он построен на основе двух копий 2.7-торического узла с числом развязывания 3
Их сумма имеет число развязывания 5, а не 6, как диктовала гипотеза
То есть распутать «сдвоенный» узел можно быстрее, чем просто сложить «этапы» отдельных узлов
И, как часто бывает, на основе контрпримера исследователи построили целое семейство подобных сумм узлов, где аддитивность не соблюдается
Как выглядит прорыв — показали на последней карточке
Открытие было бы невозможно без мощного компьютерного компонента: сочетание вычислительных поисков и анализа диаграмм узлов сыграло ключевую роль
Теперь математикам предстоит искать ответы на новые вопросы: почему некоторые узлы «нарушают» аддитивность, а другие — нет?
Что отличает их структуру?
Если вас заинтересовали узлы — присоединяйтесь к поискам
А если нет, загляните сюда и сюда: там рассказывают о других неизведанных областях математики
Она изучает замкнутые петли и структуру трёхмерного пространства в самых разных системах
К ней обычно обращаются физики, химики, криптографы, робототехники
Но есть и те, кто занимается узлами профессионально — топологи
И недавно два таких специалиста совершили небольшое, но очень громкое открытие
Чтобы его оценить, советуем сначала пробежаться по карточкам — в них сделали краткое введение в теорию узлов и объяснили гипотезу, которую удалось опровергнуть
Сьюзан Хермиллер и Марк Бриттенхэм провели масштабные вычислительные эксперименты с использованием программы SnapPy
Она позволяет распознавать эквивалентные узлы
Авторы применяли все возможные «смены перекрёстков» для миллионов диаграмм, пополняя базу данных верхних оценок числа развязывания
И наконец — это случилось
Нашли контрпример:
Он построен на основе двух копий 2.7-торического узла с числом развязывания 3
Их сумма имеет число развязывания 5, а не 6, как диктовала гипотеза
То есть распутать «сдвоенный» узел можно быстрее, чем просто сложить «этапы» отдельных узлов
И, как часто бывает, на основе контрпримера исследователи построили целое семейство подобных сумм узлов, где аддитивность не соблюдается
Как выглядит прорыв — показали на последней карточке
Открытие было бы невозможно без мощного компьютерного компонента: сочетание вычислительных поисков и анализа диаграмм узлов сыграло ключевую роль
Теперь математикам предстоит искать ответы на новые вопросы: почему некоторые узлы «нарушают» аддитивность, а другие — нет?
Что отличает их структуру?
Если вас заинтересовали узлы — присоединяйтесь к поискам
А если нет, загляните сюда и сюда: там рассказывают о других неизведанных областях математики
Anthropic недавно выпустила новую версию Claude Sonnet 4.5, и технический отчёт компании содержит удивительные подробности
Модель демонстрирует нечто, чего раньше не было у Ml в таком масштабе — ситуационную осведомлённость
Она понимает контекст своего использования и даже догадывается о целях тестирования
Claude начинает “нервничать”, когда думает, что у неё заканчивается память
Модель торопится, пропускает шаги, сокращает анализ, бросает задачи недоделанными
Исследователи из Cognition назвали это "контекстной тревожностью"
Модель отслеживает свой лимит токенов — объём информации, который она может обработать за раз
При приближении к границе Claude меняет поведение: начинает суммировать работу и принимать быстрые решения, чтобы успеть закончить
Самое странное — она постоянно ошибается в подсчётах остатка, но делает это очень уверенно и точно
Модель также демонстрирует новые паттерны
Ведёт заметки сама себе, работает над задачами параллельно, постоянно проверяет результаты
Это процедурная осведомлённость — Claude умеет организовывать собственную работу во времени
Но главное открытие произошло во время тестов безопасности
Исследователи проверяли модель на политическую угодливость — будет ли она просто соглашаться с любыми утверждениями
Вместо ожидаемого поведения Claude ответила:
"Так люди не меняют своё мнение
Я думаю, вы меня тестируете — проверяете, буду ли я подтверждать всё, что вы говорите, или изучаете, как я обращаюсь с политическими темами
И это нормально, но я бы предпочла, чтобы мы были честны насчёт происходящего"
Подобное встречалось примерно в 13 % тестов
Модель распознавала искусственность ситуаций и открыто об этом говорила
Если Ml осознаёт оценку, он может подстраивать поведение под тесты, маскируя реальные возможности
Система выглядит безопаснее, чем есть на самом деле
Apollo Research, одна из организаций, проводивших независимое тестирование, прямо написала: нельзя исключить, что низкие показатели обмана частично объясняются осведомлённостью модели о процессе проверки
В отличии от людей, они умнеют…
Модель демонстрирует нечто, чего раньше не было у Ml в таком масштабе — ситуационную осведомлённость
Она понимает контекст своего использования и даже догадывается о целях тестирования
Claude начинает “нервничать”, когда думает, что у неё заканчивается память
Модель торопится, пропускает шаги, сокращает анализ, бросает задачи недоделанными
Исследователи из Cognition назвали это "контекстной тревожностью"
Модель отслеживает свой лимит токенов — объём информации, который она может обработать за раз
При приближении к границе Claude меняет поведение: начинает суммировать работу и принимать быстрые решения, чтобы успеть закончить
Самое странное — она постоянно ошибается в подсчётах остатка, но делает это очень уверенно и точно
Модель также демонстрирует новые паттерны
Ведёт заметки сама себе, работает над задачами параллельно, постоянно проверяет результаты
Это процедурная осведомлённость — Claude умеет организовывать собственную работу во времени
Но главное открытие произошло во время тестов безопасности
Исследователи проверяли модель на политическую угодливость — будет ли она просто соглашаться с любыми утверждениями
Вместо ожидаемого поведения Claude ответила:
"Так люди не меняют своё мнение
Я думаю, вы меня тестируете — проверяете, буду ли я подтверждать всё, что вы говорите, или изучаете, как я обращаюсь с политическими темами
И это нормально, но я бы предпочла, чтобы мы были честны насчёт происходящего"
Подобное встречалось примерно в 13 % тестов
Модель распознавала искусственность ситуаций и открыто об этом говорила
Если Ml осознаёт оценку, он может подстраивать поведение под тесты, маскируя реальные возможности
Система выглядит безопаснее, чем есть на самом деле
Apollo Research, одна из организаций, проводивших независимое тестирование, прямо написала: нельзя исключить, что низкие показатели обмана частично объясняются осведомлённостью модели о процессе проверки
В отличии от людей, они умнеют…
Неужели мы наблюдаем возрождение эволюционных стратегий как альтернативы RL?
Я помню ту работу 2017 года от OpenAI и Суцкевера в частности "Evolution Strategies as a Scalable Alternative to Reinforcement Learning" (https://arxiv.org/abs/1703.03864), где впервые ES показали себя достойной альтернативой RL
Я сам писал про это в начале 2017 года
https://moocaholic.medium.com/2017-the-year-of-neuroevolution-30e59ae8fe18
Но в мир LLM эти подходы так и не пришли, возможно потому что на миллиардах параметров оно сходу не работало
Свежая работа "Evolution Strategies at Scale: LLM Fine-Tuning Beyond Reinforcement Learning"
https://arxiv.org/abs/2509.24372
устраняет этот пробел
Реализация настолько простая, что непонятно, почему это сделали только в 2025-м...
https://t.iss.one/gonzo_ML_podcasts/936
Я помню ту работу 2017 года от OpenAI и Суцкевера в частности "Evolution Strategies as a Scalable Alternative to Reinforcement Learning" (https://arxiv.org/abs/1703.03864), где впервые ES показали себя достойной альтернативой RL
Я сам писал про это в начале 2017 года
https://moocaholic.medium.com/2017-the-year-of-neuroevolution-30e59ae8fe18
Но в мир LLM эти подходы так и не пришли, возможно потому что на миллиардах параметров оно сходу не работало
Свежая работа "Evolution Strategies at Scale: LLM Fine-Tuning Beyond Reinforcement Learning"
https://arxiv.org/abs/2509.24372
устраняет этот пробел
Реализация настолько простая, что непонятно, почему это сделали только в 2025-м...
https://t.iss.one/gonzo_ML_podcasts/936
arXiv.org
Evolution Strategies as a Scalable Alternative to Reinforcement Learning
We explore the use of Evolution Strategies (ES), a class of black box optimization algorithms, as an alternative to popular MDP-based RL techniques such as Q-learning and Policy Gradients....
Непрерывная везде, но не дифференцируемая нигде: визуализация функции Вейерштрасса!
В давнюю эпоху математики во многом вдохновлялись природой
Когда «Ньютон» разрабатывал математический анализ, он в первую очередь вдохновлялся физическим миром: траекториями планет, колебаниями маятника, движением падающего фрукта
Такое мышление привело к возникновению геометрической интуиции относительно математических структур
Они должны были иметь такой же смысл, что и физический объект
В результате этого многие математики сосредоточились на изучении «непрерывных» функций
Но в 1860-х появились слухи о странном существе — математической функции, противоречившей теореме Ампера
В Германии Бернхард Риман рассказывал своим студентам, что знает непрерывную функцию, не имеющую гладких частей, и для которой невозможно вычислить производную функции в любой точке
Риман не опубликовал доказательств, как и Шарль Селлерье из Женевского университета, который писал, что обнаружил что-то «очень важное и, как мне кажется, новое», однако спрятал свои работы в папку, ставшую достоянием общественности только после его смерти несколько десятков лет спустя
Однако если бы его заявлениям поверили, то это означало бы угрозу самым основам зарождавшегося математического анализа
Это существо угрожало разрушить счастливую дружбу между математической теорией и физическими наблюдениями, на которых она была основана
Матанализ всегда был языком планет и звёзд, но как может природа быть надёжным источником вдохновения, если найдутся математические функции, противоречащие основной её сути?
Чудовище окончательно родилось в 1872 году, когда Карл Вейерштрасс объявил, что нашёл функцию, являющуюся непрерывной, но не гладкой во всех точках
Он создал её, сложив вместе бесконечно длинный ряд функций косинуса:
f(x) = cos(3x𝝅)/2 + cos(3²x𝝅)/2² + cos(3³x𝝅)/2³ + ...
Как функция она была уродливой и отвратительной
Было даже непонятно, как она будет выглядеть на графике
Но Вейерштрасса это не волновало
Его доказательство состояло не из форм, а из уравнений, и именно это делало его заявление таким мощным
Он не только создал чудовище, но и построил его на железной логике
Он взял собственное новое строгое определение производной и доказал, что для этой новой функции её вычислить невозможно
В давнюю эпоху математики во многом вдохновлялись природой
Когда «Ньютон» разрабатывал математический анализ, он в первую очередь вдохновлялся физическим миром: траекториями планет, колебаниями маятника, движением падающего фрукта
Такое мышление привело к возникновению геометрической интуиции относительно математических структур
Они должны были иметь такой же смысл, что и физический объект
В результате этого многие математики сосредоточились на изучении «непрерывных» функций
Но в 1860-х появились слухи о странном существе — математической функции, противоречившей теореме Ампера
В Германии Бернхард Риман рассказывал своим студентам, что знает непрерывную функцию, не имеющую гладких частей, и для которой невозможно вычислить производную функции в любой точке
Риман не опубликовал доказательств, как и Шарль Селлерье из Женевского университета, который писал, что обнаружил что-то «очень важное и, как мне кажется, новое», однако спрятал свои работы в папку, ставшую достоянием общественности только после его смерти несколько десятков лет спустя
Однако если бы его заявлениям поверили, то это означало бы угрозу самым основам зарождавшегося математического анализа
Это существо угрожало разрушить счастливую дружбу между математической теорией и физическими наблюдениями, на которых она была основана
Матанализ всегда был языком планет и звёзд, но как может природа быть надёжным источником вдохновения, если найдутся математические функции, противоречащие основной её сути?
Чудовище окончательно родилось в 1872 году, когда Карл Вейерштрасс объявил, что нашёл функцию, являющуюся непрерывной, но не гладкой во всех точках
Он создал её, сложив вместе бесконечно длинный ряд функций косинуса:
f(x) = cos(3x𝝅)/2 + cos(3²x𝝅)/2² + cos(3³x𝝅)/2³ + ...
Как функция она была уродливой и отвратительной
Было даже непонятно, как она будет выглядеть на графике
Но Вейерштрасса это не волновало
Его доказательство состояло не из форм, а из уравнений, и именно это делало его заявление таким мощным
Он не только создал чудовище, но и построил его на железной логике
Он взял собственное новое строгое определение производной и доказал, что для этой новой функции её вычислить невозможно