94 subscribers
45 photos
5 videos
25 files
262 links
Machine learning
Download Telegram
Ml
Параллельно с LLM/VLM Google продолжает совершенствовать Gemini Robotics 1.5 Построена на Gemini 2.5, использует две модели/агента: первая планирует, вторая выполняет действия на физическом роботе
Gemini Robotics 1.5: роботы, которые думают, прежде чем делать

Title: Gemini Robotics 1.5: Pushing the Frontier of Generalist Robots with Advanced Embodied Reasoning, Thinking, and Motion Transfer
Authors: Gemini Robotics Team, Google DeepMind
Paper:
https://arxiv.org/abs/2510.03342
Review:
https://arxiviq.substack.com/p/gemini-robotics-15

Что сделали?
В статье представлено семейство Gemini Robotics 1.5 — пара фундаментальных моделей, предназначенных для развития робототехники общего назначения

Семейство включает:
1) Gemini Robotics 1.5 (GR 1.5) — модель «зрение-язык-действие» (VLA) для низкоуровневого управления, работающую с разными физическими воплощениями (multi-embodiment)

2) Gemini Robotics-ER 1.5 (GR-ER 1.5) — SOTA-модель для воплощённых рассуждений (Embodied Reasoning, ER) для высокоуровневого понимания и планирования

Работа предлагает три ключевых нововведения

Во-первых, новый механизм переноса движений (Motion Transfer, MT) позволяет единой VLA-модели обучаться на разнородных данных от разных роботов (ALOHA, двурукий Franka, гуманоид Apollo) и достигать переноса навыков в режиме zero-shot

Во-вторых, способность к «воплощённому обдумыванию» (Embodied Thinking) позволяет VLA-модели чередовать действия с внутренними рассуждениями на естественном языке, что значительно улучшает её способность справляться со сложными многошаговыми задачами

В-третьих, модель GR-ER 1.5 устанавливает новый SOTA-уровень в широком спектре задач, требующих рассуждений, и обеспечивает интеллектуальную основу для мощной агентной системы

Это исследование — важный шаг к созданию действительно универсальных роботов
Предложенная агентная архитектура, сочетающая высокоуровневый «оркестратор» для рассуждений (GR-ER 1.5) с низкоуровневой «моделью действий» (GR 1.5), представляет собой надёжную основу для решения сложных, долгосрочных проблем

Механизм переноса движений напрямую решает критическую проблему нехватки данных в робототехнике, объединяя обучение на разных платформах и ускоряя прогресс в создании универсальных роботов

Наконец, процесс «обдумывания» делает поведение робота более эффективным, прозрачным и способным к сложному восстановлению после ошибок, продвигая область от простого реактивного управления к когнитивной агентности
This media is not supported in your browser
VIEW IN TELEGRAM
Параметрическое представление — используемая в математическом анализе разновидность представления переменных, когда их зависимость выражается через дополнительную величину — параметр

Параметризация – метод представления кривой, поверхности или объекта в пространстве с помощью одной или нескольких переменных, называемых параметрами

Параметризация позволяет описывать траекторию объекта на кривой или поверхности, изменяя значение параметра

Это гибкий подход для изучения и анализа форм и движений объектов
Пустое множество является подмножеством любого множества

Само множество также является подмножеством самого себя

Если подмножество некоторого множества не является пустым и не является всем множеством, говорят, что оно является собственным подмножеством
В четверг (16.10) в 18:30 в Голбуом зале Центрального дома ученых РАН будет заседание секции математики

Научное творчество академика С. П. Новикова

Заседание ведет В.М. Бухштабер
На конференции по языковому моделированию COLM в Монреале представили новый метод интерпретации больших языковых моделей — SAE Boost

Технология позволяет понять, на какие внутренние признаки опирается Ml при формировании ответов, и делает это без переобучения всей модели

Метод уже протестировали на тестах по химии, документах ООН и русскоязычных данных — интерпретируемость выросла, а качество ответов осталась на прежнем уровне

https://arxiv.org/html/2507.12990v1
Если вдруг вы пропустили, и не можете уснуть, пара полезных ресурсов про Agentic AI

"Agentic AI" course by Andrew Ng
https://www.deeplearning.ai/courses/agentic-ai/

"Agentic Design Patterns" book by Antonio Gulli
https://docs.google.com/document/d/1rsaK53T3Lg5KoGwvf8ukOUvbELRtH-V0LnOIFDxBryE/preview?tab=t.0
В XIX веке, когда компьютеров ещё не существовало, леди Лавлейс придумала первый алгоритм для вычислительной машины
По сути, это была первая программа в истории — и её автору тогда было всего 27 лет

Делимся тремя фактами из жизни известнейшей женщины-математика
Оценят все, кто дружит с числами и кодом:

Ада — дочь Джорджа Байрона

Мать боялась, что дочь унаследует порывистый характер отца, и с детства окружала её наукой
Уроки логики, геометрии и алгебры не прошли даром — врождённый талант Ады превратился в математическую интуицию

Она написала
первый в истории алгоритм

Изучая проект разностной машины Чарльза Бэббиджа, Ада предложила, как та могла бы вычислять числа Бернулли
Она расписала шаги вычислений и результат — по сути, создала первую программу
Сегодня это заняло бы несколько строк кода, а тогда представляло собой сложную таблицу с десятками операций

В честь леди Лавлейс назвали язык программирования ADA, созданный для военных систем, и архитектуру видеокарт NVIDIA
А ещё именно Ада ввела в обиход понятия «цикл» и «рабочая ячейка»

Каждый второй вторник октября весь мир отмечает её день — праздник достижений женщин в науке и технологиях
Искусство математика состоит в нахождении того частного случая, который содержит в себе все зародыши общности
Less is More: Recursive Reasoning with Tiny Networks
Alexia Jolicoeur-Martineau
https://arxiv.org/abs/2510.04871
https://github.com/SamsungSAILMontreal/TinyRecursiveModels

HRM продемонстрировала интересный результат с малым размером модели, при этом последующий анализ от организаторов ARC-AGI показал, что в первую очередь на результат влияет последовательное улучшение ответа (deep supervision), а рекурсия в H и L модулях добавляет не очень много

Новая работа про TRM (Tiny Recursive Model) ставит под сомнение необходимость всей этой сложности и исповедует философию — «меньше значит больше»
Новая модель TRM содержит 5M-19M параметров (есть нюансы), против 27M у HRM


И статью, и этот разбор есть смысл читать после того, как вы уже прочитали про HRM, потому что вся статья построена как систематический разбор HRM

Также постоянно следует помнить, что сравнение HRM/TRM с традиционными LLM во многом ущербно, это модели совсем разных классов

LLM - довольно общие модели, обученные на всём интернете на задачах продолжения текста, включая сложные файнтюны на чат, инструкции, решение различных задач по математике и прочим дисциплинам и т.д.

То, что при этом они способны _ещё_ и решать судоку, лабиринты, тесты ARC-AGI - на самом деле довольно удивительно

Все современные LLM это трансформер-декодеры (есть гибриды с SSM, но здесь это не важно)
HRM/TRM -- это трансформер-энкодер (как BERT), он не продолжает никакую последовательность токен за токеном, он обрабатывает все токены сразу и генерит новую последовательность той же длины, что и входная

HRM/TRM (в отличие от BERT, тоже обученного примерно на всём интернете) обучается только на одну конкретную задачу из списка, ни про какую универсальность здесь речи пока нет

Так что все восторженные посты в духе, что вот появилась модель в миллион раз меньшая по размеру и бьющая лучшие топовые LLM и скоро всем им кранты, дотацентры не нужны и прочее - надо делить на тот же миллион, многие из авторов вообще не разобрались, что сделано
Шифр Цезаря, один из старейших и простейших методов шифрования информации:

Каждая буква заменяется на другую, сдвинутую на фиксированное число позиций в алфавите
Это фиксированное число называется ключом шифра

В нашем случае ключ равен -9, то есть Я переходит в И, и так далее

Если вам вдруг придётся расшифровывать подобное сообщение на английском, то сразу делимся
сайтом!

Ещё один похожий шифр называется Атбаш

Он пришёл из древнего иврита: в нём первая буква алфавита заменялась на последнюю, вторая — на предпоследнюю, и так далее

То есть в русском алфавите А превращается в Я, Б — в Ю, В — в Э и так далее

В полиалфавитных (в отличие от моноалфавитных, где каждая буква меняется по одному и тому же правилу) шифрах правила меняются для каждого символа

Позиционно-полиалфавитным — сдвиг зависит от позиции буквы в слове
А именно: первая сдвигается на 1, вторая — на 2, третья — на 3 и так далее

Кстати, именно эта идея — что ключ может меняться — и стала основой одного очень важного шифра в истории человечества: шифра Виженера

В нём сдвиг каждой буквы определяется ключевым словом
В предварительном отчёте Wiley за 2025 год, посвящённом влиянию технологий на науку, опубликованы свежие данные об отношении учёных к искусственному интеллекту

Один из наиболее неожиданных результатов — уровень доверия к Ml среди исследователей снизился по сравнению с 2024 годом, несмотря на существенный прогресс в развитии технологий

В 2024 году 51 % учёных высказывали тревогу по поводу возможности «галлюцинаций» — ситуации, когда языковые модели выдают выдуманные факты за истину
В 2025 году эта доля выросла до 64 %
Это происходит даже на фоне того, что уровень использования Ml в научных исследованиях увеличился с 45 % до 62 %

Также отмечен рост обеспокоенности вопросами безопасности и конфиденциальности — соответствующий показатель подскочил на 11 % по сравнению с предыдущим годом

Наряду с этим усилились сомнения в прозрачности и этичности искусственного интеллекта
DeepSeek выпустили новую модель

DeepSeek-OCR — это Ml-модель, которая извлекает текст из документов, изображений и PDF-файлов

Главное отличие от привычных OCR-систем: модель не просто "читает" текст, а понимает структуру документа и может работать с разными форматами вывода

Интересный концепт в статье — имитация человеческой памяти
Модель может сжимать старые части документа сильнее, чем новые, подобно тому, как мы помним недавние события детально, а далёкие — размыто

Ключевые возможности:

1.
Модель предлагает 6 режимов работы — от экономичного Tiny (64 визуальных токена) до мощного Gundam-M (1853 токена)
2. Обучена на 30.000.000 страниц документов на 100+ языках
Основной фокус — китайский и английский (25.000.000 страниц), но работает и с другими языками

Модель состоит из DeepEncoder и DeepSeek-3B-MoE декодер

Инфраструктура:

- Python 3.12.9, CUDA 11.8, PyTorch 2.6.0
- Поддержка vLLM для высокопроизводительной обработки (~2500 токенов/сек на A100-40G для PDF)
- Доступна через Hugging Face Transformers

Практические сценарии использования:
1. Обработка архивов
2. Автоматизация документооборота
3. Мультиязычная поддержка
4. Научные исследования — распознавание формул, таблиц, диаграмм из публикаций
Anthropic представили Claude для научных исследований

Команда
создала новые инструменты для Claude в сфере науки о жизни:

1. Прямые подключения к научным базам — PubMed, Benchling,
Synapse.org, 10x Genomics
Можно искать статьи, работать с лабораторными данными и анализировать геномы через обычный диалог с моделью

2. Agent Skills — готовые скрипты для типовых задач
Например, есть набор для контроля качества RNA-seq данных
Можно делать свои

Доступно через
Claude.com и AWS Marketplace. Google Cloud — скоро

Для академических лабораторий есть программа с бесплатными API-кредитами

Кто уже использует:

- Sanofi, AbbVie, Novo Nordisk

- Broad Institute и Stanford тестируют для биоинформатики
10x Genomics встроили в свои инструменты для анализа одноклеточных данных
К вопросу о важности символики для развития математики
Вот у Бомбелли (16_й век) записано число √(7 + √14)
И это был уже прорыв в переходе от словесной к символьной записи математических выражений
🔥1
Google опубликовала статью о квантовом алгоритме Quantum Echoes на процессоре Willow
Другие работы Google в этом направлении
тут

Команда сейчас измерила распространение информации в квантовой системе (OTOC²) на 65-105 кубитах

Эксперимент длился 2.1 часа на Willow против 3.2 года на суперкомпьютере Frontier, что значит в 13.000 раз быстрее

Интересный факт, эксперимент на 40 кубитах занял 3 часа точного расчёта на облаке Google и 6 дней симуляции на NVIDIA H100 для достижения той же точности методом Monte Carlo

Впервые результат можно воспроизвести на другом квантовом компьютере

Также показали определение параметров квантовых систем

Но как пишут сами авторы - это была игрушечная задача
До практики далеко — нужны миллионы кубитов, пока их только 105
«Господа, — сказал он — Предлагаю вам самим отправиться и измерить эту будку
Вы увидите, что длина прилавка составляет 149 сантиметров, то есть одну стомиллиардную долю расстояния между Землей и Солнцем. Высота его задней стенки, разделенная на ширину окошка, дает нам 176/56, то есть 3,14
Высота фасада составляет девятнадцать дециметров, то есть равна количеству лет древнегреческого лунного цикла
Сумма высот двух передних ребер и двух задних ребер подсчитывается так: 190х2+176х2=732, это дата победы при Пуатье
Толщина прилавка составляет 3,10
сантиметров, а ширина наличника окна — 8,8 сантиметров
Заменяя целые числа соответствующими литерами алфавита, мы получим C10H8, то есть формулу нафталина

— Фантастика, — сказал я — Сами мерили?

— Нет, — ответил Алье — Но один подобный киоск был измерен неким Жан–Пьером Аданом
Воображаю, что все цветочные киоски должны строиться более или менее одинаково

С цифрами вообще можно делать что угодно"
Mayo Clinic - объявила о 6-й когорте из 11 Ml -стартапов в своей программе акселерации

Фокус этого года - психиатрия/нейро, онкология и CareOps(операционная эффективность)

Клинический фокус смещается в сложные области:
• психическое здоровье и неврология
• онкология вместо более зрелых областей вроде радиологии

3 стартапа по профилактике:

MyAtlas: AI + носимые устройства для предотвращения кризисов психического здоровья

Kanjo: Ранняя персонализированная помощь при ADHD и аутизме

PromedAI: Домашний AI-скрининг для общей профилактики

2 стартапа в тераностике (диагностика + лечение):

MedLink Global: AI-психиатрия для диагностики и персонализированного лечения

Bowhead Health: Предсказание геномных мутаций рака на основе изображений
Planned Diffusion: гибридный подход к преодолению барьера между скоростью и качеством в LLM

https://arxiv.org/abs/2510.18087
https://arxiviq.substack.com/p/planned-diffusion

В статье представлен "Planned Diffusion" — новый гибридный фреймворк для генерации текста, который объединяет сильные стороны авторегрессионных (AR) и диффузионных моделей в единой архитектуре

Метод работает в два этапа: сначала он использует AR-процесс для последовательной генерации высокоуровневого «плана», который определяет семантическую структуру и разбивает вывод на условно независимые фрагменты текста

Затем он выполняет этот план, генерируя содержимое для всех определённых фрагментов одновременно с помощью параллельного дискретного диффузионного процесса

Подход напрямую бросает вызов фундаментальному компромиссу между скоростью генерации и качеством вывода в больших языковых моделях

Рассматривая генерацию текста как задачу динамического параллельного планирования, Planned Diffusion значительно сокращает последовательный критический путь, достигая ускорения от 1.27x до 1.81x по сравнению со стандартной AR-генерацией на бенчмарке AlpacaEval
https://github.com/tatsu-lab/alpaca_eval при минимальном снижении качества

Это расширяет границу Парето в координатах «скорость-качество» и предлагает практичный и масштабируемый путь к более быстрым и эффективным LLM без накладных расходов, связанных с системами из нескольких моделей, такими как спекулятивное декодирование
https://arxiv.org/abs/2211.17192

В мире больших языковых моделей (LLM) существует фундаментальное противоречие между скоростью инференса и качеством вывода

Авторегрессионные (AR) модели, генерирующие текст токен за токеном, долгое время задавали стандарт качества и связности
Однако их последовательная природа создаёт неотъемлемый барьер для быстродействия
С другой стороны, диффузионные модели спроектированы для параллелизма, но им часто требуется множество итеративных шагов, чтобы достичь качества AR-аналогов, что сводит на нет их преимущество в скорости
Это ставит исследователей и практиков перед сложным выбором

Статья "Planned Diffusion" предлагает новый фреймворк, который переосмысливает эту проблему

Авторы утверждают, что структура зависимостей в тексте зависит от контекста

Например, ответ, содержащий маркированный список, имеет семантически независимые части, которые можно генерировать одновременно
Используя это наблюдение, они разработали гибридную архитектуру, которая элегантно сочетает в себе сильные стороны обеих парадигм

Сначала планирование, затем параллельная диффузия

Planned Diffusion работает путём разделения генерации текста на два отдельных этапа, выполняемых одной унифицированной моделью

Авторегрессионное планирование:
Процесс начинается с последовательного, авторегрессионного этапа, на котором модель генерирует высокоуровневый план выполнения
Этот план — не конечный текст, а набор структурных управляющих тегов, которые очерчивают структуру ответа

Такой план разбивает задачу на условно независимые подзадачи

Параллельная диффузия: Затем план преобразуется в каркас из маск-токенов, который модель «заполняет» одновременно с помощью дискретного диффузионного процесса
Каждый запланированный фрагмент текста параллельно очищается от шума (denoising), что резко сокращает количество последовательных прогонов модели, необходимых для генерации полного ответа
Ml
Planned Diffusion: гибридный подход к преодолению барьера между скоростью и качеством в LLM https://arxiv.org/abs/2510.18087 https://arxiviq.substack.com/p/planned-diffusion В статье представлен "Planned Diffusion" — новый гибридный фреймворк для генерации…
Этот гибридный процесс основан на формальной вероятностной факторизации

Механизм, позволяющий одной модели плавно переключаться между последовательным планированием и параллельной генерацией, кроется в её кастомной маске внимания
На этапе планирования модель использует стандартную каузальную маску, где каждый токен может обращать внимание только на предыдущие — отличительная черта авторегрессионных моделей

Однако как только начинается этап диффузии, маска трансформируется

Внутри каждого независимого
<async>-фрагмента токены используют двунаправленное внимание, что позволяет им видеть все остальные токены в том же фрагменте
При этом сами фрагменты маскируются друг от друга, обеспечивая условную независимость, необходимую для параллельной генерации

Эта единая динамическая маска является ключевой архитектурной инновацией, которая позволяет одному набору весов освоить две фундаментально разные парадигмы генерации

Результаты экспериментов: расширяя границу Парето

Авторы зафайнтюнили Dream-7B-Base
https://arxiv.org/abs/2508.15487, базовую модель, которая сначала предобучена авторегрессионно, а затем дополнительно предобучена с диффузионной objective

Они оценили Planned Diffusion на бенчмарке AlpacaEval
https://github.com/tatsu-lab/alpaca_eval, сравнив его с сильными AR и диффузионными бейзлайнами
Результаты демонстрируют новый компромисс между скоростью и качеством

* Скорость и качество: Относительно сильного авторегрессионного бейзлайна, который набрал 50.0 % побед с контролем длины (length-controlled win rate, LCWR), стандартная модель Planned Diffusion (PD) достигла 44.6 % LCWR (падение на 5.4 процентных пункта) при ускорении в 1.81 раза

Особенно интересный вариант, Planned Diffusion with Dense Attention (PD-DA), заменяет неэффективное блочно-разреженное внимание на плотное, которое лучше оптимизировано для GPU
Этот дружественный к железу компромисс позволил получить 49.2 % LCWR (падение всего на 0.8 процентных пункта), сохранив при этом ускорение в 1.27 раза

* Сокращение критического пути:
Ускорение в основном достигается за счёт более короткого критического пути — количества необходимых последовательных шагов
Эксперименты показывают, что средний путь декодирования у AR-модели в 2.8 раза длиннее, чем у Planned Diffusion, при этом реальное ускорение (1.81x) ниже этой цифры
Разрыв между этим теоретическим сокращением и фактическим ускорением объясняется компромиссом с KV-кэшированием. На AR-этапе токены легко кэшируются
В то же время двунаправленное внимание на этапе диффузии означает, что представление токена зависит от будущих токенов в его фрагменте, что не позволяет кэшировать его до завершения всего фрагмента и приводит к большему объёму вычислений на каждом шаге

* Масштабируемость: Интересное наблюдение заключается в том, что, хотя производительность AR-бейзлайна выходит на плато с увеличением числа эпох обучения, качество обоих вариантов PD продолжает расти
Это говорит о том, что гибридные архитектуры, такие как Planned Diffusion, могут лучше масштабироваться с будущим ростом вычислительных мощностей и объёмов данных

* Настраиваемый инференс: Фреймворк обеспечивает тонкий контроль над компромиссом между скоростью и качеством во время инференса с помощью простых runtime-параметров, таких как «step ratio» (r) и «confidence threshold» (τ), что позволяет одной модели обслуживать различные требования к задержкам

Сильные стороны, ограничения и будущее влияние

Сильная сторона этой работы — в элегантном решении давней проблемы

Создав единую гибридную модель, авторы избегают сложностей систем с несколькими моделями (например, спекулятивного декодирования,
https://arxiv.org/abs/2211.17192), достигая при этом лучшего компромисса в производительности