🎉 MiMo-V2-Flash - бесплатный API доступен на ModelScope
Первый крупный релиз Xiaomi после прихода Fuli Luo — и сразу ставка на реальные agentic-сценарии, а не «лабораторные» демо.
⚡ MiMo-V2-Flash - открытая высокопроизводительная MoE-модель:
- 309B параметров всего / 15B активных
- Контекст 256K токенов
- 150+ токенов в секунду благодаря нативному Multi-Token Prediction
🔥 Ключевые преимущества для разработчиков:
- Гибридное внимание (5:1 SWA + Global)
→ в 6 раз меньше KV-кэша без потери длинного контекста
- 73.4% на SWE-Bench Verified — новый SOTA среди open-source моделей
- Качество рассуждений на уровне DeepSeek-V3.2, но заметно выше скорость в реальных задачах
✨ API-ready
Отлично подходит для:
- агентных систем
- длинных reasoning-пайплайнов
- быстрых и отзывчивых AI-ассистентов
Модель доступна на ModelScope:
https://modelscope.cn/models/XiaomiMiMo/MiMo-V2-Flash
#AI #LLM #MoE #OpenSource #AgenticAI #Xiaomi #ModelScope
Первый крупный релиз Xiaomi после прихода Fuli Luo — и сразу ставка на реальные agentic-сценарии, а не «лабораторные» демо.
⚡ MiMo-V2-Flash - открытая высокопроизводительная MoE-модель:
- 309B параметров всего / 15B активных
- Контекст 256K токенов
- 150+ токенов в секунду благодаря нативному Multi-Token Prediction
🔥 Ключевые преимущества для разработчиков:
- Гибридное внимание (5:1 SWA + Global)
→ в 6 раз меньше KV-кэша без потери длинного контекста
- 73.4% на SWE-Bench Verified — новый SOTA среди open-source моделей
- Качество рассуждений на уровне DeepSeek-V3.2, но заметно выше скорость в реальных задачах
✨ API-ready
Отлично подходит для:
- агентных систем
- длинных reasoning-пайплайнов
- быстрых и отзывчивых AI-ассистентов
Модель доступна на ModelScope:
https://modelscope.cn/models/XiaomiMiMo/MiMo-V2-Flash
#AI #LLM #MoE #OpenSource #AgenticAI #Xiaomi #ModelScope
❤11👍5🥰2🤣2
Руководитель Школы анализа данных Яндекса Алексей Толстиков рассказал, как в 2026 году стать востребованным ИТ- и ML-специалистом. В новом выпуске подкаста Machine Learning Podcast он поделился инсайтами о том, фундаментальная математическая база сегодня необходима для карьеры в ИИ.
Чтобы оставаться востребованным, специалисту необходимо:
• глубоко понимать алгоритмы — это даёт преимущество на рынке и открывает двери в любые топовые компании;
• сочетать теорию с реальными задачами индустрии — гонка только за практикой не работает;
• развивать скилл задавать живые вопросы и вести обсуждения — нейросети этого не заменят;
• не бояться сложной и долгой учёбы — инвестиции в образование окупаются свободой выбора работы в ведущих компаниях.
📌 Послушать подкаст можно здесь
Чтобы оставаться востребованным, специалисту необходимо:
• глубоко понимать алгоритмы — это даёт преимущество на рынке и открывает двери в любые топовые компании;
• сочетать теорию с реальными задачами индустрии — гонка только за практикой не работает;
• развивать скилл задавать живые вопросы и вести обсуждения — нейросети этого не заменят;
• не бояться сложной и долгой учёбы — инвестиции в образование окупаются свободой выбора работы в ведущих компаниях.
📌 Послушать подкаст можно здесь
❤13👍10
T5Gemma 2 - новое поколение энкодер-декодерных моделей от Google
Google представила T5Gemma 2 - энкодер-декодерную архитектуру, построенную на базе идей и ряда улучшений Gemma 3. Это не просто апдейт, а полноценный шаг вперед для задач генерации, перевода, суммаризации и мультимодального понимания.
T5Gemma 2 объединяет сильные стороны классического подхода T5 (encoder-decoder) с архитектурными улучшениями Gemma нового поколения, делая модель более эффективной, масштабируемой и универсальной.
Основные особенности
- Энкодер-декодерная архитектура нового поколения
- Общие эмбеддинги для энкодера и декодера, что снижает размер модели
- Объединенное self- и cross-attention в декодере для более эффективных вычислений
- Поддержка длинного контекста до 128 000 токенов
- Мультимодальность - работа с текстом и изображениями
- Многоязычная поддержка более 140 языков
Размеры моделей
T5Gemma 2 доступна в нескольких конфигурациях:
- 270M + 270M параметров
- 1B + 1B параметров
- 4B + 4B параметров
Такие размеры позволяют использовать модель как в исследованиях, так и в продакшене, включая on-device сценарии.
Модель демонстрирует отличное понимание контекста, более стабильную генерацию и высокое качество работы с длинными последовательностями. Особенно хорошо проявляет себя в задачах суммаризации, QA, перевода и мультимодальных сценариях.
Где это полезно
- Суммаризация документов
- Машинный перевод
- Поиск и RAG-системы
- Мультимодальные ассистенты
- Обработка длинных текстов без агрессивного чанкинга
T5Gemma 2 показывает, что encoder-decoder подход по-прежнему актуален и может конкурировать с decoder-only моделями, особенно в задачах понимания и структурированной генерации.
https://blog.google/technology/developers/t5gemma-2/
Google представила T5Gemma 2 - энкодер-декодерную архитектуру, построенную на базе идей и ряда улучшений Gemma 3. Это не просто апдейт, а полноценный шаг вперед для задач генерации, перевода, суммаризации и мультимодального понимания.
T5Gemma 2 объединяет сильные стороны классического подхода T5 (encoder-decoder) с архитектурными улучшениями Gemma нового поколения, делая модель более эффективной, масштабируемой и универсальной.
Основные особенности
- Энкодер-декодерная архитектура нового поколения
- Общие эмбеддинги для энкодера и декодера, что снижает размер модели
- Объединенное self- и cross-attention в декодере для более эффективных вычислений
- Поддержка длинного контекста до 128 000 токенов
- Мультимодальность - работа с текстом и изображениями
- Многоязычная поддержка более 140 языков
Размеры моделей
T5Gemma 2 доступна в нескольких конфигурациях:
- 270M + 270M параметров
- 1B + 1B параметров
- 4B + 4B параметров
Такие размеры позволяют использовать модель как в исследованиях, так и в продакшене, включая on-device сценарии.
Модель демонстрирует отличное понимание контекста, более стабильную генерацию и высокое качество работы с длинными последовательностями. Особенно хорошо проявляет себя в задачах суммаризации, QA, перевода и мультимодальных сценариях.
Где это полезно
- Суммаризация документов
- Машинный перевод
- Поиск и RAG-системы
- Мультимодальные ассистенты
- Обработка длинных текстов без агрессивного чанкинга
T5Gemma 2 показывает, что encoder-decoder подход по-прежнему актуален и может конкурировать с decoder-only моделями, особенно в задачах понимания и структурированной генерации.
https://blog.google/technology/developers/t5gemma-2/
❤13👍4🔥4
🧠 Новая работа учит модели рассуждений «думать» на крошечном символическом языке — сохранять точность, но тратить в 4-16 раз меньше токенов.
Обычные reasoning-модели вроде DeepSeek R1 хорошо решают математику, но пишут длинные цепочки «саморазмышлений», из-за чего инференс становится медленным и дорогим.
Чтобы сократить это, авторы создают язык Mentalese - каждый шаг это короткий оператор + маленькое вычисление. Они собирают ~40K математических трейсов в этом формате.
Сначала небольшие модели дообучают на этих трейсах так, что каждая задача решается одним коротким Mentalese-скриптом. Длина резко сокращается, но падает точность.
Далее применяют RL с проверяющим: модель генерирует множество кандидатов, а версификатор оценивает их правильность.
Метод Shorter Length Preference Optimization сохраняет главным вознаграждение за корректность, но добавляет небольшой бонус за более короткий правильный трейс — при этом не наказывает единственный длинный правильный ответ.
Так рождаются модели ORION, они сохраняют сильную математическую точность, но потребляют в 4–16 раз меньше reasoning-токенов, делая обучение и инференс значительно дешевле.
📌 Paper: “ORION: Teaching Language Models to Reason Efficiently in the Language of Thought”
arxiv.org/abs/2511.22891
Обычные reasoning-модели вроде DeepSeek R1 хорошо решают математику, но пишут длинные цепочки «саморазмышлений», из-за чего инференс становится медленным и дорогим.
Чтобы сократить это, авторы создают язык Mentalese - каждый шаг это короткий оператор + маленькое вычисление. Они собирают ~40K математических трейсов в этом формате.
Сначала небольшие модели дообучают на этих трейсах так, что каждая задача решается одним коротким Mentalese-скриптом. Длина резко сокращается, но падает точность.
Далее применяют RL с проверяющим: модель генерирует множество кандидатов, а версификатор оценивает их правильность.
Метод Shorter Length Preference Optimization сохраняет главным вознаграждение за корректность, но добавляет небольшой бонус за более короткий правильный трейс — при этом не наказывает единственный длинный правильный ответ.
Так рождаются модели ORION, они сохраняют сильную математическую точность, но потребляют в 4–16 раз меньше reasoning-токенов, делая обучение и инференс значительно дешевле.
📌 Paper: “ORION: Teaching Language Models to Reason Efficiently in the Language of Thought”
arxiv.org/abs/2511.22891
🔥13❤6
Forwarded from Криптонит. Разработка, наука, шифрование
This media is not supported in your browser
VIEW IN TELEGRAM
Мы подарим два эксклюзивных новогодних набора нашим подписчикам — распаковку подарков оставили в видео
Что для этого нужно сделать?
Что в новогоднем подарке?
Результаты подведём 22 декабря в 15:00. Бот выберет победителей случайным образом.
Полные правила конкурса можно почитать тут.
#конкурс #мерч
Please open Telegram to view this post
VIEW IN TELEGRAM
😁6❤2😭1
🚀 Google выложила разбор того, как Gemini 3 Pro стала мощной системой для визуального понимания.
Она не просто “видит”, что на изображении — она рассуждает о сцене.
📌 Ключевые примеры возможностей:
• “Дерендеринг” — превращает грязные PDF и скриншоты в чистый код
• Понимание пространственных координат — полезно для робототехники
• Анализ сложных интерфейсов и динамичных видео
• Отображение документов, экранов, пространств и реальных сцен одной моделью
💡 Самое интересное — Gemini 3 Pro может генерировать код приложений по длинным видео и даёт разработчикам настройку точности: баланс между качеством и стоимостью обработки.
Итог: это уже не распознавание картинок, а полноценная визуальная система рассуждений для агентов, роботов и инструментов разработки.
https://blog.google/technology/developers/gemini-3-pro-vision/
Она не просто “видит”, что на изображении — она рассуждает о сцене.
📌 Ключевые примеры возможностей:
• “Дерендеринг” — превращает грязные PDF и скриншоты в чистый код
• Понимание пространственных координат — полезно для робототехники
• Анализ сложных интерфейсов и динамичных видео
• Отображение документов, экранов, пространств и реальных сцен одной моделью
💡 Самое интересное — Gemini 3 Pro может генерировать код приложений по длинным видео и даёт разработчикам настройку точности: баланс между качеством и стоимостью обработки.
Итог: это уже не распознавание картинок, а полноценная визуальная система рассуждений для агентов, роботов и инструментов разработки.
https://blog.google/technology/developers/gemini-3-pro-vision/
👏10❤4👍2
OpenAI неоднократно переходила в режим «Code Red», сообщает Bloomberg.
«Code Red» - это внутренний режим, когда команды временно бросают второстепенные задачи и фокусируются на одном приоритете. По словам главы исследований OpenAI Марка Чена, компания уже не раз использовала этот подход.
Причина простая: большие команды легко распыляются между агентами, рекламой и исследованиями, из-за чего основной продукт - чат, теряет скорость и надёжность.
Последний «Code Red» последовал сразу после релиза Google Gemini 3.
Ответ OpenAI:
- возврат фокуса на core-stack
- снижение latency
- рост uptime
- более жёсткие eval-циклы, чтобы ловить деградации качества до пользователей
Результат:
- релиз GPT-5.2 и GPT-5.2-Codex
- переработка ChatGPT Images до 4× быстрее генерация при сохранении стабильности деталей между правками
Следующий фокус - сам training engine: алгоритмы + инфраструктура для масштабных обучений. OpenAI обсуждает инвестиции порядка 1.4 трлн долларов в инфраструктуру на горизонте 8 лет.
bloomberg.com/news/articles/2025-12-18/openai-has-declared-code-red-multiple-times-executive-says
«Code Red» - это внутренний режим, когда команды временно бросают второстепенные задачи и фокусируются на одном приоритете. По словам главы исследований OpenAI Марка Чена, компания уже не раз использовала этот подход.
Причина простая: большие команды легко распыляются между агентами, рекламой и исследованиями, из-за чего основной продукт - чат, теряет скорость и надёжность.
Последний «Code Red» последовал сразу после релиза Google Gemini 3.
Ответ OpenAI:
- возврат фокуса на core-stack
- снижение latency
- рост uptime
- более жёсткие eval-циклы, чтобы ловить деградации качества до пользователей
Результат:
- релиз GPT-5.2 и GPT-5.2-Codex
- переработка ChatGPT Images до 4× быстрее генерация при сохранении стабильности деталей между правками
Следующий фокус - сам training engine: алгоритмы + инфраструктура для масштабных обучений. OpenAI обсуждает инвестиции порядка 1.4 трлн долларов в инфраструктуру на горизонте 8 лет.
bloomberg.com/news/articles/2025-12-18/openai-has-declared-code-red-multiple-times-executive-says
❤9🤣5👍2🔥2😨2
Российские генеративные модели Kandinsky 5.0 Video Lite и Pro в международной text-to-video арене
🔘 Pro версия является ТОП-1 опенсорсом в мире
🔘 Lite версия (2B параметров) лучше первой версии Sora
🔘 На данный момент Сбер уступает только топовым мировым бигтех компаниям: Google (Veo 3.1, Veo 3), OpenAI (Sora 2), Alibaba (Wan 2.5), KlingAI (Kling 2.5, 2.6); в паритете с Luma AI (Ray 3), MiniMax (Hailuo 2.3) — отрыв по ELO максимум 3 балла, при 95% доверительном интервале оценивания +-21 балла
🔘 Для российских генеративных моделей выход на международную арену — уникальное событие
🚀 Полезные ссылки:
🔘 Посмотреть весь лидерборд: lmarena
🔘 Почитать подробнее про Kandinsky 5.0: пост, техрепорт
🔘 Open Source Kandinsky 5.0: github и hf
🚀 Полезные ссылки:
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥18😁9
This media is not supported in your browser
VIEW IN TELEGRAM
🖼️ EditThinker: теперь редакторы изображений могут «думать» итеративно!
Meituan добавляет в любые модели редактирования изображений способность рассуждать: модель критикует результат, уточняет инструкции и повторяет цикл, пока не получит удовлетворяющий итог. Это имитация человеческого процесса мышления - Critique → Refine → Repeat.
EditThinker учится анализировать собственные ошибки, улучшать запросы и идти по итерациям, что значительно повышает качество следования инструкциям.
https://huggingface.co/papers/2512.05965
Meituan добавляет в любые модели редактирования изображений способность рассуждать: модель критикует результат, уточняет инструкции и повторяет цикл, пока не получит удовлетворяющий итог. Это имитация человеческого процесса мышления - Critique → Refine → Repeat.
EditThinker учится анализировать собственные ошибки, улучшать запросы и идти по итерациям, что значительно повышает качество следования инструкциям.
https://huggingface.co/papers/2512.05965
❤3👍3🔥3😁1
🚀 Flowra - простой и понятный open-source движок для создания AI-воркфлоу.
Это тот же движок, что стоит за FlowBench, и он позволяет собирать сложные pipelines так же легко,
как конструктор LEGO.
Что делает Flowra удобной:
✅ Один движок для всех типов данных: изображения, аудио, видео и 3D
✅ Выполнение через DAG-граф: умное кэширование, параллельность и масштабирование
✅ Подключение моделей ModelScope одной строкой — без сложной настройки
✅ Полный цикл разработки:
flowra create → build → debug → deploy
Итог: вы берёте свою ML-модель и превращаете её в визуальный блок, который можно перетаскивать
и соединять с другими.
✨ Без адских зависимостей. Без мучительного дебага.
🔗 GitHub: https://github.com/modelscope/flowra
📥 FlowBench client: https://modelscope.cn/flowbench/download
Это тот же движок, что стоит за FlowBench, и он позволяет собирать сложные pipelines так же легко,
как конструктор LEGO.
Что делает Flowra удобной:
✅ Один движок для всех типов данных: изображения, аудио, видео и 3D
✅ Выполнение через DAG-граф: умное кэширование, параллельность и масштабирование
✅ Подключение моделей ModelScope одной строкой — без сложной настройки
✅ Полный цикл разработки:
flowra create → build → debug → deploy
Итог: вы берёте свою ML-модель и превращаете её в визуальный блок, который можно перетаскивать
и соединять с другими.
✨ Без адских зависимостей. Без мучительного дебага.
🔗 GitHub: https://github.com/modelscope/flowra
📥 FlowBench client: https://modelscope.cn/flowbench/download
🤔3👍1
🧠Исследование: как в России обновляют ИИ-образование
J'son & Partners сравнили подготовку ИИ-кадров в США, Китае и России — и везде история одна: технологии развиваются, рынок растёт, а образование за ними не успевает. Справляются с этой проблемой по-разному. В Штатах – через автономию вузов и рыночную экономику, в Китае – через жесткое госрегулирование.
В российской модели – через коллаборацию университетов с бигтехамии: запускаются совместные программы, которые затем масштабирует государство – примеры найдете в исследовании.
Также к обучению активно привлекают практиков: около 1200+ экспертов из Яндекса, 1000 инженеров из VK, и более 900 из Т-Банка уже читают курсы, приносят в аудитории актуальные датасеты, архитектуры и доступ к облачным GPU.Обновлять систему помогают те, кто пишет продакшн-код каждый день. С учетом темпов ИИ-рынка, вполне логично.
J'son & Partners сравнили подготовку ИИ-кадров в США, Китае и России — и везде история одна: технологии развиваются, рынок растёт, а образование за ними не успевает. Справляются с этой проблемой по-разному. В Штатах – через автономию вузов и рыночную экономику, в Китае – через жесткое госрегулирование.
В российской модели – через коллаборацию университетов с бигтехамии: запускаются совместные программы, которые затем масштабирует государство – примеры найдете в исследовании.
Также к обучению активно привлекают практиков: около 1200+ экспертов из Яндекса, 1000 инженеров из VK, и более 900 из Т-Банка уже читают курсы, приносят в аудитории актуальные датасеты, архитектуры и доступ к облачным GPU.Обновлять систему помогают те, кто пишет продакшн-код каждый день. С учетом темпов ИИ-рынка, вполне логично.
😁3👍1🤔1🤪1
📘 Новая образовательная книга: Scaling ML Systems от JAX-ML
Проект Scaling Book - это свободно доступный интерактивный онлайн-ресурс, посвящённый масштабированию машинного обучения. Он создан сообществом вокруг JAX и охватывает ключевые методы, практики и архитектурные подходы, которые помогают строить масштабируемые, высокопроизводительные ML-системы.
💡 Что внутри:
— Основы масштабирования моделей и обучения
— Параллелизм данных, параметров и микшированные стратегии
— Технологии распределённого обучения (TPUs/GPUs)
— Оптимизация вычислений и памяти
— Практические примеры на JAX и других стековых инструментах
— Схемы, коды и визуализации для конкретных паттернов обучения
📍 Почему это полезно:
— Подходит как для опытных инженеров ML, так и для тех, кто хочет перейти от прототипов к промышленным ML-системам
— Объединяет теорию и практику распределённого обучения
— Обсуждает реальные ограничения архитектур и пути их решения
— Показывает, как системно мыслить о масштабировании, а не копировать хаки
🔗 Читайте онлайн: jax-ml.github.io/scaling-book
Проект Scaling Book - это свободно доступный интерактивный онлайн-ресурс, посвящённый масштабированию машинного обучения. Он создан сообществом вокруг JAX и охватывает ключевые методы, практики и архитектурные подходы, которые помогают строить масштабируемые, высокопроизводительные ML-системы.
💡 Что внутри:
— Основы масштабирования моделей и обучения
— Параллелизм данных, параметров и микшированные стратегии
— Технологии распределённого обучения (TPUs/GPUs)
— Оптимизация вычислений и памяти
— Практические примеры на JAX и других стековых инструментах
— Схемы, коды и визуализации для конкретных паттернов обучения
📍 Почему это полезно:
— Подходит как для опытных инженеров ML, так и для тех, кто хочет перейти от прототипов к промышленным ML-системам
— Объединяет теорию и практику распределённого обучения
— Обсуждает реальные ограничения архитектур и пути их решения
— Показывает, как системно мыслить о масштабировании, а не копировать хаки
🔗 Читайте онлайн: jax-ml.github.io/scaling-book
👍3