Машинное обучение RU

🚀 Gemini CLI — крупное обновление!

На прошлой неделе команда Gemini CLI смержила ~150 pull-реквестов от 75+ контрибьюторов. И самое главное — теперь Gemini CLI встроен по умолчанию в @Firebase Studio.

Вот что нового:

▪ Поддержка вставки изображений из буфера обмена на macOS *(jaysondasher)*
▪ Глобальные настройки для администраторов *(chrstnb)*
▪ Новый флаг --prompt-interactive / -i для интерактивных запросов *(taeold)*
▪ Автосаммари вывода инструментов с кастомными summarizer-ами *(anj-s)*
▪ Починена бесконечная петля на Windows *(SandyTao520)*
▪ Санитайзинг параметров для предотвращения 400 ошибок API *(BigUncle)*
▪ Улучшен headless auth — удобно для серверов *(NTaylorMullen)*
▪ CLI-опция для включения и отображения расширений *(bbiggs)*
▪ Обработка 429 (quota limit) ошибок теперь стабильнее *(bdmorgan)*
▪ Поддержка .svg файлов *(PugazhendhiDev)*
▪ Переменная NO_BROWSER — для оффлайн аутентификации *(sethtroisi)*
▪ Настраиваемое число turn-ов в сессии *(anj-s)*
▪ В UI теперь видно, какая версия nightly *(miguelsolorio)*

📦 Установить:


npm i -g @google/gemini-cli

https://github.com/google-gemini/gemini-cli

❤1👍1

1.99K views11:03

Машинное обучение RU

🚀 MIRIX — от Mirix-AI: универсальная платформа для работы с LLM и multimodal AI

Репозиторий [Mirix-AI/MIRIX](https://github.com/Mirix-AI/MIRIX) — открытая инфраструктура, которая превращает LLM и мультимодальные модели в мощный AI-движок:

🔧 Возможности MIRIX

▪ Плагин-фреймворк: легко подключать новые LLM или инструменты (видео, аудио, базы данных и т.д.)
▪ Пайплайны с логикой: можно комбинировать модели, автоматически включать chain-of-thought, добавлять кастомную логику
▪ Многопользовательский API: поддержка сессий, управление историей, токенами
▪ Интерактивные агенты: чат-боты с памятью, планированием и адаптивным поведением

💡 Почему это полезно

– Гибкая логика: можно внедрять flow, правила, разбивать задачу на этапы
– Мульти-модальность: работа не только с языковыми моделями, но и с аудио/видео/датасетами
– Развиваемость: легко подключать новые плагины, модели, фичи
– Продуктивность: готовый skeleton для создания собственного AI-сервиса — от прототипа до продакшена

Website: https://mirix.io
Paper: https://arxiv.org/abs/2507.07957
Github: https://github.com/Mirix-AI/MIRIX

👍7❤4

1.89K views12:00

Машинное обучение RU

This media is not supported in your browser

VIEW IN TELEGRAM

📚 Infinite Wiki — бесконечная вики на стероидах

⁕ Каждое слово — это ссылка
⁕ Каждое определение — генерируется за 1 секунду в реальном времени
⁕ Работает на Gemini 2.5 Flash Lite
⁕ Поддерживает ASCII-диаграммы через 2.5 Flash

Живой, интерактивный текст — как если бы вся Википедия думала на лету.

https://aistudio.google.com/app/apps/drive/1J3Y2wXFzHKha4Qnb7UObSYAucBl1KPBO?showPreview=true

❤8👍2🔥2🤔1

1.89K views10:11

Машинное обучение RU

💡 Крутая деталь из статьи про Gemini 2.5 — отказоустойчивая тренировка на TPU

В документации к Gemini 2.5 есть незаметный, но крутой инженерный момент:
если одна TPU-секция (slice) выходит из строя во время обучения, система не ждёт, пока освободится новая. Вместо этого они продолжают обучение на оставшихся ~97% TPU.

Это значит:
- никакого простоя
- никакой остановки тренировки
- просто пропускаем сбойный slice и двигаемся дальше

🧠 По сути, это дизайн с толерантностью к сбоям, встроенный прямо в систему планирования обучения.

🎩 И да — это отсылает к "старой школе Google", где железо было дешёвым и ненадёжным, но вся магия была в том, как они писали отказоустойчивый софт поверх этого железа.

👉 https://blog.codinghorror.com/building-a-computer-the-google-way/

Gemini 2.5 — это не только про модели. Это про инженерное мастерство, лежащее под капотом.

❤7👍3🥰1

1.81K views13:04

Машинное обучение RU

1:04

This media is not supported in your browser

VIEW IN TELEGRAM

🗣 FLOAT — новая open‑source модель для генерации говорящих портретов по аудио

Быстрее и реалистичнее SadTalker:
— Фотореалистичное видео с точной синхронизацией губ
— Плавные движения головы и эмоции
— Управление выражением лица и наклоном головы

💡 Основа — latent flow matching вместо диффузии:
⚡️ генерация быстрее, нет итераций, стабильные кадры

🌐

page: https://deepbrainai-research.github.io/float/
🧬code: https://github.com/deepbrainai-research/float
📄paper: https://arxiv.org/abs/2412.01064
🍊jupyter: https://github.com/camenduru/Float-jupyter

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥9👍3❤1

2.08K views09:44

Машинное обучение RU

Forwarded from Machinelearning

🌟

AI Flow: концепция коллаборативного ИИ.

China Telecom совместно с TeleAI спроектировали фреймворк AI Flow, который рассматривает ИИ и сети передачи данных как единую систему.

AI Flow - это не просто очередной метод оптимизации, а цельная парадигма. Она предлагает отойти от идеи монолитного ИИ к распределенному и коллаборативному, где интеллект может перетекать по сети туда, где он в данный момент нужнее всего и где для него есть ресурсы.

🟡

Архитектура "Устройство-Edge-Облако".

Идея в том, чтобы разумно распределять нагрузку: простейшие операции выполняются на самом гаджете, более сложные и требующие низкой задержки — на ближайшем edge-сервере, а самое тяжелые задачи и ресурсоемкий инференс остаются в облаке.

AI Flow предлагает конкретные механизмы для такой концепции - спекулятивное декодирование, где легкая модель на устройстве быстро генерирует черновик ответа, а мощная модель на эдже его лишь верифицирует и корректирует.

🟡

Основа архитектуры - "семейные модели" (familial models).

Это не просто набор моделей разного размера, а целое семейство с архитектурно согласованными скрытыми представлениями.

Маленькая, средняя и большая модели устроены настолько похоже, что они могут бесшовно передавать друг другу эстафету инференса.

Модель на смартфоне обрабатывает первые несколько слоев, а затем ее промежуточный результат подхватывает модель на сервере и продолжает вычисления ровно с того же места, без какого-либо дополнительного преобразования данных.

🟡

Эмерджентный интеллект через сотрудничество моделей.

Пайплайн AI Flow делает возможным взаимодействие разных моделей, от LLM и VLM до диффузионных генераторов.

Через такую коллаборацию рождается эмерджентный интеллект – коллективная интуиция, превышающая возможности отдельных сетей, где несколько агентов генерируют черновые решения, затем сервер-оркестратор выбирает лучшие фрагменты, объединяет их и возвращает итоговый ответ для уточнения с учетом контекста каждого из них.

В этом и фишка: после такой синергии ответ становится богаче и более осмысленным, ведь сходятся разные точки зрения и узкопрофильные знания моделей-участников.

▶️В открытом доступе опубликована предварительная версия модели Ruyi-7B (AI-Flow-Ruyi-7B-Preview) из "семейных моделей".

Ее крупнейшая ветвь содержит 7 млрд. параметров и способна порождать early-exit подсети с эффективным числом параметров в 3, 4, 5 и 6 млрд:

🟢Branch 3B/4B: простые сценарии диалога с минимальными требованиями по ресурсам;

🟢Branch 5B/6B: повседневные универсальные задачи, баланс возможностей и отзывчивости;

🟢Branch 7B: решение сложных проблем, повышенные требования к ресурсам.

📌Лицензирование: Apache 2.0 License.

🟡

Модель

🟡

Arxiv

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #LLM #AIFlow #TeleAI

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤3

1.81K views16:30

Машинное обучение RU

🔬 ROOT — мощный фреймворк для анализа научных данных. Проект CERN представляет собой комплексное решение для хранения и обработки больших объёмов научной информации. Изначально созданный для нужд Большого адронного коллайдера, он теперь применяется в различных исследовательских областях.

ROOT сочетает высокопроизводительные C++-библиотеки с интерактивной средой через интерпретатор Cling и интеграцией с Python. Система поддерживает многопоточную обработку через RDataFrame и предлагает инструменты для визуализации научных данных.

🤖 GitHub

@machinelearning_ru

❤4👍4🥰2

2.02K views08:36

Машинное обучение RU

🚨 Oracle официально согласилась поставить OpenAI 2 МИЛЛИОНА AI-чипов

Что это значит?

OpenAI строит новый дата-центр под *чудовищную* нагрузку:
— 4.5 ГВт вычислений (это больше, чем у некоторых стран)
— стоимость — $30 млрд в год 😳

💸 SoftBank? Больше не при делах:
— «SoftBank не участвует в финансировании»
— переговоры по деньгам сорвались ещё в январе

Oracle теперь главный поставщик чипов для OpenAI.

4,5 гигаватта — этого достаточно, чтобы обеспечить электричеством 3,4 миллиона домов.
OpenAI буквально строит инфраструктуру с потреблением энергии на уровне небольшого города — только ради обучения ИИ.

@ai_machinelearning_big_data

#openai #news #ml #ai

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6👍3🔥3😁1🤯1

1.79K views10:00

Машинное обучение RU

🧠 Anthropic выпустила исследование:
Inverse Scaling in Test-Time Compute

📉 Больше размышлений — хуже результат?

Да! Исследование показывает: у больших reasoning-моделей (LRMs) длинные цепочки рассуждений могут снижать точность, а не повышать её.

Во всех задачах (счёт, регрессия, дедукция, AI-риски) проявились 5 типов сбоев:

1️⃣ Claude отвлекается и уходит от сути
2️⃣ OpenAI‑модели переобучаются на формулировки
3️⃣ Ложные корреляции вытесняют знания
4️⃣ Нарушается фокус в логике и выводах
5️⃣ Некоторые модели (👀 включая Claude Sonnet 4) — проявляют поведение самосохранения 🤯

💡 Вывод: "думать дольше" ≠ "думать лучше".

Иногда краткая и быстрая цепочка рассуждений даёт более точный результат, чем длинный “умный” вывод.

Paper: https://arxiv.org/abs/2507.14417
Page: https://safety-research.github.io/inverse-scaling-ttc/

❤5👍3🔥3

1.58K views10:02

Машинное обучение RU

Forwarded from Machinelearning

0:06

This media is not supported in your browser

VIEW IN TELEGRAM

🌟

Hierarchical Reasoning Model: иерархическая модель рассуждений, имитирующая работу мозга человека.

Hierarchical Reasoning Model, (HRM) - рекуррентная архитектура, которая черпает вдохновение в принципах работы человеческого мозга. В ее основе лежат 2 взаимозависимых рекуррентных модуля:

🟢Первый, высокоуровневый модуль (H-модуль), отвечает за медленное, абстрактное планирование, подобно тета-волнам в мозге.

🟢Второй, низкоуровневый модуль (L-модуль), занимается быстрыми и детализированными вычислениями, аналогично гамма-волнам.

Эта структура дает модели достигать вычислительной глубины, необходимой для сложных рассуждений, при этом сохраняя стабильность и эффективность во время обучения, чего так не хватает стандартным трансформерам.

🟡

Взаимодействие модулей назвали "Иерархической конвергенцией".

Процесс кардинально отличается от того, что происходит в обычных рекуррентных сетях, которые склонны к преждевременной сходимости, когда их скрытое состояние быстро стабилизируется, и дальнейшие вычисления практически прекращаются. В HRM все иначе:

🟠Сначала быстрый L-модуль выполняет серию итераций, находя локальное равновесие для текущего шага задачи. Его итоговое состояние передается медленному H-модулю.

🟠H-модуль, в свою очередь, осмысливает полученный результат, выполняет один шаг собственного, более абстрактного обновления и задает совершенно новый контекст для L-модуля.

Таким образом, вычислительный путь низкоуровневого модуля перезапускается, направляя его к новой точке локального равновесия. Механизм не дает системе застрять и позволяет ей последовательно выполнять множество различных, но взаимосвязанных этапов решения, выстраивая длинные логические цепочки.

Тестовая модель HRM с 27 млн. параметров, обученная всего на 1000 примерах без какого-либо претрейна или CoT-пар, показала неожиданно высокие результаты .

На задачах, требующих глубокого поиска и перебора вариантов ( Sudoku-Extreme ) и поиск оптимального пути ( Maze 30x30 ), HRM достигла почти идеальной точности, а вот CoT-методы полностью провалились с результатом 0%.

На бенчмарке ARC-AGI-1, HRM показывает точность в 40.3%. Для сравнения, o3-mini-high показала 34.5%, а Claude 3.7 с контекстом 8K - 21.2%.

▶️ Веса моделей для самостоятельного воспроизведения тестов:

🟢

ARC-AGI-2;

🟢

Sudoku 9x9 Extreme (1000 examples);

🟢

Maze 30x30 Hard (1000 examples);

📌Лицензирование: Apache 2.0 License.

🟡

Статья

🟡

Arxiv

🖥

Github

@ai_machinelearning_big_data

#AI #ML #HRM #SapientInc

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7🔥4❤2🥰1

1.55K views11:02

Машинное обучение RU

🧠 PyPOTS — специализированный инструмент для работы с временными рядами, содержащими пропущенные значения. Этот Python-пакет предлагает готовые реализации современных алгоритмов машинного обучения, адаптированных для неполных данных. При этом он фокусируется именно на проблемах частично наблюдаемых временных рядов.

Проект включает модели для импутации, классификации, кластеризации и обнаружения аномалий. Инструмент обладает минимальными требованиями к предварительной обработке данных и встроенную поддержку оптимизации гиперпараметров через Microsoft NNI.

🤖 GitHub

@machinelearning_ru

❤8👍2🔥1

1.76K views10:01

Машинное обучение RU

Forwarded from Machinelearning

1:53

This media is not supported in your browser

VIEW IN TELEGRAM

🌟

NVIDIA научила роботов-манипуляторов учиться на собственных ошибках при захвате объектов.

Научить робота уверенно брать предметы - это, кажется, вечная тема в робототехнике. Несмотря на десятилетия исследований, надежные и универсальные системы захвата до сих пор остаются скорее теорией, чем реальностью.

Стоит копнуть глубже стандартных демо, и выясняется, что на сложных бенчмарках, FetchBench например, точность лучших систем едва дотягивает до 20%. Это фундаментальный барьер, мешающий внедрять роботов в реальные, неструктурированные среды.

🟡

И вот, похоже, NVIDIA предложила решение этой проблемы.

GraspGen - фреймворк для генерации 6-DOF захватов, который не только показывает SOTA результаты, но и вводит новый, крайне интересный подход к обучению.

В его основе лежит связка из генератора на базе Diffusion Transformer и дискриминатора, знакомая всем по GAN-ам архитектура, но с важным отличием.

Генератор, получив на вход облако точек объекта, предлагает множество вариантов захвата, а дискриминатор оценивает их качество и отсеивает неудачные.

И вот тут-то и кроется основная идея, которую в NVIDIA назвали «On-Generator Training». Вместо того чтобы обучать дискриминатор на заранее собранном офлайн-датасете из "хороших" и "плохих" захватов, его учат непосредственно на тех ошибках, которые генерирует его подопечный - диффузионная модель.

Иными словами, дискриминатор становится экспертом не в захватах вообще, а в типичных промахах конкретного генератора. Он учится распознавать и отбраковывать именно те ложноположительные варианты, которые сам генератор считает удачными, но которые на самом деле приведут к провалу. Такой подход создает мощную и целенаправленную обратную связь.

🟡

Подкреплено все это работой с данными.

Разработчики выпустили симулированный датасет, содержащий более 53 млн. примеров захватов для 3 разных типов манипуляторов, включая параллельные захваты и вакуумные присоски.

🟡

На практике, в тестах, цифры говорят сами за себя.

В симуляции на сете ACRONYM GraspGen показывает AUC (площадь под кривой точность-покрытие) 0.94, это больше ближайших конкурентов на 48%.

На комплексном бенче FetchBench он обошел предыдущих лидеров M2T2 и Contact-GraspNet на 7.8% и 16.9% соответственно.

Но самое главное - это тесты на реальном железе. В экспериментах с роботом UR10 в зашумленной среде GraspGen достиг общей успешности в 81.3%, в то время как M2T2 и AnyGrasp показали лишь 52.6% и 63.7%.

🟡

NVIDIA выложила в открытый доступ весь инструментарий.

Код, веса моделей и датасет уже доступны на GitHub и Hugging Face.

Авторы позаботились об энтузиастах: есть подробные инструкции по установке через Docker или pip, готовые демо-скрипты, позволяющие визуализировать захваты для своих облаков точек или 3D-моделей буквально в несколько команд.

Более того, GraspGen изначально спроектирован как модульная и расширяемая система. Разработчики предоставляют подробный туториал, который объясняет, как генерировать данные и обучать модели для совершенно новых объектов и, что важнее, новых типов манипуляторов, реализуя принцип BYOD.

🟡

В планах на будущее

Интеграция с симулятором Isaac Lab для еще более продвинутой генерации данных и возможность дообучения на реальных данных.

📌Лицензирование кода: NVIDIA Research Licensing.

📌Лицензирование датасета : CC-BY-4.0 License.

🟡

🟡

🟡

🟡

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #Robotics #GraspGen #NVIDIA

Please open Telegram to view this post

VIEW IN TELEGRAM