Neurohive - Нейронные сети, AI, ML, DL

0:04

NVIDIA представила обновления экосистемы Isaac для разработки роботов: генерацию синтетических сред с продвинутой физикой и усовершенствованное тестирование моделей на всех этапах разработки.

Isaac Sim 5.0 будет доступен на GitHub до конца квартала. Интеграция с сервисом NVIDIA Brev, рынком облачных провайдеров GPU, позволит разработчикам найти наиболее подходящего по соотношению цены и качества. Обучение на облачных GPU Nvidia ускорит циклы итераций благодаря развертыванию в один клик.

Улучшена симуляция датчиков глубины и моделирование шума для стереокамер, чтобы карты глубины с шумовыми характеристики были аналогичны данным с реальных сенсоров.

Обновленное моделирование трения в «суставах» роботов, определенное через OpenUSD, дает более точную симуляцию движений роботов в реальном мире.

Agility Robotics, Boston Dynamics, Fourier уже используют эти технологии Nvidia для обучения роботов.

#Stateoftheart

👍3🤯2❤1🥰1

1.99K views12:13

Visual-ARFT: открытый метод обучения AI-агентов обходит GPT-4o в мультимодальных задачах

Исследователи обучали модель Qwen2.5-VL двум сценариям:
Агентный поиск: модель планирует, декомпозирует исходную задачу и извлекает информацию из внешних источников для ответа на сложные мультимодальные многошаговые VQA вопросы.
Агентное программирование: модель рассуждает о задаче, пишет и выполняет код для обработки изображений и решения сложных задач визуального анализа.

Visual-ARFT использует модульную систему верифицируемых вознаграждений:
Format Reward учит соблюдать четкий формат выходных данных, включая теги <think>, <search>, <code> и <answer>. Это стимулирует структурированное пошаговое рассуждение и корректное использование инструментов.
Accuracy Rewards оценивают качество ответов, используя F1-score, оценивая семантическое сходство поисковых запросов и выполнимость сгенерированного кода.

На MAT-Coding модель Qwen2.5-VL-7B с Visual-ARFT достигает улучшений +18.56% F1 и +13.00% EM по сравнению с базовой версией, превосходя GPT-4o.
На MAT-Search та же модель демонстрирует прирост +10.28% F1 и +8.66% EM.

Код доступен на Github.

#Stateoftheart

👍4🔥1👏1

5.41K views08:15

Работаете с ML?

Наверняка вам знакома ситуация, когда проведение простого эксперимента превращается в неэффективный и дорогой процесс. Неподходящая или “собранная вручную” инфраструктура, отсутствие трекинга и логирования, разрозненные окружения и пайплайны…

Решения Selectel для ваших ML-задач помогут справиться с этими проблемами:
▪️ Серверы с разными типами GPU под конкретные задачи — выделенные и облачные, с видеокартами NVIDIA (Tesla T4, A2, A30, A100, A2000, A5000);
▪️Готовые серверы с набором преднастроенных инструментов для ML и анализа данных;
▪️ ML- и Inference- платформы — быстрое обучение и развертывание моделей в несколько кликов.

Инфраструктура размещена в России: низкие задержки, поддержка на русском языке, соответствие 152-ФЗ.

Если хотите выстроить инфраструктуру для ML на базе публичного облака Selectel, перенесите свой проект в Selectel и получите до 30 000 бонусов на тестирование облачных сервисов в течение месяца.

Регистрируйтесь по ссылке

Реклама, АО «Селектел», ИНН 7810962785, erid:2VtzqvinKoa

❤2

2.07K views13:05

1:14

Mistral AI представил Agents API — фреймворк для создания автономных AI-агентов со встроенными коннекторами, постоянной памятью и возможностями оркестрации. Разработчики могут создавать неограниченнное число агентов и выстраивать пайплайны для взаимодействия между ними.

Agents API включает пять встроенных коннекторов: для генерации изображений и кода на Python, работы с документами, веб-поиска и интеграции в внешними системами через MCP-протокол.

Примеры реализации агентов: агент-программист с интеграцией GitHub для автоматизированной разработки, агент-аналитик для извлечения метрик и компиляции отчетов, турагент для планирования поездок, агент-нутрициолог для управления диетой.

Передача задач между агентами позволяет решать сложные задачи через координацию нескольких агентов. Например, финансовый агент передает задачу поиска данных веб-агенту, а затем получает результаты обратно для анализа.

Цены: Mistral Medium 3 — $0.4/$2 за миллион input/output токенов, Web Search и Code Execution — $30 за 1,000 вызовов, Image Generation — $100 за 1,000 изображений.

#Development

👍6❤1

2.08K viewsedited 06:03

Исследователи Microsoft опубликовали On-Policy RL with Optimal reward baseline (OPO) - метод обучения с подкреплением на основе человеческих предпочтений, который решает проблемы современных RL-моделей: генерация однообразных ответов, непредсказуемые изменения между обновлениями и снижение производительности. Код этого упрощенного агортима выравнивания выложен на Github.

On-policy принцип означает, что градиенты вычисляются на данных, собранных текущей политикой, то есть формулой вероятностного распределения, которую модель назначает ответам y для выхода x. Слабые on-policy ограничения приводят к использованию данных от предыдущих версий политики, что технически делает обучение off-policy. В результате модель генерирует очень похожие, однообразные ответы, слишком резко меняет свое поведение между обновлениями и даже ухудшает свои исходные способности.

Стандартный пайплайн RLHF включает контролируемое дообучение и часто использует алгоритм Proximal Policy Optimization (PPO), управляемый обученной моделью вознаграждения. В отличие от PPO, который собирает батч данных с текущей политикой и затем выполняет множественные обновления градиентов на этом фиксированном батче, строгое on-policy обучение гарантирует, что каждый шаг градиента вычисляется с использованием свежих данных, сэмплированных с текущей политики.

Также команда разработала математически оптимальный бейзлайн, который минимизирует дисперсию градиента.

Строгое on-policy обучение превзошло обучение off-policy (55.42% против 53.50% на AIME 2024), демонстрируя при этом более стабильную, эффективную динамику обучения с меньшими повторениями и большим разнообразием ответов.

#StateoftheArt

👍4🔥2❤1

1.89K views07:13

0:59

MiniCPM4: открытая локальная модель достигает производительности Qwen3-8B при 7-кратном ускорении инференса

MiniCPM4-8B достигает сопоставимой с Qwen3-8B производительности (80.35 против 81.36 на MMLU), при этом для обучения требуется в 4.5 раза меньше токенов: 8 триллионов против 36. На локальных устройствах MiniCPM4 работает в 7 раз быстрее Qwen3-8B при генерации ответов для 128K-токенных последовательностей.

Архитектура модели получила новый механизм InfLLM v2 — обучаемое разреженное внимание, которое ускоряет как предварительное заполнение (prefilling), так и декодирование для длинных контекстов.

Фреймворк инференса интегрирует разреженное внимание, квантизацию модели и спекулятивную выборку. FR-Spec сокращает словарь на 75% для ускорения черновой генерации, P-GPTQ обеспечивает квантизацию с учетом префикса, а ArkInfer поддерживает кросс-платформенное развертывание.

Система фильтрации UltraClean использует предобученную 1B модель для оценки качества данных через двухэтапный процесс постепенного снижения скорости обучения, классификатор FastText обрабатывает 15T токенов за 1,000 CPU-часов против 6,000 GPU-часов у традиционных подходов.

Алгоритмы обучения были улучшены через ModelTunnel v2, который использует ScalingBench как индикатор производительности, устанавливая сигмоидную связь между функцией потерь и качеством выполнения последующих задач. Поблочное развертывание дает 60% снижение времени сэмплирования.

Модели MiniCPM0.5B и MiniCPM8B выпущены под лицензией Apache 2.0 и доступны на GitHub, а веса выложены на Hugging Face.

#StateoftheArt

👍6❤2⚡1🔥1

1.97K viewsedited 09:34

0:02

Show-o2: открытая мультимодальная 7B модель обходит 14B-модели на бенчмарках, используя в разы меньше данных для обучения

Исследователи из Сингапура и ByteDance представили Show-o2 — 1.5B и 7B мультимодальные модели для задач понимания и генерации изображений и видео. Show-o2 использует улучшенную архитектуру с dual-path механизмом, которая позволяет 7B модели превосходить 14B модели, используя в 2-3 раза меньше обучающих данных по сравнению с конкурентами. Код модели доступен на Github.

В основе архитектуры Show-o2 лежит принципиально новый подход к созданию унифицированных визуальных представлений. Модель использует трехмерное каузальное VAE пространство, которое масштабируемо поддерживает как изображения, так и видео через механизм двойной (dual-path) обработки пространственно-временного слияния (Spatial(-Temporal) Fusion).

Унифицированное визуальное представление строится через комбинацию семантических слоев и проектора. Семантические слои, основанные на архитектуре SigLIP с новым слоем встраивания патчей размером 2×2, извлекают высокоуровневые контекстуальные представления. Проектор сохраняет полную низкоуровневую информацию из визуальных скрытых представлений.

7B версия показывает результат 1620.5 на MME-p, 48.9 на MMMU-val, 86.14 на DPG-Bench и превосходит модель TokenFlow-XL 14B, используя при этом всего 66 миллионов обучающих пар против 144 миллионов у Janus-Pro.

Show-o2 основаны на моделях Qwen2.5-1.5B-Instruct и Qwen2.5-7B-Instruct с 3D causal VAE. Обучение 1.5B модели занимает приблизительно 1.5 дня на 64 H100 GPU, в то время как 7B модель требует около 2.5 суток на 128 H100 GPU.

#Stateoftheart

👍5🔥3⚡1❤1

2.05K views09:35

0:45

Рекомендательные системы стали заложником проклятия качественного насыщения

The curse of quality saturation — это проблема, с которой сейчас столкнулись люди, разрабатывающие рекомендательные системы. Данных для обучения слишком много, и ленты уже настолько хороши, что их эффективность замедляется.

Одним из путей решения проблемы инженер рекомендательных систем Яндекса Николай Савушкин видит публикацию больших рекомендательных датасетов. Чтобы нивелировать разрыв между академическим сообществом и индустрией, Яндекс выложил в опенсорс Yambda.

#Dataset

👍2

1.6K views15:35

Фреймворк TreeQuest: адаптивные команды LLM превосходят отдельные модели на 30%

Исследователи из Sakana AI представили Adaptive Branching Monte Carlo Tree Search (AB-MCTS) — новый подход к созданию "команд мечты" из больших языковых моделей, который позволяет им динамически сотрудничать для решения сложных задач. Метод превосходит отдельные модели на 30% на сложнейшем бенчмарке ARC-AGI-2. Метод реализован в открытом фреймворке TreeQuest, где AB-MCTS используется для объединения нескольких моделей в один пайплайн.

AB-MCTS решает проблему внедрения неограниченного ветвления в древовидный поиск ответа, не фиксируя ширину как статический гиперпараметр. В отличие от методов, которые работают только вширь (repeated sampling), только вглубь (sequential refinement), или с фиксированной шириной (standard MCTS), AB-MCTS динамически решает, расширяться ли наружу или углубляться, объединяя оба направления поиска. Метод использует GEN-узлы для представления генерации новых дочерних узлов. При выборе GEN-узла метод расширяет родительский узел, добавляя нового потомка.

Multi-LLM AB-MCTS был протестирован на ARC-AGI-2 — одном из самых сложных бенчмарков для AI, требующем человекоподобного визуального мышления. Команда использовала три frontier-модели: o4-mini, Gemini 2.5 Pro и DeepSeek-R1-0528. Комада из моделей смогла найти правильные решения для более чем 30% из 120 тестовых задач — результат, значительно превосходящий любую отдельную модель.

Наиболее впечатляющим стало решение "нерешаемых" задач — проблем, недоступных отдельным моделям. Неправильное решение одной модели служило подсказкой для других, которые анализировали ошибку и получали верный ответ.

TreeQuest выпущен под лицензией Apache 2.0 и доступен на Github.

#Stateoftheart

🔥6👍3

1.61K views09:56