Neurohive - Нейронные сети, AI, ML, DL
4.68K subscribers
263 photos
52 videos
1.42K links
Нейросети - свежие новости. State-of-the-art модели и методы, AI, Deep learning, Big data, Machine learning, NLP, Computer vision
Website: neurohive.io/ru/
По вопросам сотрудничества: @cyrud
Download Telegram
Microsoft представила модель Phi-4-reasoning с 14 миллиардами параметров, которая в задачах рассуждения показывает результаты на уровне DeepSeek-R1 (671B параметров), и превосходит o1-mini и DeepSeek-R1-Distill-Llama-70B на большинстве бенчмарков. Модель доступна через репозиторий Microsoft на HF, а в GitHub Models можно протестировать ее в playground или интегрировать через GitHub API.

Phi-4-reasoning сохранила архитектуру базовой модели Phi-4, с двумя ключевыми модификациями. Команда назначила плейсхолдер-токены в виде маркеров <think> и </think> для разграничения секций рассуждения, позволяя модели явно отделять процесс мышления от финального ответа. Длина контекста расширена с 16K до 32K токенов, что предоставило пространство для развёрнутых цепочек рассуждений.

Для обучения модели команда тщательно отобрала более 1,4 миллиона пар "запрос-ответ», сосредоточившись на задачах, требующих многоэтапного рассуждения, а не простого воспроизведения фактов. Улучшения в способностях к рассуждению распространились за пределы специализированных задач и усилили общий интеллект модели.

#Stateoftheart
👍8
ZEROSEARCH: открытый фреймворк, снижающий затраты на обучение LLM поиску на 88%

ZEROSEARCH основан на ключевом наблюдении: LLM уже приобрели обширные общие знания в процессе предварительного обучения и способны генерировать релевантные документы в ответ на поисковые запросы. Cвежие подходы сталкиваются с двумя проблемами: непредсказуемым качеством документов из поисковых систем и высокими затратами на API при обучении.

Фреймворк Zerosearch включает три ключевых компонента:
1. Симуляция поисковой системы: через supervised fine-tuning LLM генерирует как релевантные ответы, так и зашумленные документы путем изменения нескольких слов в промпте.
2. Во время RL-тренировки ZEROSEARCH использует стратегию curriculum-based rollout, которая постепенно снижает качество генерируемых документов. Подход последовательно развивает способность модели к рассуждению, прибегая ко всё более сложным сценариям.
3. Низкие затраты на обучение по сравнению с использованием коммерческих поисковых API. Реализация подхода требует GPU-инфраструктуры, но он снижает затраты на обучение на 88%.

В результате 7B-модель достигла производительности, сравнимой с использованием реальной поисковой системы для обучения. Модель с 14B параметров превосходит производительность модели, обученной на данных из реальной поисковой системы сразу на нескольких бенчмарках.

Исследователи опубликовали в открытом доступе реализацию кода, датасеты и предварительно обученные модели.

#StateoftheArt
👍7
NVIDIA представила обновления экосистемы Isaac для разработки роботов: генерацию синтетических сред с продвинутой физикой и усовершенствованное тестирование моделей на всех этапах разработки.

Isaac Sim 5.0 будет доступен на GitHub до конца квартала. Интеграция с сервисом NVIDIA Brev, рынком облачных провайдеров GPU, позволит разработчикам найти наиболее подходящего по соотношению цены и качества. Обучение на облачных GPU Nvidia ускорит циклы итераций благодаря развертыванию в один клик.

Улучшена симуляция датчиков глубины и моделирование шума для стереокамер, чтобы карты глубины с шумовыми характеристики были аналогичны данным с реальных сенсоров.

Обновленное моделирование трения в «суставах» роботов, определенное через OpenUSD, дает более точную симуляцию движений роботов в реальном мире.

Agility Robotics, Boston Dynamics, Fourier уже используют эти технологии Nvidia для обучения роботов.

#Stateoftheart
👍3🤯21🥰1
Visual-ARFT: открытый метод обучения AI-агентов обходит GPT-4o в мультимодальных задачах

Исследователи обучали модель Qwen2.5-VL двум сценариям:
Агентный поиск: модель планирует, декомпозирует исходную задачу и извлекает информацию из внешних источников для ответа на сложные мультимодальные многошаговые VQA вопросы.
Агентное программирование: модель рассуждает о задаче, пишет и выполняет код для обработки изображений и решения сложных задач визуального анализа.

Visual-ARFT использует модульную систему верифицируемых вознаграждений:
Format Reward учит соблюдать четкий формат выходных данных, включая теги <think>, <search>, <code> и <answer>. Это стимулирует структурированное пошаговое рассуждение и корректное использование инструментов.
Accuracy Rewards оценивают качество ответов, используя F1-score, оценивая семантическое сходство поисковых запросов и выполнимость сгенерированного кода.

На MAT-Coding модель Qwen2.5-VL-7B с Visual-ARFT достигает улучшений +18.56% F1 и +13.00% EM по сравнению с базовой версией, превосходя GPT-4o.
На MAT-Search та же модель демонстрирует прирост +10.28% F1 и +8.66% EM.

Код доступен на Github.

#Stateoftheart
👍4🔥1👏1
Работаете с ML?

Наверняка вам знакома ситуация, когда проведение простого эксперимента превращается в неэффективный и дорогой процесс. Неподходящая или “собранная вручную” инфраструктура, отсутствие трекинга и логирования, разрозненные окружения и пайплайны…

Решения Selectel для ваших ML-задач помогут справиться с этими проблемами:
▪️ Серверы с разными типами GPU под конкретные задачи — выделенные и облачные, с видеокартами NVIDIA (Tesla T4, A2, A30, A100, A2000, A5000);
▪️Готовые серверы с набором преднастроенных инструментов для ML и анализа данных;
▪️ ML- и Inference- платформы — быстрое обучение и развертывание моделей в несколько кликов.

Инфраструктура размещена в России: низкие задержки, поддержка на русском языке, соответствие 152-ФЗ.

Если хотите выстроить инфраструктуру для ML на базе публичного облака Selectel, перенесите свой проект в Selectel и получите до 30 000 бонусов на тестирование облачных сервисов в течение месяца.

Регистрируйтесь по ссылке

Реклама, АО «Селектел», ИНН 7810962785, erid:2VtzqvinKoa
2
This media is not supported in your browser
VIEW IN TELEGRAM
Mistral AI представил Agents API — фреймворк для создания автономных AI-агентов со встроенными коннекторами, постоянной памятью и возможностями оркестрации. Разработчики могут создавать неограниченнное число агентов и выстраивать пайплайны для взаимодействия между ними.

Agents API включает пять встроенных коннекторов: для генерации изображений и кода на Python, работы с документами, веб-поиска и интеграции в внешними системами через MCP-протокол.

Примеры реализации агентов: агент-программист с интеграцией GitHub для автоматизированной разработки, агент-аналитик для извлечения метрик и компиляции отчетов, турагент для планирования поездок, агент-нутрициолог для управления диетой.

Передача задач между агентами позволяет решать сложные задачи через координацию нескольких агентов. Например, финансовый агент передает задачу поиска данных веб-агенту, а затем получает результаты обратно для анализа.

Цены: Mistral Medium 3 — $0.4/$2 за миллион input/output токенов, Web Search и Code Execution — $30 за 1,000 вызовов, Image Generation — $100 за 1,000 изображений.

#Development
👍61
Исследователи Microsoft опубликовали On-Policy RL with Optimal reward baseline (OPO) - метод обучения с подкреплением на основе человеческих предпочтений, который решает проблемы современных RL-моделей: генерация однообразных ответов, непредсказуемые изменения между обновлениями и снижение производительности. Код этого упрощенного агортима выравнивания выложен на Github.

On-policy принцип означает, что градиенты вычисляются на данных, собранных текущей политикой, то есть формулой вероятностного распределения, которую модель назначает ответам y для выхода x. Слабые on-policy ограничения приводят к использованию данных от предыдущих версий политики, что технически делает обучение off-policy. В результате модель генерирует очень похожие, однообразные ответы, слишком резко меняет свое поведение между обновлениями и даже ухудшает свои исходные способности.

Стандартный пайплайн RLHF включает контролируемое дообучение и часто использует алгоритм Proximal Policy Optimization (PPO), управляемый обученной моделью вознаграждения. В отличие от PPO, который собирает батч данных с текущей политикой и затем выполняет множественные обновления градиентов на этом фиксированном батче, строгое on-policy обучение гарантирует, что каждый шаг градиента вычисляется с использованием свежих данных, сэмплированных с текущей политики.

Также команда разработала математически оптимальный бейзлайн, который минимизирует дисперсию градиента.

Строгое on-policy обучение превзошло обучение off-policy (55.42% против 53.50% на AIME 2024), демонстрируя при этом более стабильную, эффективную динамику обучения с меньшими повторениями и большим разнообразием ответов.

#StateoftheArt
👍4🔥21
This media is not supported in your browser
VIEW IN TELEGRAM
MiniCPM4: открытая локальная модель достигает производительности Qwen3-8B при 7-кратном ускорении инференса

MiniCPM4-8B достигает сопоставимой с Qwen3-8B производительности (80.35 против 81.36 на MMLU), при этом для обучения требуется в 4.5 раза меньше токенов: 8 триллионов против 36. На локальных устройствах MiniCPM4 работает в 7 раз быстрее Qwen3-8B при генерации ответов для 128K-токенных последовательностей.

Архитектура модели получила новый механизм InfLLM v2 — обучаемое разреженное внимание, которое ускоряет как предварительное заполнение (prefilling), так и декодирование для длинных контекстов.

Фреймворк инференса интегрирует разреженное внимание, квантизацию модели и спекулятивную выборку. FR-Spec сокращает словарь на 75% для ускорения черновой генерации, P-GPTQ обеспечивает квантизацию с учетом префикса, а ArkInfer поддерживает кросс-платформенное развертывание.

Система фильтрации UltraClean использует предобученную 1B модель для оценки качества данных через двухэтапный процесс постепенного снижения скорости обучения, классификатор FastText обрабатывает 15T токенов за 1,000 CPU-часов против 6,000 GPU-часов у традиционных подходов.

Алгоритмы обучения были улучшены через ModelTunnel v2, который использует ScalingBench как индикатор производительности, устанавливая сигмоидную связь между функцией потерь и качеством выполнения последующих задач. Поблочное развертывание дает 60% снижение времени сэмплирования.

Модели MiniCPM0.5B и MiniCPM8B выпущены под лицензией Apache 2.0 и доступны на GitHub, а веса выложены на Hugging Face.

#StateoftheArt
👍621🔥1
Show-o2: открытая мультимодальная 7B модель обходит 14B-модели на бенчмарках, используя в разы меньше данных для обучения

Исследователи из Сингапура и ByteDance представили Show-o2 — 1.5B и 7B мультимодальные модели для задач понимания и генерации изображений и видео. Show-o2 использует улучшенную архитектуру с dual-path механизмом, которая позволяет 7B модели превосходить 14B модели, используя в 2-3 раза меньше обучающих данных по сравнению с конкурентами. Код модели доступен на Github.

В основе архитектуры Show-o2 лежит принципиально новый подход к созданию унифицированных визуальных представлений. Модель использует трехмерное каузальное VAE пространство, которое масштабируемо поддерживает как изображения, так и видео через механизм двойной (dual-path) обработки пространственно-временного слияния (Spatial(-Temporal) Fusion).

Унифицированное визуальное представление строится через комбинацию семантических слоев и проектора. Семантические слои, основанные на архитектуре SigLIP с новым слоем встраивания патчей размером 2×2, извлекают высокоуровневые контекстуальные представления. Проектор сохраняет полную низкоуровневую информацию из визуальных скрытых представлений.

7B версия показывает результат 1620.5 на MME-p, 48.9 на MMMU-val, 86.14 на DPG-Bench и превосходит модель TokenFlow-XL 14B, используя при этом всего 66 миллионов обучающих пар против 144 миллионов у Janus-Pro.

Show-o2 основаны на моделях Qwen2.5-1.5B-Instruct и Qwen2.5-7B-Instruct с 3D causal VAE. Обучение 1.5B модели занимает приблизительно 1.5 дня на 64 H100 GPU, в то время как 7B модель требует около 2.5 суток на 128 H100 GPU.

#Stateoftheart
👍5🔥311
This media is not supported in your browser
VIEW IN TELEGRAM
Рекомендательные системы стали заложником проклятия качественного насыщения

The curse of quality saturation — это проблема, с которой сейчас столкнулись люди, разрабатывающие рекомендательные системы. Данных для обучения слишком много, и ленты уже настолько хороши, что их эффективность замедляется.

Одним из путей решения проблемы инженер рекомендательных систем Яндекса Николай Савушкин видит публикацию больших рекомендательных датасетов. Чтобы нивелировать разрыв между академическим сообществом и индустрией, Яндекс выложил в опенсорс Yambda.

#Dataset
👍2
Фреймворк TreeQuest: адаптивные команды LLM превосходят отдельные модели на 30%

Исследователи из Sakana AI представили Adaptive Branching Monte Carlo Tree Search (AB-MCTS) — новый подход к созданию "команд мечты" из больших языковых моделей, который позволяет им динамически сотрудничать для решения сложных задач. Метод превосходит отдельные модели на 30% на сложнейшем бенчмарке ARC-AGI-2. Метод реализован в открытом фреймворке TreeQuest, где AB-MCTS используется для объединения нескольких моделей в один пайплайн.

AB-MCTS решает проблему внедрения неограниченного ветвления в древовидный поиск ответа, не фиксируя ширину как статический гиперпараметр. В отличие от методов, которые работают только вширь (repeated sampling), только вглубь (sequential refinement), или с фиксированной шириной (standard MCTS), AB-MCTS динамически решает, расширяться ли наружу или углубляться, объединяя оба направления поиска. Метод использует GEN-узлы для представления генерации новых дочерних узлов. При выборе GEN-узла метод расширяет родительский узел, добавляя нового потомка.

Multi-LLM AB-MCTS был протестирован на ARC-AGI-2 — одном из самых сложных бенчмарков для AI, требующем человекоподобного визуального мышления. Команда использовала три frontier-модели: o4-mini, Gemini 2.5 Pro и DeepSeek-R1-0528. Комада из моделей смогла найти правильные решения для более чем 30% из 120 тестовых задач — результат, значительно превосходящий любую отдельную модель.

Наиболее впечатляющим стало решение "нерешаемых" задач — проблем, недоступных отдельным моделям. Неправильное решение одной модели служило подсказкой для других, которые анализировали ошибку и получали верный ответ.

TreeQuest выпущен под лицензией Apache 2.0 и доступен на Github.

#Stateoftheart
🔥6👍3
Gemini 2.5 Pro показала уровень золотого медалиста на Международной математической олимпиаде IMO 2025, решив 5 из 6 задач

Решения олимпиадных задач требуют глубокого понимания, креативности и навыков формального рассуждения. Китайские исследователи использовали Google Gemini 2.5 Pro на опубликованных задачах олимпиады IMO 2025.

Исследователи использовали пайплайн агентов с верификатором, который опубликовали на Github:
1. Генерация начального решения с акцентом на строгость доказательств;
2. Самосовершенствование: пересмотр решения, выявление слабых мест и улучшение ответа;
3. Верификация решения и создание отчета об ошибках;
4. Анализ отчета об ошибках, исправление и улучшение решения;
5. Принятие или отклонение решения.
Этапы 3-4-5 повторяются итеративно.

Ключевые принципы промптинга:
- Каждый шаг должен быть логически обоснован;
- Лучше представить частичный, но строгий результат;
- Использование верстки TeX;
- Структурированный формат ответа с резюме и детальным решением.

Контекст Gemini 2.5 Pro ограничен 32768 токенами, что недостаточно для решения задач IMO, поэтому исследователи разбивали решение на этапы для продолжения рассуждения.

Модель успешно решила 5 задач: из комбинаторной и аналитической геометрии, теории чисел, анализа рекуррентных последовательностей, теории игр.

Gemini 2.5 Pro не справилась с задачей 6 на комбинаторную оптимизацию. В задаче о минимальном числе плиток на сетке 2025×2025, где необходимо, чтобы в каждой строке и столбце был ровно один непокрытый квадрат, модель сообщила только тривиальную верхнюю границу 4048. Это решение оказалось неоптимальным. Неспособность найти более точную оценку указывает на ограничения текущих LLM в задачах дискретной оптимизации высокой размерности.

Результат подчеркивает важность разработки оптимальных стратегий для использования полного потенциала мощных LLM в сложных задачах рассуждения.

#Stateoftheart
👍4🔥3