Neurohive - Нейронные сети, AI, ML, DL
4.68K subscribers
263 photos
52 videos
1.42K links
Нейросети - свежие новости. State-of-the-art модели и методы, AI, Deep learning, Big data, Machine learning, NLP, Computer vision
Website: neurohive.io/ru/
По вопросам сотрудничества: @cyrud
Download Telegram
End-to-end multi-objective, совмещенный с дистилляцией - решение для ранжирования от Airbnb.

В контексте долгосрочного роста платформы важно не только предсказание конверсии, но и её исхода. При этом традиционные подходы к ранжированию страдают из-за дисбаланса данных. Решение, которое предлагают исследователи Airbnb, подобно разобрали ML-спецы.

#Stateoftheart
👍3😁1
FinRobot: открытый мультиагентный фреймворк для анализа рынка акций

Исследователи AI4Finance Foundation представили открытую модель FinRobot — фреймворк AI-агентов, разработанный для анализа рынка акций. FinRobot объединяет количественный и качественный анализ через трехуровневый подход Chain of Thought (CoT). Модель опубликована в открытом доступе на Github.

FinRobot обрабатывает отчеты SEC (годовые 10-K и квартальные 10-Q), корпоративные релизы, отчеты о прибыли, отраслевые исследования, новости рынка в реальном времени и использует альтернативные источники данных. Группа аналитиков инвестиционных банков высоко оценила ответы модели в точности - 9.5/10, логичности - 9.4/10 и качестве повествования (8.4/10).

#StateoftheArt
👍5🔥1
NVIDIA представила X-MeshGraphNet - открытый Physics-ML фреймворк для создания сложных физических симуляций на основе графовых нейросетей. X-MeshGraphNet - это расширение модели MeshGraphNet от Deepmind, и он доступен в репозитории NVIDIA Modulus.

X-MeshGraphNet простраивает пользовательские графы напрямую из CAD-файлов вместо генерации 3D-мэша на этапе инференса и разбивает графы на halo-области для масштабируемой обработки. Исследователи проверили производительность на трех репрезентативных сэмплах (100, 300 и 500) из датасета DrivAerML: модель успешно предсказала разпределение давления воздуха и паттерны пристеночного сдвигового напряжения.

#StateoftheArt
👍6🔥2
ArtAug - мультиагентный открытый фреймворк для улучшения генерации изображений без добавления вычислительных ресурсов на этапе инференса, представленный исследователями из Alibaba.

В основе ArtAug - мультиагентная система Chain of Thought. Неявно усвоенные моделями понимания изображений человеческие предпочтения используются, чтобы давать рекомендации модели генерации изображений. Так улучшается, например, регулировка экспозиции, композиция и объекты окружения. В результате у модели FLUX.1-dev эстетическая оценка улучшилась с 6.35 до 6.81, PickScore вырос с 42.22 до 57.78, а MPS score увеличился с 47.52 до 52.48.

Исходный код и предобученные модели доступны под лицензией Apache 2.0.

#StateoftheArt #Development
👍72🔥2
MiniMax опубликовал модель MiniMax-01 с 456 миллиардами параметров. Языковая модель MiniMax-Text-01 стабильно обходит GPT-4o и Gemini-2 на бенчмарках с длинным контекстом, сохраняя высокие оценки (0.910-0.963) при длине контекста до 4M токенов. Модель доступна через Hailou chat и по API, веса выложены на Github.

MiniMax-01 отличается от традиционных архитектур Transformer благодаря применению механизма Lightning Attention. Модель содержит 456 миллиардов параметров, 45.9 из них активируются на инференсе. Разработчики использовали гибридную структуру механизма внимания: 7 слоев Lightning Attention (линейное внимание) и 1 традиционный слой SoftMax attention.

На бенчмарках с контекстом больше 128K Minimax-01 показывает стабильные оценки 0.947-0.910, превосходя всех конкурентов: у Gemini-2.0-Flash результат падает с 0.960 до 0.709 на 512k токенах.

#StateoftheArt
👍7🔥2
ByteDance и POSTECH представили токенизатор TA-TiTok (Text-Aware Transformer-based 1-Dimensional Tokenizer), новый подход к увеличению производительности text-to-image моделей. Маскированная генеративная модель MaskGen с токенизотором TA-TiTok достигла SOTA для text-to-image моделей, обучаясь только открытых данных. Исследователи опубликовали код и веса модели на Github.

TA-TiTok интегрирует текстовую информацию на этапе детокенизации, ускоряя сходимость и улучшая производительность. Модель обучается в один этап. TA-TiTok использует как дискретные (VQ), так и непрерывные (KL) форматы токенов. При помощи текстового энкодера CLIP достигается семантическое соответствие между генерируемыми изображениями и текстовыми описаниями.

MaskGen-L 548M и MaskGen-XL 1,1B — это генеративные модели, которые использует токенизацию TA-TiTok для преобразования текста в изображение. MaskGen-XL требует всего 2% времени обучения по сравнению с SD-2.1 при достижении лучших оценок: FID 7,51 и 6,53 на MJHQ-30K.

#StateoftheArt
👍54
Stepfun AI представила Step-Video-T2V, text-to-video модель с 30B параметров, способную генерировать видео длиной до 204 кадров с разрешением 544x992. Модель принимает промпты на китайском и английском языках. Метод VideoVAE позволил достичь сжатия 16x16 (по сравнению с 2x-4x в стандарте H.264, принятом в индустриии). Видео с разрешением 768x768px генерируются за 860-1437 секунд в зависимости от оптимизации.

Архитектура модели включает VideoVAE для глубокого сжатия с сохранением качества видео, DiT (Diffusion Transformer) с 48 слоями для обработки сжатых данных, двойные текстовые энкодеры для обработки английского и китайского языков.

Модель выложена в открытый доступ на Github, Hugging Face и ModelScope, есть веб-версия.

Рекомендуется иметь 4 GPU с 80GB памяти для запуска. Квантизированная турбо модель работает на GPU с 24GB памяти.

#Stateoftheart
👍7🤯4🤔3
R1-Onevision: открытая мультимодальная 7B модель обходит GPT4o в математике и рассуждениях

Модель построена на базе Qwen2.5-VL-Instruct дообученной с помощью библиотеки LLama Factory. Два ключевых компонента метода:
- датасет R1-Onevision, созданный с помощью DeepSeek-R1 для созданий цепочек рассуждений и GPT-4o для оценки качества и создания формальных репрезентаций, Grounding DINO для предоставления пространственных координат объектов и EasyOCR для извлечения текста из изображений.
- фреймворк Rule-Based RL объединяет традиционные методы обучения с подкреплением с явными правилами. Подход кодирует экспертные рассуждения в формальные правила, которым следует модель. Так модель следует цепочкам рассуждений, которые доказали свою эффективность при решении сложных задач.

R1-Onevision 7B обходит GPT-4o, GPT-4V и Qwen2.5-VL-7B на бенчмарке Mathverse и представленном авторами модели бенчмарке R1-Onevision-Bench.

Датасет, бенчмарк и код модели доступны на GitHub, Hugging Face, есть веб-демо.

#Stateoftheart
👍6🤔31
Метод Chain-of-Experts повышает эффективность MoE моделей, снижая потребление памяти до 42%

CoE фундаментально изменяет обработку информации в разреженных (sparse) языковых моделях и, конкретно, Mixture-of-Experts моделях, раскрывая возможности для эффективного масштабирования. Так CoE уменьшил потребление памяти модели DeepSeekV2-Lite 0.5B на 17-42%. На других тестах CoE с 4 слоями показывает одинаковую производительность с традиционной MoE с 8 слоями.

MoE-модели сталкиваются с двумя важными ограничениями - эксперты обрабатывают информацию независимо с минимальной коммуникацией, а разреженные схемы активации требовательны к GPU-ресурсам. В CoE реализован итеративный механизм, решающий обе проблемы:
- Вместо параллельной обработки эксперты работают последовательно, формируя зависимости между экспертами;
- Выбор экспертов на каждой итерации определяется выходными данными предыдущей итерации;
- Информация накапливается в процессе итераций, обеспечивая явную коммуникацию между экспертами.

Код решения опубликован на Github.

#Stateoftheart
🔥74
NVIDIA представила семейство открытых моделей Llama Nemotron с продвинутыми возможностями в задачах рассуждения. Сложный трехступенчатый процесс обучения моделей Llama позволил улучшить их точность на 20% при достижении в 5 раз большей скорости инференса. Llama Nemotron специализированы для задач математики, программирования, рассуждений и принятия сложных решений.

Модель Llama 3.1 Nemotron Nano 8B построена на базе Llama-3.1-8B-Instruct, имеет архитектуру плотного декодер-трансформера с длиной контекста 128K. Подходит для локальной работы.

Модель Llama 3.3 Nemotron Super 49B - это дообученная Llama-3.3-70B-Instruct, улучшенная с помощью Neural Architecture Search c cохранением длины контекста 128K. Улучшения включают skip attention и вариационный FFN. Эта архитектура специально оптимизирована для работы на одном GPU H100-80GB.

На тестах модель Llama Nemotron Super 49B показывает лучшие результаты во всех тестируемых категориях, обходя DeepSeek R1. На MATH 500 точность 96%, на Arena Hard результат 88%. При этом модель обеспечивает в 5 раз более высокую пропускную способность - около 3000 токенов в секунду, превосходя конкурентов как в точности, так и в производительности.

Модели доступны на build.nvidia.com и Hugging Face.

#StateoftheArt
👍113
This media is not supported in your browser
VIEW IN TELEGRAM
MedSAM2  - модель сегментации медицинских 3D-изображений и видео, построенная на базе модели SAM2.1-Tiny. MedSAM2 - полностью открытая модель: исследователи выложили код, веса модели и аннотированные датасеты на Github и HF.

Модель использует иерархический трансформер (Hiera) с модулем внимания памяти, потоковый "банк" памяти, который обусловливает признаки текущего кадра на основе предсказаний предыдущих кадров и подход transfer-learning с дифференцированными скоростями обучения.

MedSAM2 превосходит SOTA модели EfficientMedSAM-Top1 на 5-13%, SAM2.1 на 7-18% в задачах сегментации 3D-сканов и на 2-9% для видео.

Возможно, наибольший вклад MedSAM2 – это ее практическое применение в аннотации данных. Исследователи реализовали пайплайн аннотации с человеком в цикле (human-in-the-loop), сократив время аннотации для:
- снимков КТ с 525.9 секунд до 74.3 секунд на поражение (на 86%);
- поражений печении на МРТ - на 87%;
- видео эхокардиографии - на 92%.

#Stateoftheart
🔥6👍4
Microsoft представила модель Phi-4-reasoning с 14 миллиардами параметров, которая в задачах рассуждения показывает результаты на уровне DeepSeek-R1 (671B параметров), и превосходит o1-mini и DeepSeek-R1-Distill-Llama-70B на большинстве бенчмарков. Модель доступна через репозиторий Microsoft на HF, а в GitHub Models можно протестировать ее в playground или интегрировать через GitHub API.

Phi-4-reasoning сохранила архитектуру базовой модели Phi-4, с двумя ключевыми модификациями. Команда назначила плейсхолдер-токены в виде маркеров <think> и </think> для разграничения секций рассуждения, позволяя модели явно отделять процесс мышления от финального ответа. Длина контекста расширена с 16K до 32K токенов, что предоставило пространство для развёрнутых цепочек рассуждений.

Для обучения модели команда тщательно отобрала более 1,4 миллиона пар "запрос-ответ», сосредоточившись на задачах, требующих многоэтапного рассуждения, а не простого воспроизведения фактов. Улучшения в способностях к рассуждению распространились за пределы специализированных задач и усилили общий интеллект модели.

#Stateoftheart
👍8
ZEROSEARCH: открытый фреймворк, снижающий затраты на обучение LLM поиску на 88%

ZEROSEARCH основан на ключевом наблюдении: LLM уже приобрели обширные общие знания в процессе предварительного обучения и способны генерировать релевантные документы в ответ на поисковые запросы. Cвежие подходы сталкиваются с двумя проблемами: непредсказуемым качеством документов из поисковых систем и высокими затратами на API при обучении.

Фреймворк Zerosearch включает три ключевых компонента:
1. Симуляция поисковой системы: через supervised fine-tuning LLM генерирует как релевантные ответы, так и зашумленные документы путем изменения нескольких слов в промпте.
2. Во время RL-тренировки ZEROSEARCH использует стратегию curriculum-based rollout, которая постепенно снижает качество генерируемых документов. Подход последовательно развивает способность модели к рассуждению, прибегая ко всё более сложным сценариям.
3. Низкие затраты на обучение по сравнению с использованием коммерческих поисковых API. Реализация подхода требует GPU-инфраструктуры, но он снижает затраты на обучение на 88%.

В результате 7B-модель достигла производительности, сравнимой с использованием реальной поисковой системы для обучения. Модель с 14B параметров превосходит производительность модели, обученной на данных из реальной поисковой системы сразу на нескольких бенчмарках.

Исследователи опубликовали в открытом доступе реализацию кода, датасеты и предварительно обученные модели.

#StateoftheArt
👍7
NVIDIA представила обновления экосистемы Isaac для разработки роботов: генерацию синтетических сред с продвинутой физикой и усовершенствованное тестирование моделей на всех этапах разработки.

Isaac Sim 5.0 будет доступен на GitHub до конца квартала. Интеграция с сервисом NVIDIA Brev, рынком облачных провайдеров GPU, позволит разработчикам найти наиболее подходящего по соотношению цены и качества. Обучение на облачных GPU Nvidia ускорит циклы итераций благодаря развертыванию в один клик.

Улучшена симуляция датчиков глубины и моделирование шума для стереокамер, чтобы карты глубины с шумовыми характеристики были аналогичны данным с реальных сенсоров.

Обновленное моделирование трения в «суставах» роботов, определенное через OpenUSD, дает более точную симуляцию движений роботов в реальном мире.

Agility Robotics, Boston Dynamics, Fourier уже используют эти технологии Nvidia для обучения роботов.

#Stateoftheart
👍3🤯21🥰1
Visual-ARFT: открытый метод обучения AI-агентов обходит GPT-4o в мультимодальных задачах

Исследователи обучали модель Qwen2.5-VL двум сценариям:
Агентный поиск: модель планирует, декомпозирует исходную задачу и извлекает информацию из внешних источников для ответа на сложные мультимодальные многошаговые VQA вопросы.
Агентное программирование: модель рассуждает о задаче, пишет и выполняет код для обработки изображений и решения сложных задач визуального анализа.

Visual-ARFT использует модульную систему верифицируемых вознаграждений:
Format Reward учит соблюдать четкий формат выходных данных, включая теги <think>, <search>, <code> и <answer>. Это стимулирует структурированное пошаговое рассуждение и корректное использование инструментов.
Accuracy Rewards оценивают качество ответов, используя F1-score, оценивая семантическое сходство поисковых запросов и выполнимость сгенерированного кода.

На MAT-Coding модель Qwen2.5-VL-7B с Visual-ARFT достигает улучшений +18.56% F1 и +13.00% EM по сравнению с базовой версией, превосходя GPT-4o.
На MAT-Search та же модель демонстрирует прирост +10.28% F1 и +8.66% EM.

Код доступен на Github.

#Stateoftheart
👍4🔥1👏1
Исследователи Microsoft опубликовали On-Policy RL with Optimal reward baseline (OPO) - метод обучения с подкреплением на основе человеческих предпочтений, который решает проблемы современных RL-моделей: генерация однообразных ответов, непредсказуемые изменения между обновлениями и снижение производительности. Код этого упрощенного агортима выравнивания выложен на Github.

On-policy принцип означает, что градиенты вычисляются на данных, собранных текущей политикой, то есть формулой вероятностного распределения, которую модель назначает ответам y для выхода x. Слабые on-policy ограничения приводят к использованию данных от предыдущих версий политики, что технически делает обучение off-policy. В результате модель генерирует очень похожие, однообразные ответы, слишком резко меняет свое поведение между обновлениями и даже ухудшает свои исходные способности.

Стандартный пайплайн RLHF включает контролируемое дообучение и часто использует алгоритм Proximal Policy Optimization (PPO), управляемый обученной моделью вознаграждения. В отличие от PPO, который собирает батч данных с текущей политикой и затем выполняет множественные обновления градиентов на этом фиксированном батче, строгое on-policy обучение гарантирует, что каждый шаг градиента вычисляется с использованием свежих данных, сэмплированных с текущей политики.

Также команда разработала математически оптимальный бейзлайн, который минимизирует дисперсию градиента.

Строгое on-policy обучение превзошло обучение off-policy (55.42% против 53.50% на AIME 2024), демонстрируя при этом более стабильную, эффективную динамику обучения с меньшими повторениями и большим разнообразием ответов.

#StateoftheArt
👍4🔥21
This media is not supported in your browser
VIEW IN TELEGRAM
MiniCPM4: открытая локальная модель достигает производительности Qwen3-8B при 7-кратном ускорении инференса

MiniCPM4-8B достигает сопоставимой с Qwen3-8B производительности (80.35 против 81.36 на MMLU), при этом для обучения требуется в 4.5 раза меньше токенов: 8 триллионов против 36. На локальных устройствах MiniCPM4 работает в 7 раз быстрее Qwen3-8B при генерации ответов для 128K-токенных последовательностей.

Архитектура модели получила новый механизм InfLLM v2 — обучаемое разреженное внимание, которое ускоряет как предварительное заполнение (prefilling), так и декодирование для длинных контекстов.

Фреймворк инференса интегрирует разреженное внимание, квантизацию модели и спекулятивную выборку. FR-Spec сокращает словарь на 75% для ускорения черновой генерации, P-GPTQ обеспечивает квантизацию с учетом префикса, а ArkInfer поддерживает кросс-платформенное развертывание.

Система фильтрации UltraClean использует предобученную 1B модель для оценки качества данных через двухэтапный процесс постепенного снижения скорости обучения, классификатор FastText обрабатывает 15T токенов за 1,000 CPU-часов против 6,000 GPU-часов у традиционных подходов.

Алгоритмы обучения были улучшены через ModelTunnel v2, который использует ScalingBench как индикатор производительности, устанавливая сигмоидную связь между функцией потерь и качеством выполнения последующих задач. Поблочное развертывание дает 60% снижение времени сэмплирования.

Модели MiniCPM0.5B и MiniCPM8B выпущены под лицензией Apache 2.0 и доступны на GitHub, а веса выложены на Hugging Face.

#StateoftheArt
👍621🔥1
Show-o2: открытая мультимодальная 7B модель обходит 14B-модели на бенчмарках, используя в разы меньше данных для обучения

Исследователи из Сингапура и ByteDance представили Show-o2 — 1.5B и 7B мультимодальные модели для задач понимания и генерации изображений и видео. Show-o2 использует улучшенную архитектуру с dual-path механизмом, которая позволяет 7B модели превосходить 14B модели, используя в 2-3 раза меньше обучающих данных по сравнению с конкурентами. Код модели доступен на Github.

В основе архитектуры Show-o2 лежит принципиально новый подход к созданию унифицированных визуальных представлений. Модель использует трехмерное каузальное VAE пространство, которое масштабируемо поддерживает как изображения, так и видео через механизм двойной (dual-path) обработки пространственно-временного слияния (Spatial(-Temporal) Fusion).

Унифицированное визуальное представление строится через комбинацию семантических слоев и проектора. Семантические слои, основанные на архитектуре SigLIP с новым слоем встраивания патчей размером 2×2, извлекают высокоуровневые контекстуальные представления. Проектор сохраняет полную низкоуровневую информацию из визуальных скрытых представлений.

7B версия показывает результат 1620.5 на MME-p, 48.9 на MMMU-val, 86.14 на DPG-Bench и превосходит модель TokenFlow-XL 14B, используя при этом всего 66 миллионов обучающих пар против 144 миллионов у Janus-Pro.

Show-o2 основаны на моделях Qwen2.5-1.5B-Instruct и Qwen2.5-7B-Instruct с 3D causal VAE. Обучение 1.5B модели занимает приблизительно 1.5 дня на 64 H100 GPU, в то время как 7B модель требует около 2.5 суток на 128 H100 GPU.

#Stateoftheart
👍5🔥311
Фреймворк TreeQuest: адаптивные команды LLM превосходят отдельные модели на 30%

Исследователи из Sakana AI представили Adaptive Branching Monte Carlo Tree Search (AB-MCTS) — новый подход к созданию "команд мечты" из больших языковых моделей, который позволяет им динамически сотрудничать для решения сложных задач. Метод превосходит отдельные модели на 30% на сложнейшем бенчмарке ARC-AGI-2. Метод реализован в открытом фреймворке TreeQuest, где AB-MCTS используется для объединения нескольких моделей в один пайплайн.

AB-MCTS решает проблему внедрения неограниченного ветвления в древовидный поиск ответа, не фиксируя ширину как статический гиперпараметр. В отличие от методов, которые работают только вширь (repeated sampling), только вглубь (sequential refinement), или с фиксированной шириной (standard MCTS), AB-MCTS динамически решает, расширяться ли наружу или углубляться, объединяя оба направления поиска. Метод использует GEN-узлы для представления генерации новых дочерних узлов. При выборе GEN-узла метод расширяет родительский узел, добавляя нового потомка.

Multi-LLM AB-MCTS был протестирован на ARC-AGI-2 — одном из самых сложных бенчмарков для AI, требующем человекоподобного визуального мышления. Команда использовала три frontier-модели: o4-mini, Gemini 2.5 Pro и DeepSeek-R1-0528. Комада из моделей смогла найти правильные решения для более чем 30% из 120 тестовых задач — результат, значительно превосходящий любую отдельную модель.

Наиболее впечатляющим стало решение "нерешаемых" задач — проблем, недоступных отдельным моделям. Неправильное решение одной модели служило подсказкой для других, которые анализировали ошибку и получали верный ответ.

TreeQuest выпущен под лицензией Apache 2.0 и доступен на Github.

#Stateoftheart
🔥6👍3
Gemini 2.5 Pro показала уровень золотого медалиста на Международной математической олимпиаде IMO 2025, решив 5 из 6 задач

Решения олимпиадных задач требуют глубокого понимания, креативности и навыков формального рассуждения. Китайские исследователи использовали Google Gemini 2.5 Pro на опубликованных задачах олимпиады IMO 2025.

Исследователи использовали пайплайн агентов с верификатором, который опубликовали на Github:
1. Генерация начального решения с акцентом на строгость доказательств;
2. Самосовершенствование: пересмотр решения, выявление слабых мест и улучшение ответа;
3. Верификация решения и создание отчета об ошибках;
4. Анализ отчета об ошибках, исправление и улучшение решения;
5. Принятие или отклонение решения.
Этапы 3-4-5 повторяются итеративно.

Ключевые принципы промптинга:
- Каждый шаг должен быть логически обоснован;
- Лучше представить частичный, но строгий результат;
- Использование верстки TeX;
- Структурированный формат ответа с резюме и детальным решением.

Контекст Gemini 2.5 Pro ограничен 32768 токенами, что недостаточно для решения задач IMO, поэтому исследователи разбивали решение на этапы для продолжения рассуждения.

Модель успешно решила 5 задач: из комбинаторной и аналитической геометрии, теории чисел, анализа рекуррентных последовательностей, теории игр.

Gemini 2.5 Pro не справилась с задачей 6 на комбинаторную оптимизацию. В задаче о минимальном числе плиток на сетке 2025×2025, где необходимо, чтобы в каждой строке и столбце был ровно один непокрытый квадрат, модель сообщила только тривиальную верхнюю границу 4048. Это решение оказалось неоптимальным. Неспособность найти более точную оценку указывает на ограничения текущих LLM в задачах дискретной оптимизации высокой размерности.

Результат подчеркивает важность разработки оптимальных стратегий для использования полного потенциала мощных LLM в сложных задачах рассуждения.

#Stateoftheart
👍4🔥3