Neurohive - Нейронные сети, AI, ML, DL
4.5K subscribers
233 photos
41 videos
1.4K links
Нейросети - свежие новости. State-of-the-art модели и методы, AI, Deep learning, Big data, Machine learning, NLP, Computer vision
Website: neurohive.io/ru/
По вопросам сотрудничества: @cyrud
Download Telegram
Nemotron-4 — LLM модель размером 340B от Nvidia

По тестам она составила паритет c GPT-4 по всем задачам, кроме переписывания текста. NLP-специалисты пересказали главное из статей, где рассказывается об устройстве модели: про особенности этапа претрейна, SFT-датасеты и собственный метод NVIDIA RPO.

#StateoftheArt
Как Алиса освоила казахский язык

ML-разработчики Яндекса поделились пошаговым описанием обучения Алисы новому языку. А также рассказали про сложности, с которыми столкнулись в процессе. У команды вышел довольно тернистый лингвистический путь.

#Stateoftheart
OmniCast – это новая нейросетевая технология Яндекса в составе Метеума для повышения точности прогноза температуры.

Сделать прогнозирование максимально точным позволило подключение к факторам сбора данных от любительских метеостанций. Благодаря этому сервис стал получать сведения в 36 раз чаще, то есть каждые пять минут.

В районах с плотным покрытием такими станциями Яндекс Погода сможет прогнозировать температуру с точностью до квартала.

#Stateoftheart
Ученые из UC Berkeley и Google DeepMind продемонстрировали метод, позволяющий LLM улучшать свои результаты за счёт оптимизации вычислений на этапе инференса. Вместо увеличения размера модели, они достигли повышения производительности в 4 раза с использованием моделей вознаграждения верификатора и адаптивного обновления распределения ответов. Метод Lookahead Search, лучевой поиск на k-шагов вперед, позволил компактным моделям превосходить более крупные, даже при 14-кратной разнице в размере параметров.

Возможность LLM улучшать свои ответы, используя больше вычислений на этапе тестирования - важный шаг к созданию самоулучшающихся агентов, способных работать с открытым естественным языком.

#Stateoftheart
This media is not supported in your browser
VIEW IN TELEGRAM
Mini-Omni — первая открытая языковая модель, которая умеет "говорить, думая", позволяя вести диалог голосом с минимальной задержкой ответа и без использования внешних text-to-speech моделей.

Метод Any Model Can Talk позволяет внедрить speech-to-speech способности в другие языковые модели. Проект доступен на GitHub и Hugging Face.

#Stateoftheart
Специалисты из китайского интернет-холдинга Tencent изучили, как работают законы масштабирования в больших моделях последовательных рекомендаций, и выпустили об этом статью — ее краткий разбор сделали ML-щики из Яндекса.

Так, для SR исследователи масштабировали декодер трансформера и вносили изменения в стратегии обучения. Как оказалось, закон об увеличении качества рекомендаций вместе с увеличением числа обучаемых параметров работает в этом случае даже при ограниченном количестве данных.

#Stateoftheart
Salesforce выложил в open source семейство моделей xLAM (Large Action Models), предназначенных для оптимизации и автоматизации рабочих процессов отдела продаж. В отличие от LLMs, которые изначально созданы для генерации текста, xLAM выполняют также задачи вызова функций (function-calling), что позволяет обновлять CRM-системы, управлять заявками на поддержку клиентов и выполнять другие задачи автономно.

xLAM-7B(fc) опережает GPT-4-turbo, LLama 3 70B Instruct в задачах вызова функций с итоговой точностью 86%. xLAM-1B обогнал Claude 3 Haiku и другие крупные модели.

Модели xLAM-1B, xLAM-7B и xLAM-8x22B доступны на Hugging Face для исследовательских целей.

#Stateoftheart
OpenAI представила семейство моделей o1 - следующее поколение моделей GPT. Модели o1-preview и o1-mini разработаны для решения сложных логических задач. OpenAI рекомендует избегать CoT (цепочки решений) в промтах, модель и так будет следовать этому методу, показывая цепочку принятия решений. Подписчики Plus и Team уже могут получить доступ к моделям o1 в ChatGPT с ограничениями.

o1-preview решила 83% задач на отборочном этапе Международной математической олимпиады (IMO). У GPT-4 результат был 13 (!) процентов. В кодинге модель показала результат 89% на Codeforce.

В твиттере уже публикуют, как o1 «щелкает» каверзные задачки на логику, например, какое число больше - 9.9 или 9.11.

Выравнивание тоже улучшили: o1 набрала 84% было в тестах на взлом, против 22% у GPT-4. Создание нежелательного контента усложнится.

o1-mini — это более упрощенная версия o1-preview, разработанная для быстрого и дешевого выполнения логических задач, она на 80% дешевле o1-preview.

#Stateoftheart
Исследовательский центр «Сильный ИИ в промышленности» ИТМО провел анализ Open Source решений в сфере машинного обучения и обработки данных в России. На основе опроса экспертов и изучения статистики GitHub и PyPI, ученые определили ключевых игроков среди отечественных разработчиков открытого программного обеспечения. Результаты показали, что Яндекс занимает первое место по большинству критериев, а за ним следуют Сбер и Т-банк.

Яндекс лидирует с 120 открытыми решениями. Топ-3 проектов компании: CatBoost (библиотека градиентного бустинга), YTsaurus (платформа для больших данных) и YDB (распределённая SQL база данных). Отдельно отмечен ClickHouse — проект, созданный в Яндексе, но развивающийся независимо с 2021 года, а также новые проекты — YaFSDP, Gravity UI, Diplodoc и DataLens.

Исследование показало, что российские разработчики нацелены не только на внутренний, но и на международный рынок. Эксперты отмечают, что тезис «вклад в опенсорс — помощь конкурентам» уходит в прошлое — компании всё больше ориентированы на развитие отрасли в целом.

#Stateoftheart
🎧 EzAudio — диффузная модель генерации аудио на основе текста (T2A), разработанная исследователями из Tencent AI Lab и Университета Джонса Хопкинса. EzAudio может использоваться для реальных задач генерации музыки и звуковых эффектов. Демо модели и API доступно на Hugging Face. На тестах EzAudio превосходит open-source модели генерации аудио.

EzAudio использует вариационный автокодировщик (VAE) на основе 1D волновой формы, вместо традиционных 2D спектрограмм. В основе модели лежит архитектура диффузионного трансформера для обработки латентных представлений аудиоданных.

📍 Примеры и описание модели

#Stateoftheart
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Molmo — семейство открытых мультимодальных моделей Vision-Language (VLM), разработанных исследователями из Allen Institute for AI и Университета Вашингтона.

Исследователи опубликовали 4 модели:
- MolmoE-1B, основанная на OLMoE-1B-7B mixture-of-experts LLM;
- Molmo-7B-O, на основе OLMo-7B-1024 LLM.5;
- Molmo-7B-D, на основе Qwen2 7B LLM;
- Molmo-72B, на базе Qwen2 72B LLM.

Флагманская модель Molmo-72 набрала 81.2% на 11 академических бенчмарках, обогнав всех конкурентов, и заняла второе место по человеческим предпочтениям, уступив только GPT-4o.

Таких результатов удалось достичь во многом благодаря датасету PixMo-Cap, содержащему 712,000 изображений и 1,3 миллиона аннотаций, собранных на основе описаний реальных людей, без использования синтетических данных.

Код и веса моделей доступны на Huggingface. Для доступа к датасету необходимо подать запрос.

#Stateoftheart
MinerU - open-source модель для извлечения и структурирования контента из документов, представленная исследователями из Лаборатории Искусственного Интеллекта Шанхая. MinerU извлекает тексты, формулы, таблицы и изображения из научных статей, учебных пособий, финансовых отчетов (всего 11 типов документов), преобразуя их в форматы Markdown и JSON. MinerU использует многомодульную архитектуру, основанную на PDF-Extract-Kit.

Moneru показала результат 77,6% mAP для научных статей против 52,8% для DocXchain; 87,7% AP50 для научных статей против 60,1% для Pix2Text-MFD; 0,968 CDM против с 0,951 у коммерческой Mathpix.

Проект опубликован на Github.

#StateoftheArt
Яндекс выпустил более мощное семейство языковых моделей — YandexGPT 4

Ответы YandexGPT 4 Pro в 70% случаев лучше своей предыдущей версии. Новое семейство моделей умеет обрабатывать более сложные запросы, работать с расширенным контекстом, поддерживает скрытые рассуждения и вызов функций для работы с внешними инструментами. На Хабре разработчики Яндекса уже рассказали, как оценивали качество модели и обучали ее.

#StateoftheArt
🤗 Hugging Face выпустила SmolLM v.2 — семейство открытых компактых языковых моделей, которые обходят Llama3.2-1B и Qwen2.5-1B на большинстве бенчмарков, например, HellaSwag: 69.3% (Llama3.2: 61.4%), ARC: 60.8% (Llama3.2: 48.3%), PIQA: 77.6% (Llama3.2: 74.4%). Доступны версии модели с 135M, 360M и 1.7B параметров. Модель была обучена на 11 триллионах токенов и 256 H100 GPUs. Выпускается под лицензией Apache 2.0.

SmolLM2 подходит для запуска на мобильных устройствах, поддерживает следование инструкциям, умеет переписывать текст, делать саммари и работать с функциями. Однако модель работает преимущественно с английским языком.

#StateoftheArt
End-to-end multi-objective, совмещенный с дистилляцией - решение для ранжирования от Airbnb.

В контексте долгосрочного роста платформы важно не только предсказание конверсии, но и её исхода. При этом традиционные подходы к ранжированию страдают из-за дисбаланса данных. Решение, которое предлагают исследователи Airbnb, подобно разобрали ML-спецы.

#Stateoftheart
FinRobot: открытый мультиагентный фреймворк для анализа рынка акций

Исследователи AI4Finance Foundation представили открытую модель FinRobot — фреймворк AI-агентов, разработанный для анализа рынка акций. FinRobot объединяет количественный и качественный анализ через трехуровневый подход Chain of Thought (CoT). Модель опубликована в открытом доступе на Github.

FinRobot обрабатывает отчеты SEC (годовые 10-K и квартальные 10-Q), корпоративные релизы, отчеты о прибыли, отраслевые исследования, новости рынка в реальном времени и использует альтернативные источники данных. Группа аналитиков инвестиционных банков высоко оценила ответы модели в точности - 9.5/10, логичности - 9.4/10 и качестве повествования (8.4/10).

#StateoftheArt
NVIDIA представила X-MeshGraphNet - открытый Physics-ML фреймворк для создания сложных физических симуляций на основе графовых нейросетей. X-MeshGraphNet - это расширение модели MeshGraphNet от Deepmind, и он доступен в репозитории NVIDIA Modulus.

X-MeshGraphNet простраивает пользовательские графы напрямую из CAD-файлов вместо генерации 3D-мэша на этапе инференса и разбивает графы на halo-области для масштабируемой обработки. Исследователи проверили производительность на трех репрезентативных сэмплах (100, 300 и 500) из датасета DrivAerML: модель успешно предсказала разпределение давления воздуха и паттерны пристеночного сдвигового напряжения.

#StateoftheArt
ArtAug - мультиагентный открытый фреймворк для улучшения генерации изображений без добавления вычислительных ресурсов на этапе инференса, представленный исследователями из Alibaba.

В основе ArtAug мультиагентная система Chain of Thought. Неявно усвоенные моделями понимания изображений человеческие предпочтения используются, чтобы давать рекомендации модели генерации изображений. Так улучшается, например, регулировка экспозиции, композиция и объекты окружения. В результате у модели FLUX.1-dev эстетическая оценка улучшилась с 6.35 до 6.81, PickScore вырос с 42.22 до 57.78, а MPS score увеличился с 47.52 до 52.48.

Исходный код и предобученные модели доступны под лицензией Apache 2.0.

#StateoftheArt #Development
MiniMax опубликовал модель MiniMax-01 с 456 миллиардами параметров. Языковая модель MiniMax-Text-01 стабильно обходит GPT-4o и Gemini-2 на бенчмарках с длинным контекстом, сохраняя высокие оценки (0.910-0.963) при длине контекста до 4M токенов. Модель доступна через Hailou chat и по API, веса выложены на Github.

MiniMax-01 отличается от традиционных архитектур Transformer благодаря применению механизма Lightning Attention. Модель содержит 456 миллиардов параметров, 45.9 из них активируются на инференсе. Разработчики использовали гибридную структуру механизма внимания: 7 слоев Lightning Attention (линейное внимание) и 1 традиционный слой SoftMax attention.

На бенчмарках с контекстом больше 128K Minimax-01 показывает стабильные оценки 0.947-0.910, превосходя всех конкурентов: у Gemini-2.0-Flash результат падает с 0.960 до 0.709 на 512k токенах.

#StateoftheArt
ByteDance и POSTECH представили токенизатор TA-TiTok (Text-Aware Transformer-based 1-Dimensional Tokenizer), новый подход к увеличению производительности text-to-image моделей. Маскированная генеративная модель MaskGen с токенизотором TA-TiTok достигла SOTA для text-to-image моделей, обучаясь только открытых данных. Исследователи опубликовали код и веса модели на Github.

TA-TiTok интегрирует текстовую информацию на этапе детокенизации, ускоряя сходимость и улучшая производительность. Модель обучается в один этап. TA-TiTok использует как дискретные (VQ), так и непрерывные (KL) форматы токенов. При помощи текстового энкодера CLIP достигается семантическое соответствие между генерируемыми изображениями и текстовыми описаниями.

MaskGen-L 548M и MaskGen-XL 1,1B — это генеративные модели, которые использует токенизацию TA-TiTok для преобразования текста в изображение. MaskGen-XL требует всего 2% времени обучения по сравнению с SD-2.1 при достижении лучших оценок: FID 7,51 и 6,53 на MJHQ-30K.

#StateoftheArt