Neurohive - Нейронные сети, AI, ML, DL
4.63K subscribers
245 photos
44 videos
1.41K links
Нейросети - свежие новости. State-of-the-art модели и методы, AI, Deep learning, Big data, Machine learning, NLP, Computer vision
Website: neurohive.io/ru/
По вопросам сотрудничества: @cyrud
Download Telegram
ByteDance и POSTECH представили токенизатор TA-TiTok (Text-Aware Transformer-based 1-Dimensional Tokenizer), новый подход к увеличению производительности text-to-image моделей. Маскированная генеративная модель MaskGen с токенизотором TA-TiTok достигла SOTA для text-to-image моделей, обучаясь только открытых данных. Исследователи опубликовали код и веса модели на Github.

TA-TiTok интегрирует текстовую информацию на этапе детокенизации, ускоряя сходимость и улучшая производительность. Модель обучается в один этап. TA-TiTok использует как дискретные (VQ), так и непрерывные (KL) форматы токенов. При помощи текстового энкодера CLIP достигается семантическое соответствие между генерируемыми изображениями и текстовыми описаниями.

MaskGen-L 548M и MaskGen-XL 1,1B — это генеративные модели, которые использует токенизацию TA-TiTok для преобразования текста в изображение. MaskGen-XL требует всего 2% времени обучения по сравнению с SD-2.1 при достижении лучших оценок: FID 7,51 и 6,53 на MJHQ-30K.

#StateoftheArt
Статья, опубликованная на канале ProAI, рассматривает вопрос о том, как языковые модели обрабатывают разные языки, учитывая, что они обучаются преимущественно на английских текстах. Исследователи из EPFL провели эксперимент с моделями семейства Llama-2, используя методику Logit lens для анализа скрытых состояний модели.

Результаты показали, что обработка информации в модели проходит через три фазы: сначала идёт этап с высокой энтропией, где строятся представления входных токенов без доминирования какого-либо языка; затем наступает фаза с низкой энтропией, где доминирует английский язык и формируются абстрактные концепции; и наконец, на последнем этапе происходит генерация ответа на целевом языке. Исследователи пришли к выводу, что у языковых моделей есть своего рода "родной язык", но это не английский, а язык концепций, хотя английский и остаётся опорным языком из-за преобладания в обучающих данных.
Adobe выпустила в публичный доступ модель генерации видео Firefly, разработанную для коммерческого использования. Firefly решает ключевые проблемы бизнеса, связанные с авторскими правами: она обучена исключительно на лицензированных материалах Adobe Stock и общедоступных данных, не нарушающих авторские права.

Возможности модели:
- Генерация видео из текста и изображений в 1080p;
- Профессиональное управление камерой с динамическими траекториями и фиксацией кадров;
- Преобразование 3D-эскизов и референсная структура сцен;
- Поддержка перевода аудио и видео на 20+ языков с переносом голоса;
- Интеграция с Adobe Creative Cloud.

Firefly демонстрирует лучшие для себя результаты в генерации пейзажей, погодных явлений, анимации животных и элементов моушн-дизайна. Однако генерация людей остается областью для дальнейших улучшений.

Варианты подписки: $9.99/месяц (2000 кредитов, или около 20 видео 1080p по 5 секунд каждое) и $29.99/месяц (7 000 кредитов). Бесплатно доступно две генерации.

#AIapps
Stepfun AI представила Step-Video-T2V, text-to-video модель с 30B параметров, способную генерировать видео длиной до 204 кадров с разрешением 544x992. Модель принимает промпты на китайском и английском языках. Метод VideoVAE позволил достичь сжатия 16x16 (по сравнению с 2x-4x в стандарте H.264, принятом в индустриии). Видео с разрешением 768x768px генерируются за 860-1437 секунд в зависимости от оптимизации.

Архитектура модели включает VideoVAE для глубокого сжатия с сохранением качества видео, DiT (Diffusion Transformer) с 48 слоями для обработки сжатых данных, двойные текстовые энкодеры для обработки английского и китайского языков.

Модель выложена в открытый доступ на Github, Hugging Face и ModelScope, есть веб-версия.

Рекомендуется иметь 4 GPU с 80GB памяти для запуска. Квантизированная турбо модель работает на GPU с 24GB памяти.

#Stateoftheart
R1-Onevision: открытая мультимодальная 7B модель обходит GPT4o в математике и рассуждениях

Модель построена на базе Qwen2.5-VL-Instruct дообученной с помощью библиотеки LLama Factory. Два ключевых компонента метода:
- датасет R1-Onevision, созданный с помощью DeepSeek-R1 для созданий цепочек рассуждений и GPT-4o для оценки качества и создания формальных репрезентаций, Grounding DINO для предоставления пространственных координат объектов и EasyOCR для извлечения текста из изображений.
- фреймворк Rule-Based RL объединяет традиционные методы обучения с подкреплением с явными правилами. Подход кодирует экспертные рассуждения в формальные правила, которым следует модель. Так модель следует цепочкам рассуждений, которые доказали свою эффективность при решении сложных задач.

R1-Onevision 7B обходит GPT-4o, GPT-4V и Qwen2.5-VL-7B на бенчмарке Mathverse и представленном авторами модели бенчмарке R1-Onevision-Bench.

Датасет, бенчмарк и код модели доступны на GitHub, Hugging Face, есть веб-демо.

#Stateoftheart
Метод Chain-of-Experts повышает эффективность MoE моделей, снижая потребление памяти до 42%

CoE фундаментально изменяет обработку информации в разреженных (sparse) языковых моделях и, конкретно, Mixture-of-Experts моделях, раскрывая возможности для эффективного масштабирования. Так CoE уменьшил потребление памяти модели DeepSeekV2-Lite 0.5B на 17-42%. На других тестах CoE с 4 слоями показывает одинаковую производительность с традиционной MoE с 8 слоями.

MoE-модели сталкиваются с двумя важными ограничениями - эксперты обрабатывают информацию независимо с минимальной коммуникацией, а разреженные схемы активации требовательны к GPU-ресурсам. В CoE реализован итеративный механизм, решающий обе проблемы:
- Вместо параллельной обработки эксперты работают последовательно, формируя зависимости между экспертами;
- Выбор экспертов на каждой итерации определяется выходными данными предыдущей итерации;
- Информация накапливается в процессе итераций, обеспечивая явную коммуникацию между экспертами.

Код решения опубликован на Github.

#Stateoftheart
NVIDIA представила семейство открытых моделей Llama Nemotron с продвинутыми возможностями в задачах рассуждения. Сложный трехступенчатый процесс обучения моделей Llama позволил улучшить их точность на 20% при достижении в 5 раз большей скорости инференса. Llama Nemotron специализированы для задач математики, программирования, рассуждений и принятия сложных решений.

Модель Llama 3.1 Nemotron Nano 8B построена на базе Llama-3.1-8B-Instruct, имеет архитектуру плотного декодер-трансформера с длиной контекста 128K. Подходит для локальной работы.

Модель Llama 3.3 Nemotron Super 49B - это дообученная Llama-3.3-70B-Instruct, улучшенная с помощью Neural Architecture Search c cохранением длины контекста 128K. Улучшения включают skip attention и вариационный FFN. Эта архитектура специально оптимизирована для работы на одном GPU H100-80GB.

На тестах модель Llama Nemotron Super 49B показывает лучшие результаты во всех тестируемых категориях, обходя DeepSeek R1. На MATH 500 точность 96%, на Arena Hard результат 88%. При этом модель обеспечивает в 5 раз более высокую пропускную способность - около 3000 токенов в секунду, превосходя конкурентов как в точности, так и в производительности.

Модели доступны на build.nvidia.com и Hugging Face.

#StateoftheArt
This media is not supported in your browser
VIEW IN TELEGRAM
Anthropic выпустил версию Claude for Education, разработанную специально для внедрения в университетах. Learning mode использует сократовский метод диалога, задавая уточняющие и наводящие вопросы и помогая студентам развивать критическое мышление.

Модель обучена на наборах диалогов студентов и преподавателей. Функция вознаграждения стимулирует генерацию наводящих вопросов вместо прямых ответов. Сначала модель выполняет стандартное предсказание ответа, затем включается дополнительный классификатор, определяющий, следует ли трансформировать ответ в сократический формат. Если да, активируется сеть переформулирования, которая превращает прямой ответ в серию наводящих вопросов.

В модели используется расширенный chain-of-thought промптинг с явной токенизацией промежуточных шагов рассуждения. Это позволяет модели в деталях демонстрировать процесс решения.

Northeastern University в Бостоне стал первым партнером Anthropic: внедрение охватывает все 13 кампусов и обеспечивает доступ к Claude для 50 000 студентов, преподавателей и сотрудников. Компания запустила программу Campus Ambassadors для студентов, желающих использовать Claude в своих кампусах, и предлагает API-кредиты для студенческих проектов.

#AIapps
Последние дни регистрации на IT_ONE Cup. ML Challenge.

Создай AI-ассистента, который будет помогать в работе дизайнерам, системным и бизнес-аналитикам. Победители разделят призовой фонд в 1 500 000 рублей. Все участники смогут выиграть крутой мерч и приглашение в магистратуру ИТМО.

Регистрация открыта до 13 апреля включительно: https://cnrlink.com/itonecupmlneuro

Причины участвовать:
Достаточно создать Proof of concept сервиса, а не полноценный MVP.
Применишь свои знания в машинном обучении, обработке естественного языка и компьютерном зрении на практике.
Узнаешь самые действенные подходы к решению задач от экспертов.
Хватит базовых навыков в ML и желания экспериментировать – задачи не требуют обучения моделей с нуля.

На IT_ONE Cup. ML Challenge ты:
— Поработаешь с современными технологиями: LLM, NLP, RAG, MCP.
— Создашь AI-инструмент, который упростит работу других специалистов.
— Сможешь попасть в магистратуру ИТМО на факультет Программной инженерии и компьютерной техники. Число приглашений не ограничено – шанс будет у каждого.

Треки соревнования:
1. Динамические контекстные подсказки для системного аналитика.
2. AI-генератор дизайн-макетов по описанию требований.
3. Система визуализации BPMN-диаграмм.

Регистрируйся до 13 апреля включительно: https://cnrlink.com/itonecupmlneuro
Please open Telegram to view this post
VIEW IN TELEGRAM