эйай ньюз
73K subscribers
1.61K photos
859 videos
7 files
1.93K links
Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.

В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии.

Aвтор: @asanakoy

PR: @ssnowysnow
Download Telegram
Media is too big
VIEW IN TELEGRAM
ПРОЕКТ: МоЧА

Да, первого апреля только такие новости, но это настоящая... (Пощу с небольшим опозданием)

Можно сказать, это убийца Hedra. Кстати, статейка от ребят из моей команды в Мете.

Проект специализируется на генеративном липсинке по тексту и речи — и генерит не просто говорящую голову, а почти всё тело, включая руки. Это даёт гораздо более живой результат, так как подключается язык тела. Ещё научились делать целый диалог двух или даже более человек (диалог в формате «через плечо» с катом между кадрами, но консистентно). Хотя, примеров не дают.

Это обычная диффузионка, причём тренили без всяких примочек — чисто текст, видео и речь. Из минусов — то, что img2video нативно работать не будет, но потом возможно дотренируют Ещё интересно, что тренили в 4 стадии:
сначала претрейн на чистом text-to-video (примерно 20%, что дало больше динамики в кадре), затем только close-up, а потом потихоньку отдаляли камеру и увеличивали количество людей в кадре, т.к. несколько персонажей генерить сложнее. Ну и ещё изобрели speech-video window attention, которое ограничивает окно внимания модельки для более точного липсинка.

Генерация, конечно же не онлайн.

Пейпер
Project page

@ai_newz
Разработчики из ШАДа и Yandex B2B Tech создали реально работающий инструмент для экологов-практиков. Их нейросеть анализирует снимки с дронов и превращает их в детальную карту мусорных скоплений на побережьях — причём делает это с точностью выше 80%.

Работает хорошо даже в полевых условиях Камчатки. Алгоритм не только отмечает местоположение мусора, но и классифицирует его по шести типам: от рыболовных сетей до пластика. Благодаря этому волонтёры смогли точно рассчитать, что им понадобится 20 человек, пара самосвалов и погрузчик, причём на организацию ушло в 4 раза меньше времени. В итоге убрали 5 тонн мусора.

Код полностью выложен в открытый доступ, и любая экологическая организация может использовать это решение бесплатно. Особенно круто, что технология масштабируется на другие заповедники и может быть дообучена на новые типы отходов. Дальше планируют внедрить её в других труднодоступных регионах Дальнего Востока и Арктики, где каждая экспедиция — очень трудна в организации, и предварительная разведка жизненно необходима.

@ai_newz
Qwen 3 выйдет на следующей неделе

Об этом сообщают китайские СМИ. Команда Qwen точно хочет успеть релизнуть свою модель до Llama Con, который пройдёт 29 апреля. Судя по всему, семейство Qwen 3 целится сразу во все сегменты рынка и включает в себя сильно больше размеров — будут как и MoE модели, которые часто поражают своими размерами, так и мобильная моделька всего на 600m.

Над поддержкой везде работают заранее — код для моделей уже смержили в трансформеры пару дней назад. Хотя вот удивительно, что Qwen2.5 до сих пор не поддерживается в LMDeploy, в одном из самых быстрых inference движков.

Компания лишь недавно релизнула свою первую омни модель — Qwen 2.5 Omni 7B, так что Qwen 3 вряд-ли будет омнимодальным на релизе. А вот релизнуться сразу с VLM моделями им ничего не мешает. Про ризонеры пока что ничего не ясно, кроме того что они точно будут.

@ai_newz
Для Gemma 3 вышли официальные квантизированные версии

Квантизация это сейчас стандарт, мало кто будет запускать модели локально в нативных bf16 — большая часть пользователей использует 4 битную квантизацию. И тут проявляется большая проблема — модели, по большей части, выпускают в bfloat16 и совершенно не расчитывают, что кто-то когда-то будет их запускать как-то по-другому, из-за чего заметно страдает качество моделей при локальном использовании. Дело в том, что дешёвая Post-training квантизация, которая не требует тренировки, сильно просаживает качество.

Google специально дотренировали Gemma 3 с quantization aware training, чтобы таких проблем не было. Обещают "схожее качество" с bf16 моделями, но результатов бенчей не дали (а хотелось бы). Такой же релиз делала и Meta с Llama 3.2, правда только для 1B и 3B, а Google выпустил сразу всю линейку. А остальным авторам открытых моделей тоже стоит начать делать подобные релизы.

Скачать

@ai_newz
Midjourney v7 🥳

Долгожданная седьмая версия самого эстетичного генератора картинок вышла в релиз этим утром. С мультимодальной GPT-4o и Gemini тяжело бороться, но Midjourney явно нашли свою нишу среди эстетов.

Персонализация теперь включена по умолчанию. Чтобы сделать всё красиво, есть персонализация модели под конкретного пользовател. Ты рейтишь 200 пар картинок — и получаешь свою персонализированную модель, что-то вроде LoRA, но внутри самого Midjourney. Причём, если задаться целью, можно натюнить и на 10К картинок! За что, кстати, выдают бесплатные часы генерации, так что это ещё и выгодно — команда таким образом собирает бесплатную разметку для улучшения модели.

Более того, перед релизом 7-й версии провели аж 3 раунда публичного голосования за лучшие рандомные картинки, поэтому ожидайте от v7 ретро-эстетики и выгоревших под плёнку чёрных.

Редактировать по тексту она, конечно, не умеет. Да и генерить его тоже — для этого есть, выше упомянутые, Gemini и GPT-4o. В целом, если сравнивать картинки из 6-й и 7-й версии, то разница не слишком заметна, но последняя кажется глазу более реалистичной. Насчет следования промпту пока сказать тяжело, но говорят, что тоже обновился и улучшился + не нужно писать параграфы, как во флюксе.

Draft-режим мощно обновился — и это теперь режим, в котором будут сделаны 90% тестовых картинок, промпты из которых потом, по всей видимости, будут вставляться в standard-модель. Именно модель — ведь всё указывает на то, что draft — это дистилляция из старшей модели, потому что в этом режиме картинки генерятся в 10 раз быстрее, практически в реалтайме. Настолько быстро, что Midjourney добавили ГОЛОСОВОЙ РЕЖИМ! Причём он воспринимает голосовые инструкции, а внутренняя LLM интерпретирует их в промпт. Да, прямо как в ChatGPT.

К сожалению, ничего более не показали. Нет ощущения революшена, как от предыдущих версий. Остальные фичи, которых будет ещё очень много, выложат в течение следующих двух месяцев. Так что новая v7 ещё долго будет мелькать в инфополе. Обещают, что их новые style и object references — это разнос. Если им удастся передавать детали референсного объекта так же точно, как это делает LoRA для Flux’а или хотя бы GPT-4o, — это действительно революшен. Потому что только этого сейчас не хватает Midjourney — консистентности.

@ai_newz
Media is too big
VIEW IN TELEGRAM
Вот как работает режим Draft в MJ v7:

Он понимает не только английский, но и другие языки. Просто диктуешь, что изменить или добавить — проходит пара секунд, и у тебя уже новая картинка. Правда, он изменяет только промпт, а не редактирует саму картинку.

@ai_newz
Ушел гений.

Он хоть и не был в AI тусовке, но Паша – это просто легенда. Он был и остается одним из моих любимых иполнителей.

Дерзкий, харизматичный, по-своему остроумный — и плевать на корпоративную этику, моду и чужое мнение. Пошутил — кенты лежат со смеха, заговорил — слова разлетаются на цитаты (очень метко про него сказал Даня prnrp).

Безумно жаль, что больше не выйдет его новых треков. RIP.

@ai_newz
Cohere Command A - техрепорт

Вышел подробнейший техрепорто от Cohere, где они делятся рецептами по обучению современных LLM.

Модель Command A с 111B параметров разработана для специфических корпоративных задач, а не для конкуренции с frontier-моделями от Гугла и OpenAI. Модель вышла пару недель назад, а вот техрепорт только подоспел.

Вот ключевые моменты:
➡️ Цель Cohere: Создание умных, но эффективных моделей для корпоративных задач (RAG, многоязычность), которые можно развернуть локально (on-premise).
➡️ Архитектура: Стандартный плотный Transformer (SwiGLU, GQA), с 3:1 перемежающимися слоями локального и полного аттеншена (Gemma 3 использовала похожий трюк), но без позиционных эмбеддингов на full-attention и без bias.
➡️ Обучение: Используются muP, различные виды параллелизма, FP8-тренировка с последующим "отжигом" (annealing) в BF16 для восстановления производительности и постепенным увеличением контекста до 256K.
➡️ Слияние моделей (Merging):
Впервые кто-то из крупных игроков делится рецептами мерджинга. Они активно применяе слияник как на этапе SFT, так RL-тюна. Процесс: базовая instruct-модель -> 6 SFT-моделей по доменам (Код, RAG, Безопасность и т.д.) -> слияние -> 6 RL-моделей -> слияние -> финальный преференс тюн. Это упрощает разработку и позволило командам работать параллельно гад своими промежуточными моделями.
➡️ Данные: Основной упор на синтетические данные с оценкой людьми, с фокусом на RAG, использование инструментов (tool use), следование системным промптам и поддержку 23 языков.
➡️ Эффективность: Command A требует значительно меньше вычислительных ресурсов - модель можно засёрвить на 2x A100/H100 и бегает довольно шустро.

Статья хорошо написана и легко читается. Там много других интересных деталей, дополняющих техрепорт о Llama 3 своим акцентом на пост-тренировку. Маст рид для тех, кто занимается тренировкой современных LLM!

Тех Репорт

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥Llama 4 — Scout, Maverick и Behemoth

Все модели мультимодальные — нативно воспринимают текст, изображения и видео. Тренировали на 30 триллионах токенов, причём токенов с других языков теперь в 10x больше по сравнению с Llama 3. Идёт в трёх размерах:

Scout (109B)— модель с 10 млн токенов контекста, что рекорд для релизнутой модели. По бенчам бьёт Gemma 3 и Gemini 2.0 Flash Lite, слегка не дотягивая до полноценной Flash 2.0. Это MoE модель с 16 экспертами, 109B параметров при 17B активных. С квантизацией влезает в одну GPU.

Maverick (400B)— лучше Gemini 2.0 Flash с GPT 4o, примерно на одном уровне с обновлённым DeepSeek V3, но при этом модель мультимодальная и заметно меньше в размерах. Контекст — 1 миллион токенов, меньше чем у Scout, но сильно лучше чем у других конкурентов. Активных параметров всё те же 17B, но экспертов уже 128, поэтому и 400B параметров, Модель можно запустить в fp8 на одной ноде с 8xH100.

Behemoth — гигантская модель на два триллиона параметров (288B активных, 16 экспертов). Бьёт вообщё все Instruct модели с заметным отрывом. Бегемота ещё тренируют, но его ранние версии уже были дистиллированы в Scout и Maverick, что сильно бустануло их перформанс.

Это всё ещё Instruct релиз, но Llama 4 Reasoning тоже скоро будет.

Веса

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Нейродайджест за неделю (#63)

LLM
- Ждём Qwen 3 — будут модельки всех размеров от мобильных до гигантских.
- Квантизация Gemma 3 — официальные модельки обещают быть оптимизированны с минимальными потерями в качестве благодаря quantization aware training.
- Yandex GPT 5 Lite Instruct — выложили в опенсорс. Хороший прирост производительности.
- Техрепорт Cohere Command A — подробнейших текст о ллм для корпоративных задач.
- Llama 4 — две младшие модельки опубликовали с неплохими результатами, старшая ещё тренируется.
- Цены на Gemini 2.5 Pro — от $1.25 за инпут и от $10 за аутпут.

Генеративные модели
- GPT 4o на Image Арене — ТОП-1 вместе с Reve. Очень хороший результат для LLM.
- Runway GEN-4 — лучший генератор видео за доступную цену. Хуже чем VEO 2, но значительно превосходит (примеры: здесь) всех остальных конкурентов.
- Проект МоЧа — липсинкаем не только губы но и всю верхнюю часть тела.
- MidJourney v7 — самая красивая, но пока в раннем доступе, ждём когда покажут все фичи.
- Голосовой режим MidJourney — draft mode настолько быстрый, что генерит на лету по голосу.

> Читать дайджест #62

#дайджест
@ai_newz
LLM-ка A-Vibe, разработанная командой Авито, заняла первое место среди легких языковых моделей (до 10 млрд параметров) в независимом русскоязычном бенчмарке MERA. MERA — сборник 23 русскоязычных бенчмарков, с закрытым тест сетом у большей части (то есть никто не может тренировать на бенчах). A-Vibe обошла на таком бенче GPT-4o mini от OpenAI, Claude 3.5 Haiku от Anthropic, Gemma 3 27B от Google и другие популярные модели. На отдельных бенчах есть заметный отрыв и от моделей побольше.

Для обучения A-Vibe на начальном этапе взяли Qwen 2.5 7B и провели ее «русификацию», заменив стандартный токенизатор на собственный. Теперь модель способна обрабатывать русский язык в 2 раза быстрее и лучше понимает и генерирует текст — замена токенизатора и дополнительная тренировка позволила обогнать Qwen 2 72B на русском языке, что очень хорошо для 7B модели.

Технология уже интегрирована в сервисы Авито — помогает продавцам создавать продающие описания товаров и ускоряет процесс коммуникации в мессенджере платформы. Компания планирует до конца года внедрить 20 новых сценариев использования ИИ в своих сервисах. А в будущем планирует выпустить A-Vibe в опенсорс.

Чтобы увидеть актуальный рейтинг, в фильтре «Размер модели» нужно выбрать «≥5B — 10B». Это значит, что в рейтинг попадут модели размером от 5 до 10 миллиардов параметров. Цифры Human Benchmark — это реальные результаты людей. Языковые модели приближаются к этим значениям, но окончательно превзойти человека ещё не смогли.

@ai_newz
Nvidia выпустила своего большого ризонера

В основе — Llama 3.1 405B, которую запрунили до 253B параметров. В целом обгоняет DeepSeek R1 по качеству, причём практически на всех бенчах, в отличие от QwQ 32B, которая обгоняла лишь на отдельных.

Модель влезает в FP8 в 4xH100, но для BF16 уже понадобится 8xH100, либо 4xB100. Для простых смертных они уже пару недель как выпустили модельки поменьше — 8B и 49B, основанные на Llama 8B и 70B соответственно.

Веса

@ai_newz
Вышел DeepCoder 14B Preview

Новый ризонер специально для кода, лидирующий в 14B весовой категории и догоняющий o3-mini и o1, когда они обе на low настройках. Неприятный звоночек — модель не сравнивают с QwQ 32B, основным конкурентом этой модели, а с моделями OpenAI сравнивают только на low настройках. Причём непонятно почему — результаты достойные, даже o3-mini (low) обойти это непросто.

За основу взят DeepSeek R1 Distill 14B, поверх которого запустили RL на 24к задач для кодинга. Это сильно бампануло качество кодинга по сравнению с бейзлайном, при этом случайно улучшив результаты на математике.

Сделали эту модель в колабе с Together AI, это один из клауд провайдеров заточенных специально на ИИ. Я уже писал пару лет назад об их датасете RedPajama, воспроизводящем датасет оригинальной Llama.

А вот самая лучшая часть — авторы опубликовали не только веса, но и код с датасетом. Всё это можно прямо сейчас скачать с 🤗 и гитхаба.

И мы все ближе к маленьким и умелым моделькам, которые можно запускать локально (а 14B можно запускать и на обычном железе) и которые могут заменить проприетарные модели. На этот раз в кодинге. Не устану повторять, что опен сорс – это круто!

Веса

Код
Датасет

@ai_newz