Media is too big
VIEW IN TELEGRAM
ПРОЕКТ: МоЧА
Да, первого апреля только такие новости, но это настоящая... (Пощу с небольшим опозданием)
Можно сказать, это убийца Hedra. Кстати, статейка от ребят из моей команды в Мете.
Проект специализируется на генеративном липсинке по тексту и речи — и генерит не просто говорящую голову, а почти всё тело, включая руки. Это даёт гораздо более живой результат, так как подключается язык тела. Ещё научились делать целый диалог двух или даже более человек (диалог в формате «через плечо» с катом между кадрами, но консистентно). Хотя, примеров не дают.
Это обычная диффузионка, причём тренили без всяких примочек — чисто текст, видео и речь. Из минусов — то, что img2video нативно работать не будет, но потом возможно дотренируют Ещё интересно, что тренили в 4 стадии:
сначала претрейн на чистом text-to-video (примерно 20%, что дало больше динамики в кадре), затем только close-up, а потом потихоньку отдаляли камеру и увеличивали количество людей в кадре, т.к. несколько персонажей генерить сложнее. Ну и ещё изобрели speech-video window attention, которое ограничивает окно внимания модельки для более точного липсинка.
Генерация, конечно же не онлайн.
Пейпер
Project page
@ai_newz
Да, первого апреля только такие новости, но это настоящая... (Пощу с небольшим опозданием)
Можно сказать, это убийца Hedra. Кстати, статейка от ребят из моей команды в Мете.
Проект специализируется на генеративном липсинке по тексту и речи — и генерит не просто говорящую голову, а почти всё тело, включая руки. Это даёт гораздо более живой результат, так как подключается язык тела. Ещё научились делать целый диалог двух или даже более человек (диалог в формате «через плечо» с катом между кадрами, но консистентно). Хотя, примеров не дают.
Это обычная диффузионка, причём тренили без всяких примочек — чисто текст, видео и речь. Из минусов — то, что img2video нативно работать не будет, но потом возможно дотренируют Ещё интересно, что тренили в 4 стадии:
сначала претрейн на чистом text-to-video (примерно 20%, что дало больше динамики в кадре), затем только close-up, а потом потихоньку отдаляли камеру и увеличивали количество людей в кадре, т.к. несколько персонажей генерить сложнее. Ну и ещё изобрели speech-video window attention, которое ограничивает окно внимания модельки для более точного липсинка.
Генерация, конечно же не онлайн.
Пейпер
Project page
@ai_newz
Разработчики из ШАДа и Yandex B2B Tech создали реально работающий инструмент для экологов-практиков. Их нейросеть анализирует снимки с дронов и превращает их в детальную карту мусорных скоплений на побережьях — причём делает это с точностью выше 80%.
Работает хорошо даже в полевых условиях Камчатки. Алгоритм не только отмечает местоположение мусора, но и классифицирует его по шести типам: от рыболовных сетей до пластика. Благодаря этому волонтёры смогли точно рассчитать, что им понадобится 20 человек, пара самосвалов и погрузчик, причём на организацию ушло в 4 раза меньше времени. В итоге убрали 5 тонн мусора.
Код полностью выложен в открытый доступ, и любая экологическая организация может использовать это решение бесплатно. Особенно круто, что технология масштабируется на другие заповедники и может быть дообучена на новые типы отходов. Дальше планируют внедрить её в других труднодоступных регионах Дальнего Востока и Арктики, где каждая экспедиция — очень трудна в организации, и предварительная разведка жизненно необходима.
@ai_newz
Работает хорошо даже в полевых условиях Камчатки. Алгоритм не только отмечает местоположение мусора, но и классифицирует его по шести типам: от рыболовных сетей до пластика. Благодаря этому волонтёры смогли точно рассчитать, что им понадобится 20 человек, пара самосвалов и погрузчик, причём на организацию ушло в 4 раза меньше времени. В итоге убрали 5 тонн мусора.
Код полностью выложен в открытый доступ, и любая экологическая организация может использовать это решение бесплатно. Особенно круто, что технология масштабируется на другие заповедники и может быть дообучена на новые типы отходов. Дальше планируют внедрить её в других труднодоступных регионах Дальнего Востока и Арктики, где каждая экспедиция — очень трудна в организации, и предварительная разведка жизненно необходима.
@ai_newz
Qwen 3 выйдет на следующей неделе
Об этом сообщают китайские СМИ. Команда Qwen точно хочет успеть релизнуть свою модель до Llama Con, который пройдёт 29 апреля. Судя по всему, семейство Qwen 3 целится сразу во все сегменты рынка и включает в себя сильно больше размеров — будут как и MoE модели, которые часто поражают своими размерами, так и мобильная моделька всего на 600m.
Над поддержкой везде работают заранее — код для моделей уже смержили в трансформеры пару дней назад. Хотя вот удивительно, что Qwen2.5 до сих пор не поддерживается в LMDeploy, в одном из самых быстрых inference движков.
Компания лишь недавно релизнула свою первую омни модель — Qwen 2.5 Omni 7B, так что Qwen 3 вряд-ли будет омнимодальным на релизе. А вот релизнуться сразу с VLM моделями им ничего не мешает. Про ризонеры пока что ничего не ясно, кроме того что они точно будут.
@ai_newz
Об этом сообщают китайские СМИ. Команда Qwen точно хочет успеть релизнуть свою модель до Llama Con, который пройдёт 29 апреля. Судя по всему, семейство Qwen 3 целится сразу во все сегменты рынка и включает в себя сильно больше размеров — будут как и MoE модели, которые часто поражают своими размерами, так и мобильная моделька всего на 600m.
Над поддержкой везде работают заранее — код для моделей уже смержили в трансформеры пару дней назад. Хотя вот удивительно, что Qwen2.5 до сих пор не поддерживается в LMDeploy, в одном из самых быстрых inference движков.
Компания лишь недавно релизнула свою первую омни модель — Qwen 2.5 Omni 7B, так что Qwen 3 вряд-ли будет омнимодальным на релизе. А вот релизнуться сразу с VLM моделями им ничего не мешает. Про ризонеры пока что ничего не ясно, кроме того что они точно будут.
@ai_newz
Для Gemma 3 вышли официальные квантизированные версии
Квантизация это сейчас стандарт, мало кто будет запускать модели локально в нативных bf16 — большая часть пользователей использует 4 битную квантизацию. И тут проявляется большая проблема — модели, по большей части, выпускают в bfloat16 и совершенно не расчитывают, что кто-то когда-то будет их запускать как-то по-другому, из-за чего заметно страдает качество моделей при локальном использовании. Дело в том, что дешёвая Post-training квантизация, которая не требует тренировки, сильно просаживает качество.
Google специально дотренировали Gemma 3 с quantization aware training, чтобы таких проблем не было. Обещают "схожее качество" с bf16 моделями, но результатов бенчей не дали (а хотелось бы). Такой же релиз делала и Meta с Llama 3.2, правда только для 1B и 3B, а Google выпустил сразу всю линейку. А остальным авторам открытых моделей тоже стоит начать делать подобные релизы.
Скачать
@ai_newz
Квантизация это сейчас стандарт, мало кто будет запускать модели локально в нативных bf16 — большая часть пользователей использует 4 битную квантизацию. И тут проявляется большая проблема — модели, по большей части, выпускают в bfloat16 и совершенно не расчитывают, что кто-то когда-то будет их запускать как-то по-другому, из-за чего заметно страдает качество моделей при локальном использовании. Дело в том, что дешёвая Post-training квантизация, которая не требует тренировки, сильно просаживает качество.
Google специально дотренировали Gemma 3 с quantization aware training, чтобы таких проблем не было. Обещают "схожее качество" с bf16 моделями, но результатов бенчей не дали (а хотелось бы). Такой же релиз делала и Meta с Llama 3.2, правда только для 1B и 3B, а Google выпустил сразу всю линейку. А остальным авторам открытых моделей тоже стоит начать делать подобные релизы.
Скачать
@ai_newz
Midjourney v7 🥳
Долгожданная седьмая версия самого эстетичного генератора картинок вышла в релиз этим утром. С мультимодальной GPT-4o и Gemini тяжело бороться, но Midjourney явно нашли свою нишу среди эстетов.
Персонализация теперь включена по умолчанию. Чтобы сделать всё ✨красиво✨, есть персонализация модели под конкретного пользовател. Ты рейтишь 200 пар картинок — и получаешь свою персонализированную модель, что-то вроде LoRA, но внутри самого Midjourney. Причём, если задаться целью, можно натюнить и на 10К картинок! За что, кстати, выдают бесплатные часы генерации, так что это ещё и выгодно — команда таким образом собирает бесплатную разметку для улучшения модели.
Более того, перед релизом 7-й версии провели аж 3 раунда публичного голосования за лучшие рандомные картинки, поэтому ожидайте от v7 ретро-эстетики и выгоревших под плёнку чёрных.
Редактировать по тексту она, конечно, не умеет. Да и генерить его тоже — для этого есть, выше упомянутые, Gemini и GPT-4o. В целом, если сравнивать картинки из 6-й и 7-й версии, то разница не слишком заметна, но последняя кажется глазу более реалистичной. Насчет следования промпту пока сказать тяжело, но говорят, что тоже обновился и улучшился + не нужно писать параграфы, как во флюксе.
Draft-режим мощно обновился — и это теперь режим, в котором будут сделаны 90% тестовых картинок, промпты из которых потом, по всей видимости, будут вставляться в standard-модель. Именно модель — ведь всё указывает на то, что draft — это дистилляция из старшей модели, потому что в этом режиме картинки генерятся в 10 раз быстрее, практически в реалтайме. Настолько быстро, что Midjourney добавили ГОЛОСОВОЙ РЕЖИМ! Причём он воспринимает голосовые инструкции, а внутренняя LLM интерпретирует их в промпт. Да, прямо как в ChatGPT.
К сожалению, ничего более не показали. Нет ощущения революшена, как от предыдущих версий. Остальные фичи, которых будет ещё очень много, выложат в течение следующих двух месяцев. Так что новая v7 ещё долго будет мелькать в инфополе. Обещают, что их новые style и object references — это разнос. Если им удастся передавать детали референсного объекта так же точно, как это делает LoRA для Flux’а или хотя бы GPT-4o, — это действительно революшен. Потому что только этого сейчас не хватает Midjourney — консистентности.
@ai_newz
Долгожданная седьмая версия самого эстетичного генератора картинок вышла в релиз этим утром. С мультимодальной GPT-4o и Gemini тяжело бороться, но Midjourney явно нашли свою нишу среди эстетов.
Персонализация теперь включена по умолчанию. Чтобы сделать всё ✨красиво✨, есть персонализация модели под конкретного пользовател. Ты рейтишь 200 пар картинок — и получаешь свою персонализированную модель, что-то вроде LoRA, но внутри самого Midjourney. Причём, если задаться целью, можно натюнить и на 10К картинок! За что, кстати, выдают бесплатные часы генерации, так что это ещё и выгодно — команда таким образом собирает бесплатную разметку для улучшения модели.
Более того, перед релизом 7-й версии провели аж 3 раунда публичного голосования за лучшие рандомные картинки, поэтому ожидайте от v7 ретро-эстетики и выгоревших под плёнку чёрных.
Редактировать по тексту она, конечно, не умеет. Да и генерить его тоже — для этого есть, выше упомянутые, Gemini и GPT-4o. В целом, если сравнивать картинки из 6-й и 7-й версии, то разница не слишком заметна, но последняя кажется глазу более реалистичной. Насчет следования промпту пока сказать тяжело, но говорят, что тоже обновился и улучшился + не нужно писать параграфы, как во флюксе.
Draft-режим мощно обновился — и это теперь режим, в котором будут сделаны 90% тестовых картинок, промпты из которых потом, по всей видимости, будут вставляться в standard-модель. Именно модель — ведь всё указывает на то, что draft — это дистилляция из старшей модели, потому что в этом режиме картинки генерятся в 10 раз быстрее, практически в реалтайме. Настолько быстро, что Midjourney добавили ГОЛОСОВОЙ РЕЖИМ! Причём он воспринимает голосовые инструкции, а внутренняя LLM интерпретирует их в промпт. Да, прямо как в ChatGPT.
К сожалению, ничего более не показали. Нет ощущения революшена, как от предыдущих версий. Остальные фичи, которых будет ещё очень много, выложат в течение следующих двух месяцев. Так что новая v7 ещё долго будет мелькать в инфополе. Обещают, что их новые style и object references — это разнос. Если им удастся передавать детали референсного объекта так же точно, как это делает LoRA для Flux’а или хотя бы GPT-4o, — это действительно революшен. Потому что только этого сейчас не хватает Midjourney — консистентности.
@ai_newz
Media is too big
VIEW IN TELEGRAM
Ушел гений.
Он хоть и не был в AI тусовке, но Паша – это просто легенда. Он был и остается одним из моих любимых иполнителей.
Дерзкий, харизматичный, по-своему остроумный — и плевать на корпоративную этику, моду и чужое мнение. Пошутил — кенты лежат со смеха, заговорил — слова разлетаются на цитаты (очень метко про него сказал Даня prnrp).
Безумно жаль, что больше не выйдет его новых треков. RIP.
@ai_newz
Он хоть и не был в AI тусовке, но Паша – это просто легенда. Он был и остается одним из моих любимых иполнителей.
Дерзкий, харизматичный, по-своему остроумный — и плевать на корпоративную этику, моду и чужое мнение. Пошутил — кенты лежат со смеха, заговорил — слова разлетаются на цитаты (очень метко про него сказал Даня prnrp).
Безумно жаль, что больше не выйдет его новых треков. RIP.
@ai_newz
Cohere Command A - техрепорт
Вышел подробнейший техрепорто от Cohere, где они делятся рецептами по обучению современных LLM.
Модель Command A с 111B параметров разработана для специфических корпоративных задач, а не для конкуренции с frontier-моделями от Гугла и OpenAI. Модель вышла пару недель назад, а вот техрепорт только подоспел.
Вот ключевые моменты:
➡️ Цель Cohere: Создание умных, но эффективных моделей для корпоративных задач (RAG, многоязычность), которые можно развернуть локально (on-premise).
➡️ Архитектура: Стандартный плотный Transformer (SwiGLU, GQA), с 3:1 перемежающимися слоями локального и полного аттеншена (Gemma 3 использовала похожий трюк), но без позиционных эмбеддингов на full-attention и без bias.
➡️ Обучение: Используются muP, различные виды параллелизма, FP8-тренировка с последующим "отжигом" (annealing) в BF16 для восстановления производительности и постепенным увеличением контекста до 256K.
➡️ Слияние моделей (Merging):
Впервые кто-то из крупных игроков делится рецептами мерджинга. Они активно применяе слияник как на этапе SFT, так RL-тюна. Процесс: базовая instruct-модель -> 6 SFT-моделей по доменам (Код, RAG, Безопасность и т.д.) -> слияние -> 6 RL-моделей -> слияние -> финальный преференс тюн. Это упрощает разработку и позволило командам работать параллельно гад своими промежуточными моделями.
➡️ Данные: Основной упор на синтетические данные с оценкой людьми, с фокусом на RAG, использование инструментов (tool use), следование системным промптам и поддержку 23 языков.
➡️ Эффективность: Command A требует значительно меньше вычислительных ресурсов - модель можно засёрвить на 2x A100/H100 и бегает довольно шустро.
Статья хорошо написана и легко читается. Там много других интересных деталей, дополняющих техрепорт о Llama 3 своим акцентом на пост-тренировку. Маст рид для тех, кто занимается тренировкой современных LLM!
Тех Репорт
@ai_newz
Вышел подробнейший техрепорто от Cohere, где они делятся рецептами по обучению современных LLM.
Модель Command A с 111B параметров разработана для специфических корпоративных задач, а не для конкуренции с frontier-моделями от Гугла и OpenAI. Модель вышла пару недель назад, а вот техрепорт только подоспел.
Вот ключевые моменты:
Впервые кто-то из крупных игроков делится рецептами мерджинга. Они активно применяе слияник как на этапе SFT, так RL-тюна. Процесс: базовая instruct-модель -> 6 SFT-моделей по доменам (Код, RAG, Безопасность и т.д.) -> слияние -> 6 RL-моделей -> слияние -> финальный преференс тюн. Это упрощает разработку и позволило командам работать параллельно гад своими промежуточными моделями.
Статья хорошо написана и легко читается. Там много других интересных деталей, дополняющих техрепорт о Llama 3 своим акцентом на пост-тренировку. Маст рид для тех, кто занимается тренировкой современных LLM!
Тех Репорт
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Все модели мультимодальные — нативно воспринимают текст, изображения и видео. Тренировали на 30 триллионах токенов, причём токенов с других языков теперь в 10x больше по сравнению с Llama 3. Идёт в трёх размерах:
Scout (109B)— модель с 10 млн токенов контекста, что рекорд для релизнутой модели. По бенчам бьёт Gemma 3 и Gemini 2.0 Flash Lite, слегка не дотягивая до полноценной Flash 2.0. Это MoE модель с 16 экспертами, 109B параметров при 17B активных. С квантизацией влезает в одну GPU.
Maverick (400B)— лучше Gemini 2.0 Flash с GPT 4o, примерно на одном уровне с обновлённым DeepSeek V3, но при этом модель мультимодальная и заметно меньше в размерах. Контекст — 1 миллион токенов, меньше чем у Scout, но сильно лучше чем у других конкурентов. Активных параметров всё те же 17B, но экспертов уже 128, поэтому и 400B параметров, Модель можно запустить в fp8 на одной ноде с 8xH100.
Behemoth — гигантская модель на два триллиона параметров (288B активных, 16 экспертов). Бьёт вообщё все Instruct модели с заметным отрывом. Бегемота ещё тренируют, но его ранние версии уже были дистиллированы в Scout и Maverick, что сильно бустануло их перформанс.
Это всё ещё Instruct релиз, но Llama 4 Reasoning тоже скоро будет.
Веса
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Нейродайджест за неделю (#63)
LLM
- Ждём Qwen 3 — будут модельки всех размеров от мобильных до гигантских.
- Квантизация Gemma 3 — официальные модельки обещают быть оптимизированны с минимальными потерями в качестве благодаря quantization aware training.
- Yandex GPT 5 Lite Instruct — выложили в опенсорс. Хороший прирост производительности.
- Техрепорт Cohere Command A — подробнейших текст о ллм для корпоративных задач.
- Llama 4 — две младшие модельки опубликовали с неплохими результатами, старшая ещё тренируется.
- Цены на Gemini 2.5 Pro — от $1.25 за инпут и от $10 за аутпут.
Генеративные модели
- GPT 4o на Image Арене — ТОП-1 вместе с Reve. Очень хороший результат для LLM.
- Runway GEN-4 — лучший генератор видео за доступную цену. Хуже чем VEO 2, но значительно превосходит (примеры: здесь) всех остальных конкурентов.
- Проект МоЧа — липсинкаем не только губы но и всю верхнюю часть тела.
- MidJourney v7 — самая красивая, но пока в раннем доступе, ждём когда покажут все фичи.
- Голосовой режим MidJourney — draft mode настолько быстрый, что генерит на лету по голосу.
> Читать дайджест #62
#дайджест
@ai_newz
LLM
- Ждём Qwen 3 — будут модельки всех размеров от мобильных до гигантских.
- Квантизация Gemma 3 — официальные модельки обещают быть оптимизированны с минимальными потерями в качестве благодаря quantization aware training.
- Yandex GPT 5 Lite Instruct — выложили в опенсорс. Хороший прирост производительности.
- Техрепорт Cohere Command A — подробнейших текст о ллм для корпоративных задач.
- Llama 4 — две младшие модельки опубликовали с неплохими результатами, старшая ещё тренируется.
- Цены на Gemini 2.5 Pro — от $1.25 за инпут и от $10 за аутпут.
Генеративные модели
- GPT 4o на Image Арене — ТОП-1 вместе с Reve. Очень хороший результат для LLM.
- Runway GEN-4 — лучший генератор видео за доступную цену. Хуже чем VEO 2, но значительно превосходит (примеры: здесь) всех остальных конкурентов.
- Проект МоЧа — липсинкаем не только губы но и всю верхнюю часть тела.
- MidJourney v7 — самая красивая, но пока в раннем доступе, ждём когда покажут все фичи.
- Голосовой режим MidJourney — draft mode настолько быстрый, что генерит на лету по голосу.
> Читать дайджест #62
#дайджест
@ai_newz
LLM-ка A-Vibe, разработанная командой Авито, заняла первое место среди легких языковых моделей (до 10 млрд параметров) в независимом русскоязычном бенчмарке MERA. MERA — сборник 23 русскоязычных бенчмарков, с закрытым тест сетом у большей части (то есть никто не может тренировать на бенчах). A-Vibe обошла на таком бенче GPT-4o mini от OpenAI, Claude 3.5 Haiku от Anthropic, Gemma 3 27B от Google и другие популярные модели. На отдельных бенчах есть заметный отрыв и от моделей побольше.
Для обучения A-Vibe на начальном этапе взяли Qwen 2.5 7B и провели ее «русификацию», заменив стандартный токенизатор на собственный. Теперь модель способна обрабатывать русский язык в 2 раза быстрее и лучше понимает и генерирует текст — замена токенизатора и дополнительная тренировка позволила обогнать Qwen 2 72B на русском языке, что очень хорошо для 7B модели.
Технология уже интегрирована в сервисы Авито — помогает продавцам создавать продающие описания товаров и ускоряет процесс коммуникации в мессенджере платформы. Компания планирует до конца года внедрить 20 новых сценариев использования ИИ в своих сервисах. А в будущем планирует выпустить A-Vibe в опенсорс.
Чтобы увидеть актуальный рейтинг, в фильтре «Размер модели» нужно выбрать «≥5B — 10B». Это значит, что в рейтинг попадут модели размером от 5 до 10 миллиардов параметров. Цифры Human Benchmark — это реальные результаты людей. Языковые модели приближаются к этим значениям, но окончательно превзойти человека ещё не смогли.
@ai_newz
Для обучения A-Vibe на начальном этапе взяли Qwen 2.5 7B и провели ее «русификацию», заменив стандартный токенизатор на собственный. Теперь модель способна обрабатывать русский язык в 2 раза быстрее и лучше понимает и генерирует текст — замена токенизатора и дополнительная тренировка позволила обогнать Qwen 2 72B на русском языке, что очень хорошо для 7B модели.
Технология уже интегрирована в сервисы Авито — помогает продавцам создавать продающие описания товаров и ускоряет процесс коммуникации в мессенджере платформы. Компания планирует до конца года внедрить 20 новых сценариев использования ИИ в своих сервисах. А в будущем планирует выпустить A-Vibe в опенсорс.
Чтобы увидеть актуальный рейтинг, в фильтре «Размер модели» нужно выбрать «≥5B — 10B». Это значит, что в рейтинг попадут модели размером от 5 до 10 миллиардов параметров. Цифры Human Benchmark — это реальные результаты людей. Языковые модели приближаются к этим значениям, но окончательно превзойти человека ещё не смогли.
@ai_newz
Nvidia выпустила своего большого ризонера
В основе — Llama 3.1 405B, которую запрунили до 253B параметров. В целом обгоняет DeepSeek R1 по качеству, причём практически на всех бенчах, в отличие от QwQ 32B, которая обгоняла лишь на отдельных.
Модель влезает в FP8 в 4xH100, но для BF16 уже понадобится 8xH100, либо 4xB100. Для простых смертных они уже пару недель как выпустили модельки поменьше — 8B и 49B, основанные на Llama 8B и 70B соответственно.
Веса
@ai_newz
В основе — Llama 3.1 405B, которую запрунили до 253B параметров. В целом обгоняет DeepSeek R1 по качеству, причём практически на всех бенчах, в отличие от QwQ 32B, которая обгоняла лишь на отдельных.
Модель влезает в FP8 в 4xH100, но для BF16 уже понадобится 8xH100, либо 4xB100. Для простых смертных они уже пару недель как выпустили модельки поменьше — 8B и 49B, основанные на Llama 8B и 70B соответственно.
Веса
@ai_newz
Вышел DeepCoder 14B Preview
Новый ризонер специально для кода, лидирующий в 14B весовой категории и догоняющий o3-mini и o1, когда они обе на low настройках. Неприятный звоночек — модель не сравнивают с QwQ 32B, основным конкурентом этой модели, а с моделями OpenAI сравнивают только на low настройках. Причём непонятно почему — результаты достойные, даже o3-mini (low) обойти это непросто.
За основу взят DeepSeek R1 Distill 14B, поверх которого запустили RL на 24к задач для кодинга. Это сильно бампануло качество кодинга по сравнению с бейзлайном, при этом случайно улучшив результаты на математике.
Сделали эту модель в колабе с Together AI, это один из клауд провайдеров заточенных специально на ИИ. Я уже писал пару лет назад об их датасете RedPajama, воспроизводящем датасет оригинальной Llama.
А вот самая лучшая часть — авторы опубликовали не только веса, но и код с датасетом. Всё это можно прямо сейчас скачать с 🤗 и гитхаба.
И мы все ближе к маленьким и умелым моделькам, которые можно запускать локально (а 14B можно запускать и на обычном железе) и которые могут заменить проприетарные модели. На этот раз в кодинге. Не устану повторять, что опен сорс – это круто!
Веса
Код
Датасет
@ai_newz
Новый ризонер специально для кода, лидирующий в 14B весовой категории и догоняющий o3-mini и o1, когда они обе на low настройках. Неприятный звоночек — модель не сравнивают с QwQ 32B, основным конкурентом этой модели, а с моделями OpenAI сравнивают только на low настройках. Причём непонятно почему — результаты достойные, даже o3-mini (low) обойти это непросто.
За основу взят DeepSeek R1 Distill 14B, поверх которого запустили RL на 24к задач для кодинга. Это сильно бампануло качество кодинга по сравнению с бейзлайном, при этом случайно улучшив результаты на математике.
Сделали эту модель в колабе с Together AI, это один из клауд провайдеров заточенных специально на ИИ. Я уже писал пару лет назад об их датасете RedPajama, воспроизводящем датасет оригинальной Llama.
А вот самая лучшая часть — авторы опубликовали не только веса, но и код с датасетом. Всё это можно прямо сейчас скачать с 🤗 и гитхаба.
И мы все ближе к маленьким и умелым моделькам, которые можно запускать локально (а 14B можно запускать и на обычном железе) и которые могут заменить проприетарные модели. На этот раз в кодинге. Не устану повторять, что опен сорс – это круто!
Веса
Код
Датасет
@ai_newz