NLP Core Team

🔥DeepSeek-V3

Немного запоздалый пост. Модель вышла как неделю. Привычно видеть выход новых открытых моделей, которые все выше и выше по метрикам. Но тут другое дело. Настал час, когда открытые модели уже по метрикам сильнее закрытых. DeepSeek V3 первая модель с топовыми метриками и с сильно дешевым инференсом от DeepSeek. Если GPT4o стоит $10 за 1M токенов на генерации то DeepSeek V3 стоит $1.1 а до 8 февраля $0.28.

Из ключевого о модели:
- Модель с архитектурой Mixture-of-Experts (MoE), содержащая 671 миллиард параметров, из которых активируется 37 миллиардов для каждого токена. 256 маршрутизируемых экспертов + 1 общий экспертов. Каждый токен активирует **8 маршрутезируемых экспертов.
- Использует Multi-head Latent Attention.
- Добавили Multi-Token Prediction что улучшает общую производительность на обучении и инференсе.
- Модель обучена на 14.8 триллионах токенов с FP8.
- Модель обучалась с добавлением Fill-in-Middle (FIM) задачи. Пишут что FIM не мешает задаче предикта следующего токена и улучшает метрики в кодовых тасках, где важен FIM.
- Сделали дистилляцию знаний из модели DeepSeek-R1 для улучшения способностей к рассуждению.

Модель по кодовым метрикам часто сильнее Claude 3.5 Sonnet, которая считается топовой для кода.
Потыкал DeepSeek на русском и я вам скажу она прям хорошо отвечает. Вообще не встретил каких-либо артифактов, которые свойственны моделям видевших русского мало. Сколько было русского у нее в претрейне неизвестно, но по метрикам MMMLU (Multiligual MMLU) она показала 79.4, что сильнее Llama 405B (73.8) и Qwen2.5 72B (74.8).

GitHub
Huggingface
Paper

🔥33👍12❤9

4.1K viewsDmitry Zmitrovich, 09:56

NLP Core Team

🔥SmallThinker-3B-Preview

Очень интересная модель получилась у PowerInfer. Взяли Qwen2.5-3b-Instruct и дообучили на двух сетах полученных в результате генераций моделей QwQ-32B-Preview и Qwen2.5-72b-instruct. С каждой из моделей получили 500к примеров и все на английском. Сначала дообучили на сете от QwQ 1.5 эпохи а после дообучали на обоих сетах 2 эпохи. По моим прикидкам совокупно дообучали до 20B токенов, что совсем не много. Получилась модель, которая очень даже не плохо рассуждает и отвечает особенно учитывая ее размер 3B.

Также можно использовать эту модель в качестве draft модели для модели QwQ 32b на инференсе в режиме speculative decoding, что позволяет ускорить инференс в 1.7 раза в сравнении с инференсом QwQ 32b.

На русском, как и QwQ, она отвечает, но часто вставляет токены из других языков. Вообще конечно интересно, что модель часто вставляя левые токены и при этом это ей не мешает рассуждать и приходить к верному решению.

Huggingface

🔥19👍8👏5❤2

3.39K viewsDmitry Zmitrovich, edited 10:04

NLP Core Team

Forwarded from AbstractDL

COCONUT: Учим LLM думать не словами, а эмбеддингами (by Meta)

С появлением моделей серии o1 от OpenAI интерес к "ризонингу" языковых моделей стал расти ещё быстрее. Давно было известно, что если попросить LLM поразмышлять шаг за шагом "вслух", то точность ответов повышается, это называется Chain-of-Thought (CoT). А вы сами-то пробовали с ходу умножать 10-значные числа? Я только в столбик умею "step-by-step" 😁

Так вот, постепенно появляются идеи, что человеческий язык не оптимален для размышлений (вспоминаем QuietSTAR), он их только ограничивает. Более того! Есть исследования, что и люди на самом-то деле не словами думают — языковой отдел в мозге практически не активен в моменты рассуждений.

Вот и авторы COCONUT предлагают цепочку мыслей генерировать не в виде текстовых токенов, а в виде эмбеддингов, которые рекуррентно скармливаются обратно в LLM. Это должно развязывать моделям руки и позволять думать в более абстрактных сущностях, а не конкретными токенами.

Обнаружилось, что у COCONUT появляется суперпозиция нескольких альтернативных логических цепочек, своего рода breadth-first-search внутри эмбеддингов. Это позволило моделям решать задачки на планирование и логику быстрее и точнее, чем при обычном текстовом CoT. Не на всех бенчмарках выросли метрики, но сама идея классная, лично я в масштабирование таких подходов верю больше, чем в рассуждения на обычном языке.

Но пока тут есть два серьёзных минуса:
1. Для файнтюнинга LLM в режиме COCONUT всё ещё нужны ground truth словесные цепочки рассуждений, которые потом дистиллируются в латенты постепенной заменой текстовых шагов на латентные.
2. Обучение жрёт много компьюта и памяти, т.к. по сути это рекуррентная модель, через которую нужно N раз пропустить градиенты насквозь.

P.S. Более подробный разбор можно почитать у Андрея Лукьяненко тут.

Статья, GitHub

👍28🔥19👏7😱1

2.35K viewsDmitry Zmitrovich, 08:11

NLP Core Team

🔥 DeepSeek R1

Новые открытые модели с ризонингом от DeepSeek, которые рядом по качествту с o1 и очень дешевым инференсом по api.

- DeepSeek-R1-Zero: Модель, обученная исключительно с помощью RL без предварительного SFT. Демонстрирует мощные способности к рассуждению, но сталкивается с проблемами, такими как низкая читаемость и смешение языков. Эта модель представляет интерес больше для исследователей. Оказывается без SFT и только с RL можно научить лучше решать задачи.
- DeepSeek-R1: Включает cold start, SFT и дополнительные этапы RL, что делает её более универсальной, читаемой и безопасной. Показывает результаты, сопоставимые с OpenAI-o1-1217 на задачах, требующих рассуждений.
- Список дообученных опенсорс моделей различных размеров (от 1.5B до 70B параметров) с использованием дистиляции знаний из DeepSeek-R1. Модели демонстрируют топовые метрики для соответствующих размеров.

DeepSeek-R1-Zero обучена только с применением RL. Модель DeepSeek-V3-Base использовалась как начальная точка. Обучение проводилось с помощью алгоритма Group Relative Policy Optimization (GRPO), который оптимизирует политику модели на основе групповых оценок вознаграждений. Использовалась rule-based reward model, которая оценивала правильность ответов (например, решение математических задач) и соблюдение формата вывода.

Интересно, что в процессе RL модель самостоятельно развивала сложные стратегии, такие как пересмотр и переоценка предыдущих шагов (рефлексия) и генерация длинных цепочек рассуждений. Это все без явного пробрасывания в процесс обучения этих знаний. В процессе RL сама пришла к выводу, что чтобы отвечать более правильно нужно больше рассуждать. На картинке есть график, как на протяжении RL обучения растет длина рассуждений в ответах.

DeepSeek-R1 обучена в несколько этапов:

1. Cold Start. Начальное дообучение модели DeepSeek-V3-Base с использованием небольшого набора данных, включающего примеры с длинными цепочками рассуждений .

2. Reasoning-Oriented Reinforcement Learning (RL, ориентированное на рассуждения). Модель обучалась также как и DeepSeek-R1-Zero с помощью алгоритма Group Relative Policy Optimization (GRPO) и rule-based reward model

3. Rejection Sampling and SFT. Модель дообучалась на отобранных данных (около 800,000 примеров), включая:
- Reasoning data: Задачи, требующие рассуждений (600,000 примеров). Использовали модель с предидущего этапа RL. Модель генерировала несколько ответов для каждого промпта, и только правильные и хорошо отформатированные ответы отбирались для дальнейшего обучения.
- Non-reasoning data: отобрали общие задачи из SFT датасета DeepSeek V3 такие как письмо, фактологический QA и перевод (200,000 примеров).

4. Ну и в конце RL для всех сценариев. Модель прошла дополнительный этап RL, направленный на улучшение её полезности и безопасности в различных сценариях.

GitHub
Paper

🔥9👍8👏3

3.09K viewsDmitry Zmitrovich, 12:44

NLP Core Team

Дистилляция знаний из модели DeepSeek-R1. Используя DeepSeek-R1 в качестве учителя, было сгенерировано около 800 тысяч примеров данных, включающих как рассуждения (reasoning), так и не связанные с рассуждениями задачи (например, написание текстов, фактологические вопросы и т.д.). На основе этих данных были дообучены (fine-tuned) несколько меньших моделей, таких как Qwen и Llama, с использованием только SFT, без RL. Это позволило передать способности к рассуждениям от более мощной модели к меньшим. Модели получились топовыми для своих размеров. Например, DeepSeek-R1-Distill-Qwen-7B превзошла GPT-4o и Claude-3.5-Sonnet на математических бенчмарках, а DeepSeek-R1-Distill-Qwen-32B и DeepSeek-R1-Distill-Llama-70B значительно превзошли OpenAI-o1-mini на большинстве тестов.

Интересно, что дообучение с RL дает хуже результаты чем такая дистициляция. В пейпере приводится пример с Qwen 32B. Дообучение на данных сгенерированных DeepSeek-R1 дает значительно лучшие метрики на бенчах. Получается что большая емкая модель DeepSeek-R1 поняла как нужно рассуждать и эти знания легко передать через примеры генераций и дообучении на них моделей меньшей емкости.

👍17🔥15❤4

4.22K viewsDmitry Zmitrovich, 12:45

NLP Core Team

Forwarded from Градиент обреченный (Sergei Averkiev)

This media is not supported in your browser

VIEW IN TELEGRAM

🔺Mercury Coder. Диффузионная LLM для кода

Стартап Inception из Пало-Альто решил поставить на диффузионные LLM и начал выкатывать свои модели. Звучит интересно, потому что каких-то внятных рабочих моделей на диффузии пока не было. Здесь же авторы предлагают доступ по API и установку on-prem, то есть некое готовое изолированное решение, чтобы ваш код не утёк.

Первой моделью стал Mercury Coder — кодовая модель, основным преимуществом которой является скорость генерации, в 5-10 раз быстрее ChatGPT или Claude, около 1000 токенов в секунду на H100.

Вспоминается анекдот про секретаршу, но не все так плохо, на бенчмарках результат между gpt-4o-mini и DeepSeek Coder, а в fill-in-the-middle (генерация в промежутках кода) ожидаемо лучше остальных.

Есть публичное демо. Не забудьте включить переключатель Diffusion Effect.

👉 https://chat.inceptionlabs.ai/

🔥22👍7💯1

3.75K viewsDmitry Zmitrovich, 06:46

NLP Core Team

Метрики прям сильные учитывая скорость генерации

🔥17👍5💯2👀2

4.04K viewsDmitry Zmitrovich, edited 06:49

NLP Core Team

Интересная статья. Возможно вы видели этот пост, но тема показалась мне важная.

❤1

2.6K viewsDmitry Zmitrovich, 10:07

NLP Core Team

Forwarded from Machinelearning

✔️

ECLECTIC: взгляд Google на то, как LLM понимают разные языки

Исследователи из Google Research представили ECLeKTic — новый бенчмарк, предназначенный для оценки способности больших языковых моделей (LLM) переносить знания между языками.

Исследование направлено на выявление того, насколько эффективно модели могут применять информацию, полученную на одном языке, для решения задач на другом.

Бенчмарк включает вопросы, сформулированные на одном языке, ответы на которые содержатся в соответствующих статьях Википедии. Эти вопросы затем переводятся на другие языки, для которых аналогичных статей нет. Таким образом, модели должны демонстрировать способность извлекать и применять знания, отсутствующие в целевом языке.

Оценка моделей: Испытания восьми современных LLM показали, что даже передовые модели испытывают трудности с межъязыковым переносом знаний. Это подчеркивает необходимость дальнейших исследований и улучшений в этой области.

Вместо простых вопросов используются тесты с множественным выбором, где неправильные ответы (дистракторы) специально сделаны очень похожими на правильный и правдоподобными. Чтобы выбрать верный вариант, модели нужно действительно понять нюансы на целевом языке, а не угадывать.

Минимизация "артефактов перевода": Вопросы тщательно создавались экспертами на 10 различных языках (включая арабский, хинди, японский, русский и др.). Они адаптированы культурно и лингвистически так, чтобы стратегия "перевести-решить-перевести обратно" работала плохо.

ECLECTIC – сложный тест: Он выявляет слабости в понимании, которые могут быть не видны на других бенчмарках.

🌟 Лучшие результаты у Gemini 2.5 Pro: до 52,6% общего успеха и 77,0% коэффициента удачного переноса знаний.

В отличие от OpenAI

Google на своих же бенчмаркх занимают первые места 😂

Результаты показывают, что текущим LLM еще предстоит улучшить способность по-настоящему переносить и применять знания между языками.

🟡

Подробнее

🟡

Paper

@ai_machinelearning_big_data

#AI #ml #google #benchmark

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍11🔥11❤4🤔2

4.11K viewsDmitry Zmitrovich, 10:07

NLP Core Team

Награда нашла своих героев! 🎉

Юра Куратов и Айдар Булатов были сегодня награждены премией "научный прорыв года в ИИ" на конференции DataFusion. Распирает гордость за ребят!
C ребятами знакомы давно. Совместно делали различные эксперименты. Знаю не понаслышке, как много усилий ребята направляли на свои исследования. Ребята авторы многих работ, которые уже привычно цитирует google и другие (Recurrent Memory Transformer, Scaling Transformer to 1M tokens and beyond with RMT, BABILong и много других) Ребят вы крутые! Поздравляем! Ждем новых топовых работ!

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥65🎉27👏9❤1👍1

3.92K viewsDmitry Zmitrovich, 11:52

NLP Core Team

Интересная работа и вывод неожиданный.

2.43K viewsDmitry Zmitrovich, 13:06

NLP Core Team

Forwarded from AbstractDL

This media is not supported in your browser

VIEW IN TELEGRAM

RL не развивает потенциал рассуждений LLM (by Tsinghua)

RL с верифицируемыми наградами (RLVR) — один из самых популярных подходов для прокачки reasoning-способностей современных LLM, вроде OpenAI-o1 и DeepSeek-R1. Считается, что RLVR позволяет модели самой находить новые паттерны рассуждений, отсутствующие в базовой версии.

Но авторы новой статьи из Tsinghua и SJTU решили это перепроверить и получили крайне неожиданный результат: RLVR НЕ создаёт новые стратегии рассуждений.

Когда мало сэмплов (pass@1), то да, RL версии обгоняют base модели. Но если взять pass@128 или pass@256 (много попыток), то уже наоборот, базовые версии стабильно оказываются ЛУЧШЕ, причём существенно!

Причина: RL не создаёт новые паттерны, а лишь усиливает вероятность уже известных решений из базовой модели. При этом резко падает энтропия, а значит, сужается пространство возможных решений.

Прямо противоположный эффект у дистилляции (например, Distill-R1-Qwen): дистилляция реально добавляет в модель новые стратегии рассуждений.

Авторы проверили гипотезу на огромном наборе задач (математика, программирование, визуальный reasoning), множестве моделей и RL-алгоритмов (PPO, GRPO, ReMax и др.). Везде одно и то же — базовая модель имеет больший потенциал при достаточном количестве попыток.

Похоже, что для реального роста reasoning-способностей нужно придумывать совершенно другие подходы.

Статья, GitHub

🔥27👍12😨5❤3

3.22K viewsDmitry Zmitrovich, 13:06

NLP Core Team

ruCoIR 🚀

Перевели на русский некоторые задания из бенчмарка CoIR. Бенчмарк CoIR оценивает способности моделей эмбеддеров в задачу поиска text to code, code to text и code to code. Взяли задания там где есть текст. Переводили с помощью модели phi-4.

Перевели часть заданий. Этого достаточно чтобы ранжировать модели по способностям поиска кода по русскому тексту. В таблице замеры различных эмбеддеров, которые умеют работать с русским языком.

Модели multilingual-e5-large и multilingual-e5-large-instruct выглядят очень даже не плохо учитывая их размер.

HF dataset
GitHub

🔥20👍9❤2

7.57K viewsDmitry Zmitrovich, 07:04

NLP Core Team

🚀🚀🚀 Koda 🚀🚀🚀

Мы запустили Koda! AI сервис для разработчиков с хорошим пониманием русского языка.

Под капотом — лучшие открытые LLM, дообученные на актуальном коде и адаптированные для русского языка, c применением нашего опыта по созданию моделей.

Koda и наши модели бесплатны. Даем 250 запросов на внешние модели после аутентификации через GitHub. В списке моделей есть DeepSeek V3.1, Qwen3 235B и другие. Можете вбить свой токен внешней модели для CodeChat если есть.

Сейчас в beta-тестировании. Выкатили базовые сервисы. Куча фичей ждут своих релизов. Вместе с вами тестируем и улучшаем.

Делитесь вашим опытом использования Koda в нашем сообществе. Ждем ваши вопросы, ошибки, которые встретили, или идеи, как улучшить.

Koda сейчас — это команда энтузиастов, бывших разработчиков и соавторов GigaCode от Сбера, которые хотят сделать программирование более доступным c помощью AI.

Наш лендинг
Плагин для VSCode
Koda сообщество

🔥58👏14⚡5🎉3❤2👍1

11.7K viewsDmitry Zmitrovich, 05:47

NLP Core Team

DeepSeek-R1 доступен в Koda v0.1.6.

Обновили список free trial моделей. Список пополнился обновленной DeepSeek R1 и Devstral от Mistral. DeepSeek R1 демонстрирует метрики на уровне топовых моделей. Используйте ризонинг DeepSeek R1 для ваших самых сложных задач если обычные чат модели не справляются.

Для всех пользователей доступно 250 бесплатных запросов к free trial моделям после аутентификации через GitHub.

Так же в новом релизе мы исправили несколько багов.

Koda сообщество
Плагин для VSCode

🔥16👏6👍4❤1

3.38K viewsDmitry Zmitrovich, edited 11:15

About

Blog

Apps

Platform