Технозаметки Малышева

🚀 DeepSeek R2: Как китайцы задают новый темп в гонке AI-технологий

DeepSeek ускоренными темпами готовит выпуск R2, которая, судя по всему, должна появиться в ближайшие недели.

И похоже, что это будет не просто обновление, а настоящий прорыв в производительности, эффективности и доступности AI.

На той неделе компания провела "Open Source Week", выложив в открытый доступ целых 5 инструментов, которые, судя по всему, и будут лежать в основе их нового продукта.

1. FlashMLA — декодер для GPU Hopper с поддержкой BF16 и кэшем KV, разбитым на блоки по 64 элемента. Такая оптимизация значительно ускоряет работу с последовательностями переменной длины.

2. DeepEP — библиотека для коммуникации в моделях с MoE-архитектурой. Решает главную проблему MoE-моделей — узкое место при обмене данными между компонентами.

3. DeepGEMM — библиотека матричного умножения с FP8-точностью. Всего ~300 строк кода, но показывает лучшую производительность чем многие вручную оптимизированные ядра.

4. DualPipe — двунаправленный конвейерный параллелизм, устраняющий простои GPU при обучении моделей. Особенно эффективен в связке с EPLB — балансировщиком нагрузки для MoE.

5. 3FS (Fire-Flyer File System) — параллельная файловая система, показывающая скорость чтения до 6.6 ТБ/с на кластере из 180 узлов. Идеально для работы с огромными датасетами.

Если сложить всё вместе, то DeepSeek строит полноценную экосистему для эффективного обучения и инференса крупных моделей.

Интересна экономика их решения:
- Пиковая нагрузка на кластер — 278 узлов (по 8 GPU)
- Ежедневные затраты на инфраструктуру — $87 тыс (при цене $2/час за GPU H800)
- Теоретический дневной доход — $562 тыс (при текущем ценнике на DeepSeek-R1)
- Маржа прибыли — 545% 🤯

Даже с учётом скидок и бесплатных сервисов, такая экономика выглядит фантастически по сравнению с конкурентами.

Когда ждать?
По слухам, R2 появится в ближайшие недели. Будем следить!
Есть версия, что опять привяжутся к китайским праздникам и мы увидим обновление в середине апреля.

Если они еще успеют прикрутить метод от QwQ к самообучению, - будет вообще бомба, но, думаю, это уже к летнему релизу, скорее - объём данных на порядок больше, чем у QwQ все-таки.

#DeepSeek #OpenSource #R2 #Китай
———
@tsingular

🔥11👍3🤯2

1.26K viewsedited 09:11

Forwarded from LLM под капотом

График точности всех RAG экспериментов из ERCv2

Напомню, что в ERCr2 43 разные команды ставили эксперименты по построению RAG систем, которые смогут дать наиболее точные ответы на 100 вопросов по 100 PDF (публичные отчеты компаний). Некоторые вопросы требовали сравнительной работы с разными PDF.

Всего было поставлено 134 эксперимента с разными моделями и архитектурами. На этой таблицы они все отображены.

- R - это точность работы Retrieval алгоритма (системы должны были подтверждать свои ответы ссылками на страница)
- G - это точность финального ответа, на основе ground truth данных
- Зеленая линия - линия, где у систем качество Retrieval совпадает с качеством Generation.

Архитектуры, которые выше этой линии - доставали много ненужных страниц (или пропускали нужные), но как-то получали правильный ответ.

Те, кто был ниже - находили правильные данные, но путались с генерацией ответа.

Самые лучшие RAG системы (по итоговому качеству ответов) - "сгрудились" рядом с этой зеленой линией - строго под ней. Получается логический вывод - качество финального ответа обычно зависит от качества заполнения контекста.

А в какой части этого графика оказались ваши эксперименты?

Ваш, @llm_under_hood 🤗

PS: Исходную таблицу можно увидеть на странице ERC. Там же есть ссылки на все доступные исходные данные соревнования, включая алгоритм оценки результатов и описания архитектур.

✍6❤2⚡2🆒2

1.12K views11:17

About

Blog

Apps

Platform