Технозаметки Малышева

🚀 DeepSeek R2: Как китайцы задают новый темп в гонке AI-технологий

DeepSeek ускоренными темпами готовит выпуск R2, которая, судя по всему, должна появиться в ближайшие недели.

И похоже, что это будет не просто обновление, а настоящий прорыв в производительности, эффективности и доступности AI.

На той неделе компания провела "Open Source Week", выложив в открытый доступ целых 5 инструментов, которые, судя по всему, и будут лежать в основе их нового продукта.

1. FlashMLA — декодер для GPU Hopper с поддержкой BF16 и кэшем KV, разбитым на блоки по 64 элемента. Такая оптимизация значительно ускоряет работу с последовательностями переменной длины.

2. DeepEP — библиотека для коммуникации в моделях с MoE-архитектурой. Решает главную проблему MoE-моделей — узкое место при обмене данными между компонентами.

3. DeepGEMM — библиотека матричного умножения с FP8-точностью. Всего ~300 строк кода, но показывает лучшую производительность чем многие вручную оптимизированные ядра.

4. DualPipe — двунаправленный конвейерный параллелизм, устраняющий простои GPU при обучении моделей. Особенно эффективен в связке с EPLB — балансировщиком нагрузки для MoE.

5. 3FS (Fire-Flyer File System) — параллельная файловая система, показывающая скорость чтения до 6.6 ТБ/с на кластере из 180 узлов. Идеально для работы с огромными датасетами.

Если сложить всё вместе, то DeepSeek строит полноценную экосистему для эффективного обучения и инференса крупных моделей.

Интересна экономика их решения:
- Пиковая нагрузка на кластер — 278 узлов (по 8 GPU)
- Ежедневные затраты на инфраструктуру — $87 тыс (при цене $2/час за GPU H800)
- Теоретический дневной доход — $562 тыс (при текущем ценнике на DeepSeek-R1)
- Маржа прибыли — 545% 🤯

Даже с учётом скидок и бесплатных сервисов, такая экономика выглядит фантастически по сравнению с конкурентами.

Когда ждать?
По слухам, R2 появится в ближайшие недели. Будем следить!
Есть версия, что опять привяжутся к китайским праздникам и мы увидим обновление в середине апреля.

Если они еще успеют прикрутить метод от QwQ к самообучению, - будет вообще бомба, но, думаю, это уже к летнему релизу, скорее - объём данных на порядок больше, чем у QwQ все-таки.

#DeepSeek #OpenSource #R2 #Китай
———
@tsingular

🔥11👍3🤯2

1.26K viewsedited 09:11