Технозаметки Малышева

Неделя открытого кода от Deepseek.

Deepseek запустил неделю open-source релизов и уже выкатил два интересных проекта — DeepEP и FlashMLA.

DeepEP: открытая библиотека для ускорения работы MoE-коммуникаций между экспертами, повышая скорость обмена между GPU ядрами в режиме все-со-всеми.

- Поддержка FP8 для быстрых dispatch/combine операций
- Оптимизация как для внутринодовой (NVLink), так и межнодовой (RDMA) коммуникации
- Специальные низколатентные ядра для inference decoding (~160-370μs на некоторых конфигурациях)
- Контроль использования SM-ресурсов GPU (можно выделить 24 SM на коммуникацию)

Бенчмарки: на H800+CX7 получают 153-158 GB/s внутри ноды (по NVLink) и 40-47 GB/s между нодами (по RDMA).

FlashMLA: эффективные ядра для MLA-декодирования

В релизе оптимизированный MLA-декодер для GPU Hopper:
- Поддержка BF16 и FP16
- Paged kvcache с размером блока 64
- До 3000 GB/s при memory-bound и 580 TFLOPS при compute-bound нагрузках на H800

Где пригодится?
1. Для обучения собственных MoE-моделей — как открытый фреймворк, который позволяет эффективно тренировать большие MoE

2. Для тюнинга инференса — если у вас есть Hopper GPU, можно существенно ускорить декодирование моделей с MLA

3. Для понимания архитектуры DeepSeek-моделей — код показывает, как на самом деле устроены модели Deepseek V3

И это только начало их #OpenSourceWeek — ждем еще релизов, особенно полезно будет если они продолжат раскрывать архитектуру своих моделей.

Но как тут сказали товарищи на одном из вебинаров недавно, - будет грустно, если они выложат всё в оупенсорс, а у нас некому будет понять что там написано и даже воспроизвести.

#MoE #MLA #DeepSeek #OpenSourceWeek
———
@tsingular

🔥11❤1

1K views05:19

About

Blog

Apps

Platform