📢 NVIDIA представила Rubin CPX — GPU с 128 ГБ GDDR7, созданный специально для работы с длинными контекстами в AI-моделях.
Это не игровой ускоритель, а решение для задач, где модели обрабатывают миллионы токенов за раз.
🧩 Суть новинки
Обычный инференс состоит из двух фаз:
- Контекстная (context phase) — модель «переваривает» длинный ввод до появления первого токена. Тут важна мощность вычислений (FLOPs).
- Генерация (generation phase) — модель создаёт токены. Тут решает пропускная способность памяти.
Rubin CPX берёт на себя первую фазу — самую тяжёлую. Обычные Rubin GPU остаются для генерации. Такое разделение делает систему быстрее и эффективнее.
⚡ Возможности Rubin CPX
- 30 PFLOPs NVFP4 (новый 4-битный формат NVIDIA для инференса).
- 128 ГБ GDDR7 памяти.
- 3× ускоренное внимание (attention) по сравнению с GB300 NVL72.
- Встроенные блоки для кодирования/декодирования видео.
- Оптимизация под длинные последовательности и быструю подготовку токенов.
🖥️ Система Vera Rubin NVL144 CPX
- 144 Rubin CPX + 144 Rubin GPU + 36 Vera CPU.
- До 8 экзаFLOPs NVFP4.
- 100 ТБ памяти и 1,7 ПБ/с пропускной способности.
- В 7,5 раза быстрее, чем предыдущее поколение GB300 NVL72.
- Сеть: Quantum-X800 InfiniBand или Spectrum-X Ethernet для быстрой передачи KV-кэша.
🔑 Главное
Rubin CPX — это GPU нового типа, сфокусированный на длинных вводах.
Он снимает «бутылочное горлышко» при работе с миллионами токенов и позволяет системам работать быстрее и дешевле.
🚀 Вывод
Rubin CPX и NVL144 CPX-rack открывают дорогу к действительно масштабным моделям-агентам и длинноконтекстным LLM.
Это шаг от универсальных GPU к специализированным решениям под конкретные фазы инференса.
Это не игровой ускоритель, а решение для задач, где модели обрабатывают миллионы токенов за раз.
🧩 Суть новинки
Обычный инференс состоит из двух фаз:
- Контекстная (context phase) — модель «переваривает» длинный ввод до появления первого токена. Тут важна мощность вычислений (FLOPs).
- Генерация (generation phase) — модель создаёт токены. Тут решает пропускная способность памяти.
Rubin CPX берёт на себя первую фазу — самую тяжёлую. Обычные Rubin GPU остаются для генерации. Такое разделение делает систему быстрее и эффективнее.
⚡ Возможности Rubin CPX
- 30 PFLOPs NVFP4 (новый 4-битный формат NVIDIA для инференса).
- 128 ГБ GDDR7 памяти.
- 3× ускоренное внимание (attention) по сравнению с GB300 NVL72.
- Встроенные блоки для кодирования/декодирования видео.
- Оптимизация под длинные последовательности и быструю подготовку токенов.
🖥️ Система Vera Rubin NVL144 CPX
- 144 Rubin CPX + 144 Rubin GPU + 36 Vera CPU.
- До 8 экзаFLOPs NVFP4.
- 100 ТБ памяти и 1,7 ПБ/с пропускной способности.
- В 7,5 раза быстрее, чем предыдущее поколение GB300 NVL72.
- Сеть: Quantum-X800 InfiniBand или Spectrum-X Ethernet для быстрой передачи KV-кэша.
🔑 Главное
Rubin CPX — это GPU нового типа, сфокусированный на длинных вводах.
Он снимает «бутылочное горлышко» при работе с миллионами токенов и позволяет системам работать быстрее и дешевле.
🚀 Вывод
Rubin CPX и NVL144 CPX-rack открывают дорогу к действительно масштабным моделям-агентам и длинноконтекстным LLM.
Это шаг от универсальных GPU к специализированным решениям под конкретные фазы инференса.
❤8🔥5👍3🥰2😱2