NVIDIA представила Helix Parallelism — уникальную архитектуру, позволяющую нейросетям в реальном времени обрабатывать гигантские массивы текста, словно энциклопедии, и при этом обслуживать в 32 раза больше пользователей без потери скорости.
Когда AI-инструменты берутся за сверхсложные задачи вроде анализа юридических архивов или поддержания долгосрочных диалогов с пользователями, основная проблема кроется в обработке контекста. Чем больше токенов — тем выше нагрузка на память видеокарт. Каждый новый ответ требует повторного доступа к KV-кэшу (истории переписки или текстов), а также перезагрузки весов Feed-Forward Network, что серьёзно тормозит отклик системы.
Helix «расщепляет» слои трансформера на две части — attention и FFN — и обрабатывает их независимо. Во время attention-фазы используется новый подход KV Parallelism (KVP), позволяющий распределить кэш между видеокартами без дублирования. Это снимает избыточную нагрузку с памяти. Затем система переключается в режим Tensor Parallelism, перераспределяя ресурсы для вычислений FFN. Всё это дополняется технологией HOP-B, которая перекрывает коммуникацию и вычисления между GPU, устраняя задержки.
Модель DeepSeek-R1 объёмом 671 миллиард параметров и контекстом на миллион токенов в тестах показала: Helix позволяет обслуживать в 32 раза больше запросов с той же задержкой, что и предыдущие архитектуры.
#МирРобототехники #ИИ #Инновации #ИскусственныйИнтеллект #NVIDIA #Helix #BlackwellGPU
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9❤6🔥2