KVQuant: контекстное окно в 10 млн. токенов
KVQuant - новый метод квантования активаций кеша ключевых значений, сокращающий потребление памяти при выводе.
Цель - сохранить точность при уменьшении потребления памяти, позволяя работать с большими моделями на слабом оборудовании.
Например: сервис LLaMA-7B на одном GPU A100-80GB позволяет работать с 1 миллионом токенов, и до 10 миллионов токенов на системе с 8 GPU.
#KVQuant #LLM #CUDA
KVQuant - новый метод квантования активаций кеша ключевых значений, сокращающий потребление памяти при выводе.
Цель - сохранить точность при уменьшении потребления памяти, позволяя работать с большими моделями на слабом оборудовании.
Например: сервис LLaMA-7B на одном GPU A100-80GB позволяет работать с 1 миллионом токенов, и до 10 миллионов токенов на системе с 8 GPU.
#KVQuant #LLM #CUDA