Технозаметки Малышева

KVQuant: контекстное окно в 10 млн. токенов

KVQuant - новый метод квантования активаций кеша ключевых значений, сокращающий потребление памяти при выводе.

Цель - сохранить точность при уменьшении потребления памяти, позволяя работать с большими моделями на слабом оборудовании.
Например: сервис LLaMA-7B на одном GPU A100-80GB позволяет работать с 1 миллионом токенов, и до 10 миллионов токенов на системе с 8 GPU.

#KVQuant #LLM #CUDA

79 views05:51

About

Blog

Apps

Platform