Efficient Quantization-Aware Training (EfficientQAT) предлагает новую технику для сжатия LLM, состоящую из двух этапов: блочное обучение всех параметров (Block-AP) и обучение параметров квантования (E2E-QP).
Block-AP последовательно проводит квантизационное обучение для всех параметров каждого блока трансформера с блочной реконструкцией.
Это позволяет избежать обучения всей модели и сохраняет эффективность памяти.
На втором этапе EfficientQAT фиксируются веса и обучаются только параметры квантования (шаги квантования) на целевых наборах данных. Это повышает производительность и позволяет проводить инструктаж моделей для выполнения специфических задач.
Эксперименты, проведенные в ходе исследования показывают, что EfficientQAT превосходит существующие методы квантования по производительности и эффективности потребления памяти.
Например, модель Llama-2-70B была квантована до 2 бит на одном GPU A100-80GB за 41 час с потерей точности менее 3%.
EfficientQAT также способен улучшать точность в сложных условиях 2-битной квантизации и позволяет эффективно проводить finetune моделей.
В репозитории проекта предоставлен большой список на предварительно квантованных Model Zoo моделей семейств Llama-2 и Llama-3 в форматах EQAT, GPTQ и BitBLAS.
@ai_machinelearning_big_data
#AI #LLM #EQAT #ML #Quantization
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍24❤5🔥5👏4