Machinelearning

🌟 EfficientQAT: метод эффективного квантизационного обучения LLM

Efficient Quantization-Aware Training (EfficientQAT) предлагает новую технику для сжатия LLM, состоящую из двух этапов: блочное обучение всех параметров (Block-AP) и обучение параметров квантования (E2E-QP).
Block-AP последовательно проводит квантизационное обучение для всех параметров каждого блока трансформера с блочной реконструкцией.

Это позволяет избежать обучения всей модели и сохраняет эффективность памяти.

На втором этапе EfficientQAT фиксируются веса и обучаются только параметры квантования (шаги квантования) на целевых наборах данных. Это повышает производительность и позволяет проводить инструктаж моделей для выполнения специфических задач.

Эксперименты, проведенные в ходе исследования показывают, что EfficientQAT превосходит существующие методы квантования по производительности и эффективности потребления памяти.

Например, модель Llama-2-70B была квантована до 2 бит на одном GPU A100-80GB за 41 час с потерей точности менее 3%.
EfficientQAT также способен улучшать точность в сложных условиях 2-битной квантизации и позволяет эффективно проводить finetune моделей.

В репозитории проекта предоставлен большой список на предварительно квантованных Model Zoo моделей семейств Llama-2 и Llama-3 в форматах EQAT, GPTQ и BitBLAS.

🟡

Arxiv

🟡

Модели на на HF

🖥

Github [ Stars: 62 | Issues: 1 | Forks: 3]

@ai_machinelearning_big_data

#AI #LLM #EQAT #ML #Quantization

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍24❤5🔥5👏4

8.15K views13:03

About

Blog

Apps

Platform