🚀 Unsloth Dynamic v2.0: Революция в квантизации языковых моделей
Команда Unsloth представила важное обновление своего метода квантизации - Dynamic v2.0, который устанавливает новые стандарты производительности для сжатых LLM-моделей.
💡 Техническая суть обновления
• Интеллектуальная послойная квантизация: Вместо избирательной модификации определенных слоев, Dynamic 2.0 динамически адаптирует тип квантизации для каждого возможного слоя, причем комбинации различаются в зависимости от слоя и архитектуры модели
• Улучшенный калибровочный датасет: От 300K до 1.5M токенов высококачественных, вручную отобранных данных для оптимизации разговорной производительности
• Расширенная совместимость: Теперь работает со всеми архитектурами, включая MoE (раньше оптимально работал только с DeepSeek-R1)
• Модельно-специфичная оптимизация: Каждая модель получает индивидуально настроенную схему квантизации - слои, квантизированные в Gemma 3, значительно отличаются от таковых в Llama 4
📊 Оценка качества через KL-дивергенцию
Unsloth использует KL-дивергенцию как золотой стандарт для измерения ошибок квантизации вместо перплексии. Как показывает исследование "Accuracy is Not All You Need", перплексия может давать искаженные результаты из-за компенсирующих эффектов вероятностей токенов, в то время как KL-дивергенция напрямую коррелирует с "флипами" - изменениями ответов с неверных на верные и наоборот.
🧪 Результаты
На примере Gemma 3 27B:
• Dynamic 2.0 с квантизацией Q2_K_XL достигает 68.70% по MMLU 5-shot (против 67.77% в стандартной квантизации)
• 4-битная версия на 2GB меньше, но даёт на 1% лучшую точность, чем QAT-версия от Google
Метрика эффективности, рассчитанная как (MMLU 5-shot - 25)/размер в GB, показывает, что 2-битные квантизации (IQ2_XXS, IQ2_M, Q2_K_XL) обеспечивают оптимальный баланс между производительностью и размером.
🛠 Доступные модели с Dynamic v2.0
• DeepSeek: R1, V3-0324
• Llama: 4 (Scout), 3.1 (8B)
• Gemma 3: 4B, 12B, 27B
• Mistral: Small-3.1-2503
Все квантизированные модели доступны на Hugging Face и готовы к запуску в любом движке вывода: llama.cpp, Ollama или Open WebUI.
Unsloth также помог исправить несколько критических багов в Llama 4, что привело к повышению точности MMLU Pro с 68.58% до 71.53%.
#квантизация #Unsloth #Gemma3 #Llama4 #оптимизация
———
@tsingular
Команда Unsloth представила важное обновление своего метода квантизации - Dynamic v2.0, который устанавливает новые стандарты производительности для сжатых LLM-моделей.
💡 Техническая суть обновления
• Интеллектуальная послойная квантизация: Вместо избирательной модификации определенных слоев, Dynamic 2.0 динамически адаптирует тип квантизации для каждого возможного слоя, причем комбинации различаются в зависимости от слоя и архитектуры модели
• Улучшенный калибровочный датасет: От 300K до 1.5M токенов высококачественных, вручную отобранных данных для оптимизации разговорной производительности
• Расширенная совместимость: Теперь работает со всеми архитектурами, включая MoE (раньше оптимально работал только с DeepSeek-R1)
• Модельно-специфичная оптимизация: Каждая модель получает индивидуально настроенную схему квантизации - слои, квантизированные в Gemma 3, значительно отличаются от таковых в Llama 4
📊 Оценка качества через KL-дивергенцию
Unsloth использует KL-дивергенцию как золотой стандарт для измерения ошибок квантизации вместо перплексии. Как показывает исследование "Accuracy is Not All You Need", перплексия может давать искаженные результаты из-за компенсирующих эффектов вероятностей токенов, в то время как KL-дивергенция напрямую коррелирует с "флипами" - изменениями ответов с неверных на верные и наоборот.
🧪 Результаты
На примере Gemma 3 27B:
• Dynamic 2.0 с квантизацией Q2_K_XL достигает 68.70% по MMLU 5-shot (против 67.77% в стандартной квантизации)
• 4-битная версия на 2GB меньше, но даёт на 1% лучшую точность, чем QAT-версия от Google
Метрика эффективности, рассчитанная как (MMLU 5-shot - 25)/размер в GB, показывает, что 2-битные квантизации (IQ2_XXS, IQ2_M, Q2_K_XL) обеспечивают оптимальный баланс между производительностью и размером.
🛠 Доступные модели с Dynamic v2.0
• DeepSeek: R1, V3-0324
• Llama: 4 (Scout), 3.1 (8B)
• Gemma 3: 4B, 12B, 27B
• Mistral: Small-3.1-2503
Все квантизированные модели доступны на Hugging Face и готовы к запуску в любом движке вывода: llama.cpp, Ollama или Open WebUI.
Unsloth также помог исправить несколько критических багов в Llama 4, что привело к повышению точности MMLU Pro с 68.58% до 71.53%.
#квантизация #Unsloth #Gemma3 #Llama4 #оптимизация
———
@tsingular
👍6❤🔥2⚡1