🚀 Unsloth показал, как динамическая квантизация (Dynamic GGUFs) может радикально ускорить и облегчить работу LLM, не теряя качество.
В чём суть
Обычные методы квантизации уменьшают разрядность весов модели одинаково для всех слоёв.
Unsloth пошёл дальше: каждому слою подбирается своё число бит.
- Ключевые слои → 6–8 бит (чтобы сохранить точность).
- Второстепенные → 1–3 бита (для максимального сжатия).
Результаты, которых удалось добиться:
- 671B DeepSeek-V3.1: сжатие модели с 671GB до 192GB (–75%).
- 1-бит версия уже обгоняет GPT-4.1 и GPT-4.5 в «no-thinking» задачах.
- 3-бит версия превосходит Claude-4-Opus в «thinking» задачах.
- 5-бит версия догоняет и стабильно держит уровень SOTA.
🟢 Почему это интересно:
- Сжатие → модели становятся доступнее для запуска на меньших GPU.
- Качество не падает, а иногда даже растёт за счёт умного распределения битности.
- Тесты на Aider Polyglot benchmark показывают лучшие результаты среди существующих quant-моделей.
🟢 Итог
Dynamic GGUF от Unsloth — это не просто ещё один способ «урезать» модель, а технология, которая делает триллионные LLM компактными, быстрыми и при этом сверхточными.
⭐Пост: https://docs.unsloth.ai/basics/unsloth-dynamic-ggufs-on-aider-polyglot
#Unsloth #LLM #Quantization #AI #AiderPolyglot
В чём суть
Обычные методы квантизации уменьшают разрядность весов модели одинаково для всех слоёв.
Unsloth пошёл дальше: каждому слою подбирается своё число бит.
- Ключевые слои → 6–8 бит (чтобы сохранить точность).
- Второстепенные → 1–3 бита (для максимального сжатия).
Результаты, которых удалось добиться:
- 671B DeepSeek-V3.1: сжатие модели с 671GB до 192GB (–75%).
- 1-бит версия уже обгоняет GPT-4.1 и GPT-4.5 в «no-thinking» задачах.
- 3-бит версия превосходит Claude-4-Opus в «thinking» задачах.
- 5-бит версия догоняет и стабильно держит уровень SOTA.
- Сжатие → модели становятся доступнее для запуска на меньших GPU.
- Качество не падает, а иногда даже растёт за счёт умного распределения битности.
- Тесты на Aider Polyglot benchmark показывают лучшие результаты среди существующих quant-моделей.
Dynamic GGUF от Unsloth — это не просто ещё один способ «урезать» модель, а технология, которая делает триллионные LLM компактными, быстрыми и при этом сверхточными.
⭐Пост: https://docs.unsloth.ai/basics/unsloth-dynamic-ggufs-on-aider-polyglot
#Unsloth #LLM #Quantization #AI #AiderPolyglot
Please open Telegram to view this post
VIEW IN TELEGRAM
❤16👍5✍1