🧠 Как впихнуть нейросеть в тостер — квантизация
Короче, нейросети огромные, а памяти мало, грустно.
Чтобы всё это хоть как-то работало на обычных устройствах, придумали квантизацию — берём большие весёлые 32-битные числа и сжимаем их до унылых 4-8 бит.
Типа была модель на стероидах — стала на диете. Если подходить к этому с умом, то работает почти так же, зато влезает в память.
📚 Классный визуальный гайд по теме — прям с картинками и всё понятно:
👉 https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-quantization
#LLM #Transformer #Quantization #Efficiency
Короче, нейросети огромные, а памяти мало, грустно.
Чтобы всё это хоть как-то работало на обычных устройствах, придумали квантизацию — берём большие весёлые 32-битные числа и сжимаем их до унылых 4-8 бит.
Типа была модель на стероидах — стала на диете. Если подходить к этому с умом, то работает почти так же, зато влезает в память.
📚 Классный визуальный гайд по теме — прям с картинками и всё понятно:
👉 https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-quantization
#LLM #Transformer #Quantization #Efficiency
❤1👍1