Глоссарий
Что такое Квантизация (Quantization)
Квантизация (Quantization)
Квантизация — метод сжатия нейронных сетей путём снижения точности числовых весов для уменьшения размера модели.
Квантизация — метод сжатия нейронных сетей путём снижения точности числовых весов с 32- или 16-битных значений до 8-, 4- или даже 2-битных. Это уменьшает размер модели и ускоряет инференс с минимальной потерей качества. Квантизация позволяет запускать модели с 70B параметрами на потребительском GPU. Популярные форматы: GGUF, GPTQ, AWQ, GGML. Инструменты: llama.cpp, AutoGPTQ, bitsandbytes. Квантизация демократизирует доступ к мощным моделям.