Глоссарий

Что такое Квантизация (Quantization)

Квантизация (Quantization)

Квантизация — метод сжатия нейронных сетей путём снижения точности числовых весов для уменьшения размера модели.

Квантизация — метод сжатия нейронных сетей путём снижения точности числовых весов с 32- или 16-битных значений до 8-, 4- или даже 2-битных. Это уменьшает размер модели и ускоряет инференс с минимальной потерей качества. Квантизация позволяет запускать модели с 70B параметрами на потребительском GPU. Популярные форматы: GGUF, GPTQ, AWQ, GGML. Инструменты: llama.cpp, AutoGPTQ, bitsandbytes. Квантизация демократизирует доступ к мощным моделям.

Что такое Квантизация (Quantization) -- Квантизация (Quantization) | AIHub