Глоссарий

Что такое Инференс (Inference)

Инференс (Inference)

Инференс — процесс использования обученной модели для генерации предсказаний или ответов на новые входные данные.

Инференс — процесс использования обученной модели для генерации предсказаний или ответов на новые входные данные. В отличие от обучения, инференс не изменяет веса модели. Скорость инференса критична для пользовательского опыта — задержка свыше 2-3 секунд воспринимается негативно. Оптимизации: квантизация, KV-кеширование, speculative decoding, batching. Провайдеры: Together AI, Groq, Fireworks предлагают быстрый инференс открытых моделей через API.