Глоссарий
Что такое Инференс (Inference)
Инференс (Inference)
Инференс — процесс использования обученной модели для генерации предсказаний или ответов на новые входные данные.
Инференс — процесс использования обученной модели для генерации предсказаний или ответов на новые входные данные. В отличие от обучения, инференс не изменяет веса модели. Скорость инференса критична для пользовательского опыта — задержка свыше 2-3 секунд воспринимается негативно. Оптимизации: квантизация, KV-кеширование, speculative decoding, batching. Провайдеры: Together AI, Groq, Fireworks предлагают быстрый инференс открытых моделей через API.