Глоссарий

Что такое Vision Language Model (VLM)

Vision Language Model (VLM)

Vision Language Model — модель, объединяющая понимание изображений и текста для анализа визуального контента.

Vision Language Model — модель, объединяющая понимание изображений и текста. VLM анализирует визуальный контент и отвечает на вопросы о нём на естественном языке. Применения: описание изображений, OCR, визуальный вопрос-ответ, анализ документов и чертежей, работа с UI/скриншотами. Примеры: GPT-4 Vision, Claude 3 Vision, LLaVA, Qwen-VL. VLM критически важны для автоматизации задач, требующих визуального понимания.