Глоссарий

Что такое Diffusion Model

Diffusion Model (Диффузионная модель)

Diffusion Model -- это тип генеративной модели, которая создает изображения путем постепенного удаления шума из случайного начального состояния.

Диффузионные модели (Diffusion Models) -- это класс генеративных моделей, основанных на процессе постепенного зашумления и обратного восстановления данных. Они лежат в основе большинства современных систем генерации изображений.

Принцип работы:

Прямой процесс (Forward). Исходное изображение постепенно зашумляется -- к нему на каждом шаге добавляется гауссов шум, пока оно не превращается в чистый шум.

Обратный процесс (Reverse). Модель обучается предсказывать и удалять шум на каждом шаге, постепенно восстанавливая изображение из случайного шума. Именно этот процесс используется при генерации.

Условная генерация. Для управления результатом используется conditioning -- текстовое описание (промпт) преобразуется в числовое представление и направляет процесс денойзинга. Это позволяет генерировать изображения по текстовому описанию.

Ключевые модели: Stable Diffusion (Stability AI), DALL-E 3 (OpenAI), Midjourney, Flux (Black Forest Labs), Imagen (Google).

Преимущества: высокое качество генерации, гибкость (inpainting, outpainting, img2img), возможность fine-tuning (LoRA, DreamBooth), работа на потребительских GPU.

Ограничения: относительно медленная генерация по сравнению с GAN, требуют значительной вычислительной мощности, сложность контроля мелких деталей.

Что такое Diffusion Model -- Diffusion Model (Диффузионная модель) | AIHub