Что такое Diffusion Model
Diffusion Model (Диффузионная модель)
Diffusion Model -- это тип генеративной модели, которая создает изображения путем постепенного удаления шума из случайного начального состояния.
Диффузионные модели (Diffusion Models) -- это класс генеративных моделей, основанных на процессе постепенного зашумления и обратного восстановления данных. Они лежат в основе большинства современных систем генерации изображений.
Принцип работы:
Прямой процесс (Forward). Исходное изображение постепенно зашумляется -- к нему на каждом шаге добавляется гауссов шум, пока оно не превращается в чистый шум.
Обратный процесс (Reverse). Модель обучается предсказывать и удалять шум на каждом шаге, постепенно восстанавливая изображение из случайного шума. Именно этот процесс используется при генерации.
Условная генерация. Для управления результатом используется conditioning -- текстовое описание (промпт) преобразуется в числовое представление и направляет процесс денойзинга. Это позволяет генерировать изображения по текстовому описанию.
Ключевые модели: Stable Diffusion (Stability AI), DALL-E 3 (OpenAI), Midjourney, Flux (Black Forest Labs), Imagen (Google).
Преимущества: высокое качество генерации, гибкость (inpainting, outpainting, img2img), возможность fine-tuning (LoRA, DreamBooth), работа на потребительских GPU.
Ограничения: относительно медленная генерация по сравнению с GAN, требуют значительной вычислительной мощности, сложность контроля мелких деталей.