Автор: Нина Коновалова Редактура: Игорь Иткин, Кирам Аль-Харба

Введение в диффузионные модели

Предыстория

За последние пару лет мир генеративных моделей совершил огромный скачок благодаря диффузионным моделям.

Диффузионные модели — мощный и элегантный подход к генеративному моделированию данных, который используется для многих задач.

Они успешно применяются в различных областях. Например, при генерации:

Рисунок 1. Генерация картинок по тексту [источник]

Рисунок 1. Генерация картинок по тексту [источник]

[Рисунок 2. Генерация видео по тексту [источник]](https://prod-files-secure.s3.us-west-2.amazonaws.com/fb875fd6-d46b-4f75-8a43-7beca7a54a5e/cf6fb544-b0d0-47d3-95e2-243ec88b5bd6/vlogger-corgi.mp4)

Рисунок 2. Генерация видео по тексту [источник]

Диффузионные модели помогают в медицинских задачах, 3D-моделировании и многих других сферах. Они зарекомендовали себя как эффективные инструменты для денойзинга (удаление шума из данных), заполнения пропусков в изображениях, а также создания новых, реалистичных данных, которые используются в творческих и прикладных задачах.

Что такое диффузионные модели и откуда появилась идея этой прорывной технологии? Давайте разбираться 🙂

В этом обзоре мы познакомимся с понятием диффузионных моделей, рассмотрим его с точки зрения score matching'а, вариационных автокодировщиков и стохастических дифференциальных уравнений.

Небольшой спойлер: будет немного пугающей математики, но мы постараемся передать суть происходящего за всеми формулами.

Optimal transport problem 🏎

Рисунок 3. Перенос земли землекопом, шуточная картинка [источник]

Рисунок 3. Перенос земли землекопом, шуточная картинка [источник]

Transport Mapping Problem

Задача оптимального транспорта имеет непосредственное отношение к генеративным моделям. Как перевести одно распределение в другое, еще и сделать это оптимальным способом? И что значит оптимальным? Давайте обсудим эту задачу подробнее 🙂

Есть два эмпирических распределения $\pi_0$ и $\pi_1 \in \mathbb{R}^d$. Необходимо построить такую транспортировку (транспортную карту) $T$: $\mathbb{R}^d \rightarrow \mathbb{R}^d$, что $Z_1 :=T(Z_0) \sim \pi_1$, где $Z_0 \sim \pi_0$.