Автор: Нина Коновалова

Редактура: Александр Наздрюхин

Введение

🗂️ Project page

📄 GitHub

📎 Paper

Видео-диффузионные модели всё больше набирают популярность, достигая хорошего качества:

[Рисунок 1. Пример видеогенерации [источник]](https://prod-files-secure.s3.us-west-2.amazonaws.com/fb875fd6-d46b-4f75-8a43-7beca7a54a5e/096eb34e-d853-4382-bb47-d95d56db6861/video_2024-10-18_14-54-18.mp4)

Рисунок 1. Пример видеогенерации [источник]

Отдельный тип задачи генерации видео — image-to-video, или анимация входного изображения.

[Рисунок 2. Пример анимации изображения [источник]](https://prod-files-secure.s3.us-west-2.amazonaws.com/fb875fd6-d46b-4f75-8a43-7beca7a54a5e/5116e38c-f5e0-4061-a8cd-1a0975d2b53c/tokyo_watermarked.mp4)

Рисунок 2. Пример анимации изображения [источник]

Большая часть этих моделей учится на видеорядах и изображениях — она улавливает законы физики из того, что видит, но не получает их непосредственно.

А что если попытаться дополнительно дать модели знания о физических законах при генерации? Именно такую задачу поставили перед собой авторы работы **PhysGen. Основная идея здесь** — интеграция физической симуляции процесса в генерацию видео для получения результатов, соответствующих реальным законам нашего мира 🙂

Например, ниже представлены видео, сгенерированные обычной видео-диффузионной моделью и моделью, предложенной авторами.

Рисунок 3.1. Input image

Рисунок 3.1. Input image

Рисунок 3.2. Other video-diffusion

Рисунок 3.2. Other video-diffusion

[Рисунок 3.3. PhysGen [источник]](https://prod-files-secure.s3.us-west-2.amazonaws.com/fb875fd6-d46b-4f75-8a43-7beca7a54a5e/6a113366-987d-412d-99d2-2a8c0dbda6c5/book_bottle.mp4)

Рисунок 3.3. PhysGen [источник]

В этой статье мы не будем подробно останавливаться на работе различных диффузионных видеогенераторов. Напомним, что они принимают на вход изображение (обычно) и текстовый промпт (иногда), чтобы описать, как перевести изображение в видео. Есть много работ о тренировке такого видеогенератора, которые мы обсудим в следующих статьях. Stay tuned! 😊

Pipeline

Давайте посмотрим, как же всё-таки сделать генерацию видео с учётом законов физики. Для начала ещё раз чётко сформулируем основную задачу:

Хотим получить реалистичный видеогенератор, который качественно воспроизводит динамику и взаимодействие твёрдых тел. В качестве входа подаётся изображение, а также дополнительно указывается изначальная сила или момент силы.