Автор: Нина Коновалова
Редактура: Александр Наздрюхин
🗂️ Project page
📄 GitHub
📎 Paper
Видео-диффузионные модели всё больше набирают популярность, достигая хорошего качества:
[Рисунок 1. Пример видеогенерации [источник]](https://prod-files-secure.s3.us-west-2.amazonaws.com/fb875fd6-d46b-4f75-8a43-7beca7a54a5e/096eb34e-d853-4382-bb47-d95d56db6861/video_2024-10-18_14-54-18.mp4)
Рисунок 1. Пример видеогенерации [источник]
Отдельный тип задачи генерации видео — image-to-video, или анимация входного изображения.
[Рисунок 2. Пример анимации изображения [источник]](https://prod-files-secure.s3.us-west-2.amazonaws.com/fb875fd6-d46b-4f75-8a43-7beca7a54a5e/5116e38c-f5e0-4061-a8cd-1a0975d2b53c/tokyo_watermarked.mp4)
Рисунок 2. Пример анимации изображения [источник]
Большая часть этих моделей учится на видеорядах и изображениях — она улавливает законы физики из того, что видит, но не получает их непосредственно.
А что если попытаться дополнительно дать модели знания о физических законах при генерации? Именно такую задачу поставили перед собой авторы работы **PhysGen. Основная идея здесь** — интеграция физической симуляции процесса в генерацию видео для получения результатов, соответствующих реальным законам нашего мира 🙂
Например, ниже представлены видео, сгенерированные обычной видео-диффузионной моделью и моделью, предложенной авторами.

Рисунок 3.1. Input image
Рисунок 3.2. Other video-diffusion
Рисунок 3.2. Other video-diffusion
[Рисунок 3.3. PhysGen [источник]](https://prod-files-secure.s3.us-west-2.amazonaws.com/fb875fd6-d46b-4f75-8a43-7beca7a54a5e/6a113366-987d-412d-99d2-2a8c0dbda6c5/book_bottle.mp4)
Рисунок 3.3. PhysGen [источник]
В этой статье мы не будем подробно останавливаться на работе различных диффузионных видеогенераторов. Напомним, что они принимают на вход изображение (обычно) и текстовый промпт (иногда), чтобы описать, как перевести изображение в видео. Есть много работ о тренировке такого видеогенератора, которые мы обсудим в следующих статьях. Stay tuned! 😊
Давайте посмотрим, как же всё-таки сделать генерацию видео с учётом законов физики. Для начала ещё раз чётко сформулируем основную задачу:
Хотим получить реалистичный видеогенератор, который качественно воспроизводит динамику и взаимодействие твёрдых тел. В качестве входа подаётся изображение, а также дополнительно указывается изначальная сила или момент силы.