Как ИИ создаёт видео: разбираем технологию

В последний год генерация видео из текста получила заметный импульс. OpenAI показала Sora, Google DeepMind выкатила Veo 3, Runway запустила Gen-4. Демо-ролики выглядят впечатляюще, а Netflix даже успел использовать ИИ-эффекты в сериале «Этернавт». Давайте глянем, что там под капотом у нашумевших видео-генераторов.

Как ИИ создаёт видео: разбираем технологию

Стоит помнить, что публике обычно показывают вишенку на торте — тщательно отобранные клипы на промо-страницах, но в целом примерно все могут сгенерировать что-то более менее приличное. Обратная сторона — ленты соцсетей наполняются ИИ-слопом и фейковыми новостями, а на генерацию видео уходит колоссальное количество энергии. Но как это всё работает?

Анатомия видео-ИИ: латентные диффузионные трансформеры

Звучит сложновато, но попробую объянить.

Шаг 1: Диффузия — от шума к картинке

Представьте, что вы берёте изображение и постепенно добавляете на него случайные пиксели, пока оно не превратится в хаотичный шум, как на старом телевизоре. Диффузионная модель — это нейросеть, обученная делать обратное: превращать шум в осмысленное изображение.

Она стартует со случайного набора пикселей и шаг за шагом «очищает» его, приближаясь к тому, что видела в обучающих данных. Чтобы картинка соответствовала вашему запросу (например, «единорог ест спагетти»), процесс направляет языковая модель, которая сверяет результат с текстовым описанием.

Шаг 2: Латентное пространство — сжимаем для скорости

Обработка миллионов пикселей в каждом кадре видео — крайне энергозатратный процесс. Поэтому большинство современных моделей используют латентную диффузию.

Вместо работы с сырыми кадрами, модель сжимает их в математический код — латентное пространство. В этом сжатом виде хранятся только ключевые особенности изображения. Это похоже на то, как видео сжимается для стриминга в интернете. Процесс «очистки» от шума происходит уже в этом компактном пространстве, что делает его гораздо эффективнее. Хотя энергии всё равно уходит очень много.

Шаг 3: Трансформеры

Остаётся одна проблема: как сделать так, чтобы объекты в видео не мерцали, не исчезали и не меняли форму от кадра к кадру? Здесь на помощь приходят трансформеры — архитектура, которая лежит в основе больших языковых моделей вроде GPT.

Трансформеры отлично работают с последовательностями данных. OpenAI в Sora придумала, как «нарезать» видео на пространственно-временные кубы («spacetime patches»). Трансформер обрабатывает эти кубы как последовательность, обеспечивая смысловую и визуальную связность между кадрами. Именно это и позволяет объектам сохранять свою форму и логично перемещаться в пространстве.

А что со звуком?

Долгое время генеративные видео были немыми. Прорывом здесь стал Veo 3 от Google DeepMind. Их модель научилась генерировать видео и аудио одновременно.

Технологически это решено так: аудио и видео сжимаются в единый блок данных внутри латентного пространства. Диффузионная модель создаёт их синхронно, обеспечивая точное совпадение звука с картинкой — от диалогов до фоновых шумов. Как выразился CEO DeepMind Демис Хассабис: «Мы выходим из эры немого кино в генерации видео».

Подписывайтесь на Telegram Нейрократия.

1
Начать дискуссию