OpenAI выпустил модель Sora для генерации видео из текста (и не только)

Вот пример видео (запрос ниже):

Виде, сгенеренное по запросу (см. ниже запрос). Источник - OpenAI

Запрос:

Стильная женщина идет по улице Токио, наполненной теплым светящимся неоном и анимированными вывесками города. На ней черная кожаная куртка, длинное красное платье и черные ботинки, она держит черную сумочку. На ней солнцезащитные очки, на губах - красная помада. Она идет уверенно и непринужденно. Асфальт мокрый и отражает свет, создавая зеркальный эффект разноцветных огней, вокруг много пешеходов.

Пример видео, сделанного моделью Sora. Источник - OpenAI

Что может модель?

Помимо генерации видео по текстовому запросу, модель также может анимировать имиджи, созданные DALL·E:

Видео, сгенеренное Sora по картинке DALL·E (запрос для создания картинки: cобака породы сиба-ину в берете и черной водолазке). Источник - OpenAI

А еще модель может редактировать видео. Можно менять стиль и фон видео:

Смена фона видео на джунгли. Источник - <a href="https://openai.com/research/video-generation-models-as-world-simulators" rel="nofollow noreferrer noopener" target="_blank">OpenAI</a><br />
Смена фона видео на джунгли. Источник - OpenAI

Также модеь может соединять два видео:

Источник - OpenAI

Модель может генерировать изображения различных размеров — до разрешения 2048x2048, создавать портреты крупным планом с предельной детализацией.

Источник - <a href="https://openai.com/research/video-generation-models-as-world-simulators" rel="nofollow noreferrer noopener" target="_blank">OpenAI</a>
Источник - OpenAI

Информация о модели тут. Пока самостоятельно поиграться с моделью пока нельзя, увы. Сэм Альтман генерит видео по запрос пользователей в сети Х.

Получается, модель может все-все?

Не совсем. Разработчики отмечают, что в настоящее время Sora имеет множество ограничений. Например, она неточно моделирует физику многих основных взаимодействий, например, разбитие стакана. Другие взаимодействия, например употребление пищи, не всегда приводят к правильным изменениям состояния объекта.

Sora не вполне правдоподобно (пока) имитирует разбивающийся стакан. Источник - <a href="https://openai.com/research/video-generation-models-as-world-simulators" rel="nofollow noreferrer noopener" target="_blank">OpenAI</a>
Sora не вполне правдоподобно (пока) имитирует разбивающийся стакан. Источник - OpenAI

Что нового? Почему это важно?

Это сложная техническая задача сделать text2video модель.

Модель использует сложный рендеринг, интуитивную физику, долгие рассуждения и семантическое обоснование — и все это с помощью математических вычислений шумоподавления и градиента.

  • Для тренировки такой модели нужно огромное количество видео с грамотно составленным подробным текстовым описанием. Такого контента в мире мало, и OpenAI пришлось придумывать, как это сделать.
  • Требуются большие вычислительные мощности, чтобы получить реалистичные изображения (см. как меняется качество картинки ниже).
  • Наконец, получение связного движения с согласованными кадрами в длинном видео (консистентность) — сложная техническая задача. Ранее зачастую в созданных видео не было согласованности.
  • Сложно также отразить взаимодействие с реальным миром, в результате которого изображение должно поменяться (например, после откусывания бургера).
Как меняется качество картинки в зависимости от мощностей для обработки. Источник - <a href="https://openai.com/research/video-generation-models-as-world-simulators" rel="nofollow noreferrer noopener" target="_blank">OpenAI</a><br />
Как меняется качество картинки в зависимости от мощностей для обработки. Источник - OpenAI

Зачем это может быть нужно?

Эксперты ожидают, что в 2024 году наступит бум кино, созданного с помощью ИИ

Видео модели является путем к разработке высокофункциональных симуляторов физического и цифрового миров, а также объектов, животных и людей, которые «живут» в них. У этого может быть множество применений: от обучения до развлечения и игр. Об этом говорит сама OpenAI.

Сейчас доступ к Sora получили только известные режиссеры и актеры Голивуда. Пока что модель недоступна для публики, планируется, что OpenAI сделает ее доступной для всех в конце года. Возможно, OpenAI также работает над лицензионным соглашением.

Пожалуйста, поддержите меня, поставьте лайк!

954954 показа
697697 открытий
Начать дискуссию