OpenAI выпустил модель Sora для генерации видео из текста (и не только)
Вот пример видео (запрос ниже):
Подписывайтесь на мой канал: продуктовые штуки одной строкой
Запрос:
Стильная женщина идет по улице Токио, наполненной теплым светящимся неоном и анимированными вывесками города. На ней черная кожаная куртка, длинное красное платье и черные ботинки, она держит черную сумочку. На ней солнцезащитные очки, на губах - красная помада. Она идет уверенно и непринужденно. Асфальт мокрый и отражает свет, создавая зеркальный эффект разноцветных огней, вокруг много пешеходов.
Что может модель?
Помимо генерации видео по текстовому запросу, модель также может анимировать имиджи, созданные DALL·E:
А еще модель может редактировать видео. Можно менять стиль и фон видео:
Также модеь может соединять два видео:
Модель может генерировать изображения различных размеров — до разрешения 2048x2048, создавать портреты крупным планом с предельной детализацией.
Информация о модели тут. Пока самостоятельно поиграться с моделью пока нельзя, увы. Сэм Альтман генерит видео по запрос пользователей в сети Х.
Получается, модель может все-все?
Не совсем. Разработчики отмечают, что в настоящее время Sora имеет множество ограничений. Например, она неточно моделирует физику многих основных взаимодействий, например, разбитие стакана. Другие взаимодействия, например употребление пищи, не всегда приводят к правильным изменениям состояния объекта.
Что нового? Почему это важно?
Это сложная техническая задача сделать text2video модель.
Модель использует сложный рендеринг, интуитивную физику, долгие рассуждения и семантическое обоснование — и все это с помощью математических вычислений шумоподавления и градиента.
- Для тренировки такой модели нужно огромное количество видео с грамотно составленным подробным текстовым описанием. Такого контента в мире мало, и OpenAI пришлось придумывать, как это сделать.
- Требуются большие вычислительные мощности, чтобы получить реалистичные изображения (см. как меняется качество картинки ниже).
- Наконец, получение связного движения с согласованными кадрами в длинном видео (консистентность) — сложная техническая задача. Ранее зачастую в созданных видео не было согласованности.
- Сложно также отразить взаимодействие с реальным миром, в результате которого изображение должно поменяться (например, после откусывания бургера).
Зачем это может быть нужно?
Эксперты ожидают, что в 2024 году наступит бум кино, созданного с помощью ИИ
Видео модели является путем к разработке высокофункциональных симуляторов физического и цифрового миров, а также объектов, животных и людей, которые «живут» в них. У этого может быть множество применений: от обучения до развлечения и игр. Об этом говорит сама OpenAI.
Сейчас доступ к Sora получили только известные режиссеры и актеры Голивуда. Пока что модель недоступна для публики, планируется, что OpenAI сделает ее доступной для всех в конце года. Возможно, OpenAI также работает над лицензионным соглашением.