OpenAI выпустил модель Sora для генерации видео из текста (и не только)

🔥 Еще больше интересного в моем канале продуктовые штучки

Вот пример видео (запрос ниже):

Виде, сгенеренное по запросу (см. ниже запрос). Источник - OpenAI

Подписывайтесь на мой канал: продуктовые штуки одной строкой

Запрос:

Стильная женщина идет по улице Токио, наполненной теплым светящимся неоном и анимированными вывесками города. На ней черная кожаная куртка, длинное красное платье и черные ботинки, она держит черную сумочку. На ней солнцезащитные очки, на губах - красная помада. Она идет уверенно и непринужденно. Асфальт мокрый и отражает свет, создавая зеркальный эффект разноцветных огней, вокруг много пешеходов.

Пример видео, сделанного моделью Sora. Источник - OpenAI

Помимо генерации видео по текстовому запросу, модель также может анимировать имиджи, созданные DALL·E:

Видео, сгенеренное Sora по картинке DALL·E (запрос для создания картинки: cобака породы сиба-ину в берете и черной водолазке). Источник - OpenAI

А еще модель может редактировать видео. Можно менять стиль и фон видео:

Смена фона видео на джунгли. Источник - <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fopenai.com%2Fresearch%2Fvideo-generation-models-as-world-simulators&postId=1033523" rel="nofollow noreferrer noopener" target="_blank">OpenAI</a><br />

Также модеь может соединять два видео:

Источник - OpenAI

Модель может генерировать изображения различных размеров — до разрешения 2048x2048, создавать портреты крупным планом с предельной детализацией.

Источник - <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fopenai.com%2Fresearch%2Fvideo-generation-models-as-world-simulators&postId=1033523" rel="nofollow noreferrer noopener" target="_blank">OpenAI</a>

Информация о модели тут. Пока самостоятельно поиграться с моделью пока нельзя, увы. Сэм Альтман генерит видео по запрос пользователей в сети Х.

Недавно Google выпустил модель Lumiere с аналогичным функционалом.

Не совсем. Разработчики отмечают, что в настоящее время Sora имеет множество ограничений. Например, она неточно моделирует физику многих основных взаимодействий, например, разбитие стакана. Другие взаимодействия, например употребление пищи, не всегда приводят к правильным изменениям состояния объекта.

Sora не вполне правдоподобно (пока) имитирует разбивающийся стакан. Источник - <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fopenai.com%2Fresearch%2Fvideo-generation-models-as-world-simulators&postId=1033523" rel="nofollow noreferrer noopener" target="_blank">OpenAI</a>

Это сложная техническая задача сделать text2video модель.

Модель использует сложный рендеринг, интуитивную физику, долгие рассуждения и семантическое обоснование — и все это с помощью математических вычислений шумоподавления и градиента.

Для тренировки такой модели нужно огромное количество видео с грамотно составленным подробным текстовым описанием. Такого контента в мире мало, и OpenAI пришлось придумывать, как это сделать.
Требуются большие вычислительные мощности, чтобы получить реалистичные изображения (см. как меняется качество картинки ниже).
Наконец, получение связного движения с согласованными кадрами в длинном видео (консистентность) — сложная техническая задача. Ранее зачастую в созданных видео не было согласованности.
Сложно также отразить взаимодействие с реальным миром, в результате которого изображение должно поменяться (например, после откусывания бургера).

Как меняется качество картинки в зависимости от мощностей для обработки. Источник - <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fopenai.com%2Fresearch%2Fvideo-generation-models-as-world-simulators&postId=1033523" rel="nofollow noreferrer noopener" target="_blank">OpenAI</a><br />

Эксперты ожидают, что в 2024 году наступит бум кино, созданного с помощью ИИ

Видео модели является путем к разработке высокофункциональных симуляторов физического и цифрового миров, а также объектов, животных и людей, которые «живут» в них. У этого может быть множество применений: от обучения до развлечения и игр. Об этом говорит сама OpenAI.

Сейчас доступ к Sora получили только известные режиссеры и актеры Голивуда. Пока что модель недоступна для публики, планируется, что OpenAI сделает ее доступной для всех в конце года. Возможно, OpenAI также работает над лицензионным соглашением.

#ии #иибудущее #ai #нейросети #сервисы #будущееии #сервис #иисервисы #openai #sora #видео #иимодели #text2video

Наташа Хазеева

Сервисы

26.01.2024

Google показал нейросеть Lumiere для генерации видео по текстовому запросу или картинке

Стлизованные видео в формате акварельного рисунка. <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Flumiere-video.github.io%2F&postId=1002092" rel="nofollow noreferrer noopener" target="_blank">Источник</a><br />

Наташа Хазеева

Сервисы

30.01.2024

Стратап-единорог ElevenLabs представил сервис онлайн дубляжа видео и аудио записей

Dubbing Studio может переводить записи на 29 языков (включая русский) за минуты, при этом сохраняя уникальные особенности голосов спикеров (тон, стиль). Нужно лишь загрузить видео или аудио и выбрать язык для перевода.

Интерфейс сервиса для дубляжа. <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Felevenlabs.io%2Fdubbing&postId=1003346" rel="nofollow noreferrer noopener" target="_blank">Источник</a>

Наташа Хазеева

Сервисы

04.02.2024

Китайский стартап выпустил реставратор изображений

Вот как меняется изображение:

Результат реставрации фото. Слева - исходная картинка, справа - улучшенная. <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fsupir.xpixel.group%2F&postId=1014665" rel="nofollow noreferrer noopener" target="_blank">Источник</a><br />

OpenAI выпустил модель Sora для генерации видео из текста (и не только)

Что может модель?

Получается, модель может все-все?

Что нового? Почему это важно?

Зачем это может быть нужно?

Пожалуйста, поддержите меня, поставьте лайк!