{"id":14291,"url":"\/distributions\/14291\/click?bit=1&hash=257d5375fbb462be671b713a7a4184bd5d4f9c6ce46e0d204104db0e88eadadd","title":"\u0420\u0435\u043a\u043b\u0430\u043c\u0430 \u043d\u0430 Ozon \u0434\u043b\u044f \u0442\u0435\u0445, \u043a\u0442\u043e \u043d\u0438\u0447\u0435\u0433\u043e \u0442\u0430\u043c \u043d\u0435 \u043f\u0440\u043e\u0434\u0430\u0451\u0442","buttonText":"","imageUuid":""}

OpenAI выпустил модель Sora для генерации видео из текста (и не только)

Вот пример видео (запрос ниже):

Виде, сгенеренное по запросу (см. ниже запрос). Источник - OpenAI

Запрос:

Стильная женщина идет по улице Токио, наполненной теплым светящимся неоном и анимированными вывесками города. На ней черная кожаная куртка, длинное красное платье и черные ботинки, она держит черную сумочку. На ней солнцезащитные очки, на губах - красная помада. Она идет уверенно и непринужденно. Асфальт мокрый и отражает свет, создавая зеркальный эффект разноцветных огней, вокруг много пешеходов.

Пример видео, сделанного моделью Sora. Источник - OpenAI

Что может модель?

Помимо генерации видео по текстовому запросу, модель также может анимировать имиджи, созданные DALL·E:

Видео, сгенеренное Sora по картинке DALL·E (запрос для создания картинки: cобака породы сиба-ину в берете и черной водолазке). Источник - OpenAI

А еще модель может редактировать видео. Можно менять стиль и фон видео:

Смена фона видео на джунгли. Источник - OpenAI

Также модеь может соединять два видео:

Источник - OpenAI

Модель может генерировать изображения различных размеров — до разрешения 2048x2048, создавать портреты крупным планом с предельной детализацией.

Источник - OpenAI

Информация о модели тут. Пока самостоятельно поиграться с моделью пока нельзя, увы. Сэм Альтман генерит видео по запрос пользователей в сети Х.

Получается, модель может все-все?

Не совсем. Разработчики отмечают, что в настоящее время Sora имеет множество ограничений. Например, она неточно моделирует физику многих основных взаимодействий, например, разбитие стакана. Другие взаимодействия, например употребление пищи, не всегда приводят к правильным изменениям состояния объекта.

Sora не вполне правдоподобно (пока) имитирует разбивающийся стакан. Источник - OpenAI

Что нового? Почему это важно?

Это сложная техническая задача сделать text2video модель.

Модель использует сложный рендеринг, интуитивную физику, долгие рассуждения и семантическое обоснование — и все это с помощью математических вычислений шумоподавления и градиента.

  • Для тренировки такой модели нужно огромное количество видео с грамотно составленным подробным текстовым описанием. Такого контента в мире мало, и OpenAI пришлось придумывать, как это сделать.
  • Требуются большие вычислительные мощности, чтобы получить реалистичные изображения (см. как меняется качество картинки ниже).
  • Наконец, получение связного движения с согласованными кадрами в длинном видео (консистентность) — сложная техническая задача. Ранее зачастую в созданных видео не было согласованности.
  • Сложно также отразить взаимодействие с реальным миром, в результате которого изображение должно поменяться (например, после откусывания бургера).
Как меняется качество картинки в зависимости от мощностей для обработки. Источник - OpenAI

Зачем это может быть нужно?

Эксперты ожидают, что в 2024 году наступит бум кино, созданного с помощью ИИ

Видео модели является путем к разработке высокофункциональных симуляторов физического и цифрового миров, а также объектов, животных и людей, которые «живут» в них. У этого может быть множество применений: от обучения до развлечения и игр. Об этом говорит сама OpenAI.

Сейчас доступ к Sora получили только известные режиссеры и актеры Голивуда. Пока что модель недоступна для публики, планируется, что OpenAI сделает ее доступной для всех в конце года. Возможно, OpenAI также работает над лицензионным соглашением.

Пожалуйста, поддержите меня, поставьте лайк!

Google показал нейросеть Lumiere для генерации видео по текстовому запросу или картинке
Стлизованные видео в формате акварельного рисунка. Источник
Стратап-единорог ElevenLabs представил сервис онлайн дубляжа видео и аудио записей

Dubbing Studio может переводить записи на 29 языков (включая русский) за минуты, при этом сохраняя уникальные особенности голосов спикеров (тон, стиль). Нужно лишь загрузить видео или аудио и выбрать язык для перевода.

Интерфейс сервиса для дубляжа. Источник
Китайский стартап выпустил реставратор изображений

Вот как меняется изображение:

Результат реставрации фото. Слева - исходная картинка, справа - улучшенная. Источник
0
Комментарии
-3 комментариев
Раскрывать всегда