Сэм Альтман опять всех мощно уделал: OpenAI представила Sora, которая генерит фантастические видео. Внутри примеры

Новая (и бесспорно, революционная) модель OpenAI принимает текстовые подсказки и превращает их в «сложные сцены с несколькими персонажами, определенными типами движения» и много чего еще. Разберемся по порядку. Но сначала демка:

Это Sora. Нет, никакой человек (кроме промт-инженера) не принимал участие в создании видео.

Итак, пока вы охаете, я раскрою детали: OpenAI представила новую модель генерации видео — Sora. Альтман написал, что Сора «может создавать реалистичные и творческие сцены из текстовых инструкций». Модель преобразования текста в видео позволяет пользователям создавать фотореалистичные видеоролики продолжительностью до минуты — и все это на основе написанных ими подсказок.

Хотите быть в курсе всех новостей ИИ? Подписывайтесь на телеграм-канал "Нейронутые", где я рассказываю о том, что происходит в этой индустрии.

Добавлю: ролики убийственно реалистичны. Gen-2 и прочие нервно сглотнули. Смотрим дальше:

И снова Sora.

В блоге OpenAI читаем: «Sora способна создавать сложные сцены с несколькими персонажами, определенными типами движения и точными деталями объекта и фона». Компания также отмечает, что модель может понимать, как объекты «существуют в физическом мире», а также «точно интерпретировать реквизит и создавать убедительных персонажей, выражающих яркие эмоции». Смотрим дальше:

Модель может генерировать видео и на из неподвижного изображения (проще говоря анимировать картинки), а также заполнять недостающие кадры существующего видео или расширять его (outpainting)

Демонстрации, созданные Sora поражают. Но многие из них содержат некоторые явные признаки ИИ — например, подозрительно движущийся пол на видео из музея. Вот:

В OpenAI говорят: модель «может испытывать трудности с точным моделированием физики сложной сцены», но результаты в целом довольно впечатляющие. Например такие:

Итак, что имеем? Всего лет назад именно генераторы текста в изображения, такие как Midjourney, выступили на переднем рубеже моделей, способных превращать слова в неподвижные изображения.

Такие компании, как Runway (Gen-2) и Pika, продемонстрировали впечатляющие модели преобразования текста в видео, а компания Google Lumiere уже признана одним из основных конкурентов OpenAI в этой области.

Подобно Sora, Lumiere предоставляет пользователям инструменты для преобразования текста в видео, а также позволяет им создавать видео из неподвижного изображения.

А теперь о грустном.

В настоящее время Sora доступна только «красным командам», которые оценивают модель на предмет потенциального вреда и рисков. OpenAI также предлагает доступ некоторым художникам, дизайнерам и кинематографистам для получения обратной связи.

Пользователи, получившие доступ, отмечают, что существующая модель может неточно моделировать физику сложной сцены и неправильно интерпретировать определенные случаи причины и следствия.

Хотите быть в курсе всех новостей ИИ? Подписывайтесь на телеграм-канал "Нейронутые", где я рассказываю о том, что происходит в этой индустрии.

Сэм Альтман опять всех мощно уделал: OpenAI представила Sora, которая генерит фантастические видео. Внутри примеры

Но в последнее время именно ии-видео начало совершенствоваться удивительными темпами.