Китайcкая компания представила Vidu - генератор видео с ИИ, который будет конкурировать с Sora от OpenAI

Китайcкая компания представила Vidu - генератор видео с ИИ, который будет конкурировать с Sora от OpenAI

Когда компания OpenAI анонсировала Sora, инструмент на базе ИИ, преобразующий текстовые описания в видео, он быстро стал мировой сенсацией благодаря своим умопомрачительным результатам. Ближайшие конкуренты, Pika Labs и RunwayML, значительно отставали по качеству и согласованности текстовых промптов.

Еще больше полезностей - в моем телеграм-канале про нейросети и канале про генерацию изображений Миджорниум.

Возможно, одна из причин заключается в том, что для работы ИИ-генераторов видео требуется большие вычислительные мощности. Для создания минутного ролика Sora потребовалось восемь графических процессоров NVIDIA A100, которые работали более трех часов. Один NVIDIA A100 стоит более 10 000 долларов США.

Но у Sora наконец-то появился реальный конкурент - в Китае представили ИИ-инструмент для преобразования текста в видео, Vidu.

Что такое Vidu?

Vidu - это модель ИИ для работы с текстом и видео, разработанная китайским ИИ-стартапом ShengShu Technology и Университетом Цинхуа. Она была анонсирована 27 апреля 2024 года и предназначена для создания 16-секундных видеороликов высокой четкости в разрешении 1080p в один клик.

По словам главного научного сотрудника Shengshu Чжу Цзюня,

"Она обладает богатым воображением, может имитировать физический мир и создавать 16-секундные видеоролики с одинаковыми персонажами, сценами и временной шкалой".

Посмотрите несколько примеров из демонстрационного ролика.

Однако я не уверен на 100%, что примеры в демонстрационном видео действительно были сгенерированы Vidu и не подвергались каким-либо обработкам.

ИИ-модель Vidu построена на запатентованной архитектуре модели визуальной трансформации под названием Universal Vision Transformer (U-ViT), которая объединяет две модели ИИ для преобразования текста в видео: Diffusion и Transformer.

Эта архитектура позволяет создавать действительно качественные видеоролики с динамичными движениями камеры, сложной мимикой, аутентичными эффектами освещения и тени.

Лучше ли она, чем Sora?

Забавно, что демонстрационный ролик включает в себя клипы, которые напоминают некоторые демонстрационные ролики OpenAI для Sora. Взгляните для сравнения на пример ниже:

Sora
Vidu

Какое из них лучше? Честно говоря, мне нравятся оба видео. Но более мягкие и теплые тона видео, созданного Vidu, делают его более реалистичным и естественным.

Также стоит отметить, что Sora может генерировать видео длительностью до 60 секунд, а Vidu - только до 16 секунд.

Как получить доступ

В настоящее время Vidu недоступен для широкой публики. Однако они открыли лист ожидания, чтобы получить ранний доступ:

  1. Перейдите на сайт www.shengshu-ai.com
  2. Нажмите на синюю кнопку в правом верхнем углу страницы
  3. Заполните форму, чтобы запросить доступ
Китайcкая компания представила Vidu - генератор видео с ИИ, который будет конкурировать с Sora от OpenAI

Демонстрационные видеоролики Vidu выглядят очень впечатляюще, но мы должны воспринимать их с долей скепсиса, пока сами не проверим качество и реалистичность видео.

Китай продемонстрировал Vidu - это очень важно, потому что это показывает, что у них есть технологии и ресурсы, чтобы конкурировать с лучшими в мире, говоря об ИИ. Мне не терпится получить в свои руки Vidu и посмотреть, как он будет противостоять Sora.

Еще больше полезностей - в моем телеграм-канале про нейросети и канале про генерацию изображений Миджорниум.

Источник статьи на английском - здесь.

2
1 комментарий

Странно, но кнопка отправки в их форме не работает :/

Ответить