Обзор новых моделей для создания видео

Только успевай следить за обновлениями! За считанные дни анонсированы четыре новые модели для создания видео, последняя анонсирована 17 июня. Эксперты заговорили о начале генеративной видеовойны. Расскажу о них подробнее и постараюсь сравнить с Sora.

Также за последнюю неделю появилось два решения для озвучки видео (то есть создания аудио на основе видео): от Google DeepMind и стартапа-единорога ElevenLabs, подробнее о них тут.

Вот свежие модели txt2video, T2V:

  • Dream Machine (вышла ~12 июня)
  • Kling (появилась ~6 июня)
  • Vidu (вышла в конце апреля)
  • Gen-3 Alpha (анонсирована 17 июня)

А здесь - о модели Sora от OpenAI (появилась раньше всех и является своего рода эталоном), тут - о первом появившемся конкренте Stable Video, а тут - о втором, Veo от Google.

Напомню, что сейчас воспользоваться Sora нам нельзя (модель открыли для профессионального сообщества), чем и воспользовались конкуренты. В прочем, с доступом к моделям конкурентов тоже все не так радужно. Но совершенно точно, что в ближайшее время ситуация изменится и у нас будет выбор.

1) Dream Machine от Luma Labs

Возможности

Можно создавать видео по текстовому запросу и картинке. То есть, даже оживлять старые мемы. Luma Labs дают возможность создавать аж 30 видео в месяц бесплатно.

Как оценивается модель?

Те, кто попробовал уже, говорят, что качество видео хуже, чем у Sora.

Это показывает, что создание привлекательного и правдоподобного (консистентного) видео - непростая техническая задача. Подробнее о том, почему сложно создавать видео с нуля, из текста, тут. Ведь долгое (по нынешним временам! - несколько недель) время конкурентов у Sora от OpenAI не появлялось, и до сих пор мы сравниваем с этой моделью как самой «умелой».

Созданное пользователями с помощью Dream Machine видео. Источник

При этом стоит учитывать, что видео, сгенеренные авторами модели нельзя сравнивать с результатами простых пользователей. Создатели модели знают, как лучше сформулировать запрос к модели, плюс могут показать самые лучшие варианты из получившихся.

Однако замечено, что если же на вход подается первый кадр и промт, то результаты выходят заметно лучше. Видео длительностью несколько секунд.

А вот видео, созданное на основе начального кадра + промпта. Качество говорит само за себя. Источник

Upd. Умельцы поигрались с моделью и выжали из нее максимум, теперь качество не отличимо от Sora:

Как воспользоваться?

Попробовать можно уже сейчас тут.

2) Kling

Возможности

Китайская модель для генерации видео:

- создает видео до 2 минут (Sora умеет может генерировать только 1-минутное видео)

- с частотой 30 кадров в секунду (время, за которое модель генерирует такое видео, авторы не уточняют)

- разрешение 1080p

- можно устанавливать разное соотношение сторон видео

- отдельный инструмент для мультяшных танцулек для тиктоков.

На днях (20-23 июня) китайцы обновили свою модель. Теперь она умеет оживлять фото, (mage-toVideo), как и Luma, а также может увеличить видео вплоть до 3 минут: будет генериться по кусочкам, где каждый кусочек контролируется отдельным промптом.

Обновления в Kling

Авторы Kling утверждают, что модель способна отлично имитировать физические характеристики реального мира и создавать видеоролики, соответствующие законам физики (что сейчас является целью любой команды, которая создает text-to-video модели).

А вот как Kling оживляет мемы:

Как оценивается модель?

Видео, представленные самим разработчиком, выглядят на уровне основного конкурента - Sora. Концептуально нового в подходе Kling к генерации видео нет ничего нового по сравнению с Sora (OpenAI), Veo (DeepMind). Однако пользователи с наметанным взглядом четко видят, что модели обучались на разных датасетах (это видно и по видео ниже - как изображается "человек").

Промпты в обоих случаях использовались одни и те же.

В Kling добились довольно высокого качества генерации людей и их лиц.По факту получаются видео только по 5 секунд, а генерация каждого занимает примерно 3 минуты.

Сгенеренное пользователями видео

Могут по одной картинке сгенерить видео с песнями и танцами - явно с прицелом на другой продукт создателя модели Kuaishou.

Кто разработчик?

Сайт разработчика, китайской компании Kuaishou, которая является конкурентом TikTok, им владеет частично Tencent. Компания разрабатывает одноименную платформу для коротких видео, которая довольно популярна в Китае.

Как воспользоваться?

Модель Kling закрытая, чтобы протестировать ее, нужно жить в Китае. Закрытая бета по китайскому номеру телефона.

PS. В конце июля, меньше чем через 2 недели после публичного запуска, пришла новость. Kuaishou вынужден был ограничил доступ к модели, чтобы избежать нехватки вычислительной мощности.

3) Vidu

Возможности

- видео до 16 секунд

- разрешение 1080p

- генерация с нескольких объективов (может создавать мультиобъективы с переходами между длинными планами, средними планами, крупными планами и очень крупными планами.)

Мультиобъектив действительно есть. Источник.

- пространственно-временная согласованность

- богатое воображение (может создавать глубокие и сложные вымышленные сцены).

Также Vidu способен понимать и создавать сцены с китайской спецификой - что вполне объяснимо и ожидаемо, в каком-то смысле является обязательным.

Тут скорее российская специфика видна, чем китайская. Источник.

Модель вышла в апреле 2024 года.

Как оценивается модель?

Заявляется, что это модель генерации видео “с большой длительностью, высокой согласованностью и высокой динамикой”. НО 16 секунд - далеко от большой длительности.

Заявленный мультиобъектив действительно есть, как и богатое воображение. А вот с согласованностью не все так гладко.

С воображением тут все в порядке, а вот с согласованностью, кажется нет: голова поворачивается быстрее, чем туловище. Источник.

Нам обещают “способность создавать сцены, соответствующие реальной физике, включая реалистичное освещение и детализированные человеческие выражения”. При этом стоит иметь в виду, представленные разработчиком видео (которые обычно по качеству гораздо лучше тех, что получаются у пользователей) заметно далеки от реалистичных.

Образцовое видео с сайта разработчика.

Как воспользоваться?

Кто разработчик?

Cтартап Shengshu Technology и Университет Цинхуа.

4) Gen3-Alpha

Возможности

- генерит по 10 сек видео (больше чем у конкурентов. заявляется длительность до 2 минут, но в реальности мы не видели таких видео у конкурентов)

- можно создавать видео на основе текста, изображения в видео», а также изображение на основе текстового запроса

- фотореалистичное изображение людей (действий, жестов и эмоций)

Пример видео модели Gen3-Alpha. Источник - компания-разработчик.

Т.к. это третье поколение модели, то по сравнению со второй нам обещают “значительное улучшение точности, последовательности и движения”. Нам обещают дальнейший прогресс “для более детального контроля над структурой, стилем и движением”.

Модель разработана в колаборации с художниками, с учетом широкого спектра стилей и кинематографической терминологии. Создатели сотрудничают с ведущими компаниями для создания кастомизированных версий Gen-3.

Важно, что обещают защиту от фейков. Этим так явно (кроме OpenAL) никто из конкурентов не озабочивался. Обещают систему визуальной модерации и соблюдение стандартов происхождения C2PA (подробнее о стандарте).

Как оценивается модель? Как воспользоваться?

Модель пока нельзя никому потрогать, тех. репорта тоже нет. Так что оценить реальность качество видео можно только со стороны.

Примеры видео от разработчика. Уверяют, что все видео созданы с помощью Gen-3 Alpha, без каких-либо изменений.

Кто разработчик?

Runway. Стартап из Нью-Йорка, создающий инструменты text2video на базе ИИ и инструменты для креативности. У компании есть другие продукты, помимо Gen, с помощью которых можно воплотить свои .креативные идеи. Тут можно запросить доступ к продуктам.

Обещания стартапа по креативным инструментам, которые помогут создавать невиданный до сих пор контент. <a href="https://runwayml.com/ai-tools/" rel="nofollow noreferrer noopener" target="_blank">Источник</a>. <br />
Обещания стартапа по креативным инструментам, которые помогут создавать невиданный до сих пор контент. Источник.

Стартап вошел в топ-100 самых влиятельных компаний - 2023 по версии Time.

СEО, СРО и главный дизайнер компании. Источник - компания. <br />
СEО, СРО и главный дизайнер компании. Источник - компания.

Миссия компании - “создание системы ИИ, чтобы открыть новую эру творчества, в которой лучшие истории еще предстоит рассказать”.

Летом 2023 компания, по данным Bloomberg, привлекла $141 млн от топовых компаний: Google, Nvidia, Salesforce Inc. и других инвесторов. Всего компания привлекла порядка $237 млн., в декабре 2022 она оценивалась в $500 млн.

Пожалуйста, поддержите меня, поставьте лайк!

2
1 комментарий

все так быстро развивается, даже становиться страшно, что же будет дальше

Ответить