Alibaba выпустила свой аниматор UniAnimate

Ребята из Alibaba сделали свою танцевалку. Они придумали штуку под названием UniAnimate, которая позволяет делать крутые и долгие видосы с анимацией людей. Раньше, если пытались анимировать кого-то, то были проблемы: либо модель была слишком сложной, либо видео получалось коротким. А теперь всё немного лучше.

Источник: https://unianimate.github.io/

В общем, UniAnimate решает эти косяки. Они придумали, как закинуть все данные — и фото человека, и его позы, и даже зашумленное видео — в одно место, чтобы потом это всё можно было легко обработать. Используют специальную диффузионную модель, которая всё это волшебным образом объединяет.

Ещё одна фишка — они сделали так, что можно использовать либо случайный шум, либо опираться на первый кадр видео. Это помогает делать видосы длиннее и круче. А чтобы всё работало шустро, они заменили старую, жрущую ресурсы, модель на новую, которая быстрее и экономичнее.

В тестах UniAnimate показала просто огонь результаты, обгоняя все существующие методы. Особенно прикольно, что можно сделать длинные, до минуты, видосы, которые выглядят очень плавно и реалистично. Они это добились, используя первый кадр как основу для всей анимации.

Сначала используют энкодеры CLIP и VAE, чтобы вытащить нужные фишки из фото. Потом ещё один энкодер для последовательности поз. Всё это соединяют с зашумленным вводом, который может быть либо из первого кадра, либо из зашумленного видео. Потом эту кашу засовывают в диффузионную модель, которая убирает шум. В итоге, на выходе получается крутой видос.

Так что, UniAnimate — это реально прорыв для тех, кто хочет делать долгие и качественные анимации людей. По крайней мере, для китайев, которые, почему-то, помешаны на танцевалках. Коды и модели они собираются скоро выложить в открытый доступ.

Также читайте:

Обновление лучших нейросетей для генерации видео по тексту и фото онлайн: Pika Labs, Runway GEN-2, Genmo