Microsoft представила VASA-1, которая быстро превращает обычные изображения в видео с говорящими лицами

Шесть месяцев назад на Филиппинах появились первые в истории спортивные телеведущие, созданные искусственным интеллектом, - Майя и Марко. Некоторые были впечатлены, но многие чувствовали себя некомфортно, наблюдая за ними из-за отсутствия у них мимики и непривычных движений губ.

Однако последние достижения в области технологий ИИ позволяют устранить эти недостатки.

Компания Microsoft представила новый ИИ-инструмент Vasa-1, который преобразует двухмерное портретное изображение в гораздо более красивое говорящее или поющее видео на основе аудиоклипа.

И, надо сказать, результаты весьма впечатляют.

Еще больше полезностей - в моем телеграм-канале про нейросети и канале про генерацию изображений Миджорниум.

VASA (что расшифровывается как Visual Affective Skills Animation) - это основа для создания реалистичных аудиороликов с разговаривающими людьми на основе одного изображения.

Вот ключевые особенности:

Она способна генерировать движения губ, точно синхронизированные со звуком.
Она захватывает широкий спектр реалистичных выражений лица и нюансов, которые способствуют восприятию подлинности и живости говорящего лица.
Он может генерировать естественные движения головы, согласованные с речью.
Визуальное качество создаваемых видеороликов высокое, с разрешением 512x512 пикселей.
Генерация видео происходит в режиме реального времени со скоростью до 40 кадров в секунду.

Цель - создать реалистичные аватары для взаимодействия человека и ИИ в реальном времени.

Вместо того чтобы генерировать видеокадры напрямую, VASA генерирует целостную динамику лица и движения головы в скрытом пространстве, обусловленном аудио- и другими сигналами.

Целостная динамика лица и генерация положения головы

Получив аудиоролик, VASA генерирует связные последовательности поз головы и целостную динамику лица (включая движение губ, выражение лица, взгляд, моргание и т. д.) в изученном латентном пространстве лица. Модель диффузионного преобразования обучается на основе аудиофункций, а также других дополнительных управляющих сигналов, таких как направление взгляда, расстояние до головы и эмоциональное смещение.

Модель диффузии обучается на последовательностях движений, извлеченных из массивных видеороликов с говорящими людьми.

Генерация видео с говорящим лицом

В момент вывода, когда на вход поступает изображение лица и аудиоролик, VASA сначала извлекает латентные коды внешности и идентичности с помощью кодировщика лица. Затем с помощью обученной диффузионной модели генерируются латентные последовательности движения, обусловленные аудиозаписью. Наконец, эти латентные переменные декодируются в видео с говорящим лицом с помощью декодера лица.

В таблицах 1 и 2 ниже представлены результаты бенчмарков VoxCeleb2 и OneMin-32. В обоих бенчмарках VASA-1 достигает лучших результатов среди всех методов по всем оцениваемым метрикам.

По показателям синхронизации звука и губ (SC и SD) VASA-1 превосходит все остальные с большим отрывом. Интересно, что она даже показывает лучшие результаты, чем реальные видео, вероятно, благодаря эффекту аудио CFG (руководство без классификатора).

Сгенерированные позы также лучше согласованы со звуком по сравнению с другими методами, особенно в бенчмарке OneMin-32, что отражается в оценках CAPP. Движения головы демонстрируют самую высокую интенсивность согласно ∆P, хотя по сравнению с интенсивностью реальных видео все еще наблюдается отставание.

Наконец, оценка FVD (показатель качества и реалистичности видео) у VASA-1 значительно ниже, чем у других методов, демонстрируя превосходное качество сгенерированного видео.

Если вы хотите узнать больше подробностей о том, как это работает, ознакомьтесь с техническим описанием здесь.

Примеры

Их метод способен не только обеспечить синхронизацию губ и звука, но и захватить большой спектр эмоций, выразительных нюансов лица и естественных движений головы, которые способствуют восприятию реалистичности и живости.

Результаты также можно менять в зависимости от различных эмоций и направления взгляда. Хотите, чтобы ваш аватар выглядел счастливым, грустным или совершенно растерянным? Нет проблем.

Приведенные примеры представлены в формате GIF, поэтому вы не услышите звук. Посмотрите примеры видео со звуком в официальном блоге Microsoft.

Давайте поговорим о качестве.

Без сомнения, результаты получились очень реалистичными. Плавность выражения и реалистичное качество действительно впечатляют. Это жутковато, насколько реальными они выглядят.

Однако при внимательном рассмотрении сгенерированных говорящих лиц все же остается ощущение неестественности. Да, в них все еще чувствуется что-то "не совсем человеческое".

Но дело в том, что в наши дни ИИ развивается с молниеносной скоростью. Кажется, что каждый раз, когда вы оборачиваетесь, происходит какой-то новый прорыв или разработка, расширяющая границы возможного. Несмотря на то, что VASA-1 может показаться немного странной, не совсем человечной, мне не терпится увидеть, что получится в версии 2.0.

Преобразование портретного изображения в говорящее видео - не новость. Несколько недель назад Google анонсировал VLOGGER, который превращает изображение в говорящий аватар. Однако значительные вычислительные требования существующих методов ограничивают их возможности для работы в реальном времени.

Чтобы решить эту проблему, VASA-1 представляет эффективную и мощную генеративную модель, обусловленную звуком, которая работает в латентном пространстве движений головы и лица. Работая с компактными латентными представлениями вместо прямого генерирования необработанных пикселей, VASA-1 значительно снижает вычислительные нагрузки, сохраняя при этом богатую детализацию и динамику лица.

Проще говоря, это умный короткий путь, позволяющий ускорить процесс.

В приведенном выше примере видео сгенерировано на настольном ПК с одним графическим процессором NVIDIA RTX 4090. Видео генерируется размером 512x512 со скоростью 45 кадров в секунду в автономном режиме пакетной обработки и может поддерживать до 40 кадров в секунду в режиме онлайн-потока с предшествующей задержкой всего 170 мс.

Возможности VASA-1 в режиме реального времени открывают широкий спектр практических применений и случаев использования, где важна низкая задержка и интерактивность. Вот несколько примеров, которые я могу привести:

Подобно тому, как работает Vision Pro от Apple, VASA-1 можно использовать для видеоконференций и телеприсутствия.
Генерация говорящих лиц в реальном времени может использоваться в виртуальных средах обучения и симуляции, например, в медицинской или военной подготовке. Представьте, что вы предварительно записываете сценарий, а затем подаете его на свою фотографию, чтобы сгенерировать говорящее лицо в реальном времени.
Например, в сценариях поддержки клиентов виртуальный агент с реалистичным говорящим лицом может обеспечить более персонализированный и эмпатичный разговор, повышая удовлетворенность и доверие клиентов.

В целом, я впечатлен как качеством, так и скоростью работы VASA-1. Качество есть куда улучшать, но, учитывая, как быстро развиваются технологии ИИ, я ожидаю, что реалистичность и естественность значительно улучшатся в следующей версии.

Кто знает? Возможно, через год или два мы вообще не сможем отличить сгенерированные лица от реальных.

Несмотря на возможность злоупотребления, Microsoft хочет подчеркнуть существенные преимущества этой технологии.

Признавая возможность злоупотребления, необходимо признать значительный положительный потенциал нашей технологии. Все эти преимущества - от повышения образовательного уровня, улучшения доступности для людей с проблемами в общении до предоставления компаньонов или терапевтической поддержки нуждающимся - подчеркивают важность нашего исследования и других подобных изысканий.

Кроме того, компания заявила, что не намерена выпускать модель ИИ в открытый доступ. Но я не могу не задаться вопросом, какие безумные приложения придумают люди, если получат к ней доступ.

#microsoft #vasa #ии

Оригинал статьи на английском - здесь.