Google рассказала про VLOGGER - ИИ-инструмент, который генерирует влоги из аудиозаписей

Google рассказала про VLOGGER - ИИ-инструмент, который генерирует влоги из аудиозаписей

ИИ переходит от простых фейковых изображений к видео-дипфейкам. Нет, я говорю не о подмене лиц, как в типичных видеороликах-дипфейках, которые мы видели раньше, а о чем-то гораздо более интригующем и потенциально тревожном.

Сегодня компания Google опубликовала исследовательскую работу, в которой подробно описывается новая система под названием VLOGGER, позволяющая генерировать видео с человеком-блогером, используя только аудиоролик и одно изображение в качестве исходных данных.

Если вам интересна тема нейросетей, подпишитесь пожалуйста на мой канал про нейросети, а если вы хотите больше узнать про генерацию изображений, добро пожаловать в этот канал!

Если вы думали, что дипфейки - это страшно, то эта система выводит использование технологии искусственного интеллекта на совершенно новый уровень.

Что такое VLOGGER?

VLOGGER использует технику мультимодальной диффузии для синтеза человека из аудио. Он может генерировать фотореалистичные видеоролики говорящего человека с реалистичными движениями головы, мимикой, взглядом и даже жестами рук.

Вот пример:

ИИ-модель также может редактировать существующий видеоконтент, изменяя мимику объекта.

Хотя маловероятно, что эта модель ИИ полностью заменит ютуберов и других создателей контента, она может ознаменовать интересную эволюцию в индустрии влоггинга.

Как работает VLOGGER

Каким образом ИИ удается синтезировать реалистичное человеческое видео?

Эта исследовательская работа посвящена техническим деталям, но если говорить простым языком, то в ней используется двухэтапная модель диффузии.

Google рассказала про VLOGGER - ИИ-инструмент, который генерирует влоги из аудиозаписей

Первая часть предсказывает 3D-движение головы и тела человека, основываясь только на аудиозаписи. Затем вторая часть преобразует их в фотореалистичные кадры видео, используя 3D-движение и изображение человека в качестве входных данных.

Между ними происходит некая магия ИИ, и в итоге вы получаете удивительно убедительный поддельный влог.

Другие примеры видео

Вот несколько примеров видео, синтезированных VLOGGER.

Давайте поговорим о качестве

Ладно, давайте будем честными - эти видео с VLOGGER просто жуткие. Я понимаю, что техника впечатляет и все такое, но конечный результат? Это просто жуткое ощущение.

Синхронизация губ довольно грубая. Как будто смотришь плохо дублированный фильм или что-то в этом роде. Мимика и движения головы тоже иногда бывают неловкими. Это не ужасно, но определенно не кажется абсолютно естественным.

А еще есть руки. Они выглядят какими-то скованными и неуклюжими, как будто не совсем понимают, что должны делать. Это немного отвлекает, если честно.

В целом, в видеороликах чувствуется некая искусственность. Можно сказать, что они созданы искусственным интеллектом.

Перевод языка видео

Еще одна замечательная особенность VLOGGER - возможность использовать его для перевода видео с одного языка на другой. Допустим, у вас есть видео, где кто-то говорит на английском, но вам нужно перевести его на испанский. Обычно это означает много работы - вам придется снимать все заново с испанским диктором и пытаться правильно подобрать слова и выражения. Это очень хлопотно.

Но с VLOGGER вам не нужно делать все это. Вы просто передаете ему оригинальное английское видео и испанское аудио, и он автоматически меняет движения губ и мимику в соответствии с новым языком.

Это очень интересный вариант использования.

Будущее влоггинга

Что же это значит для будущего влоггинга?

С одной стороны, эта технология может стать мощным инструментом для авторов, позволяя им быстро создавать влоги без необходимости самим сниматься на камеру. У вас может быть ИИ-аватар, который выглядит и разговаривает, как вы, и круглосуточно готовит контент для вашего канала. Это также может создать новые формы виртуальных личностей и цифровых представителей брендов.

Но, конечно, есть и огромные риски, если эта технология станет широко доступной. С ее помощью будет невероятно легко создавать фальшивые видео, на которых реальные люди говорят или делают то, чего они никогда не делали. Эти видео можно будет использовать для распространения дезинформации, мошенничества, преследования людей или манипулирования выборами. Как только любой аудиоклип можно будет превратить в фотореалистичный дипфейк, станет очень сложно доверять всему, что вы видите.

Безопасно ли это?

Я должен задаться вопросом, действительно ли Google продумала, какой ящик Пандоры они могут открыть.

К чести исследователей, они обсуждают этические аспекты в своей работе. Они утверждают, что в процессе разработки и обучения были приняты меры предосторожности, чтобы смягчить возможные злоупотребления, и не будут публиковать модель в открытом доступе.

Но, как мы уже видели на примере других AI-систем, как только основные исследования становятся известны, очень сложно контролировать их использование. Другие группы могут копировать технологию и выпускать свои собственные версии без соблюдения тех же мер предосторожности. И даже если Google будет держать ее под контролем, сам факт, что такой инструмент существует, должен заставить нас с большой осторожностью относиться к любым видеодоказательствам.

Представьте себе, что ИИ-инструмент получает фотографию любого человека и скандальную аудиозапись, а ИИ синтезирует поддельное видео с этим человеком.

Google рассказала про VLOGGER - ИИ-инструмент, который генерирует влоги из аудиозаписей

Технология VLOGGER впечатляет, но конечный результат все еще неясен.
Однако дайте ему время, и кто знает, как далеко зайдет этот безумный ИИ?
Я также глубоко обеспокоен тем, как им можно злоупотребить и к чему может привести дальнейшее разрушение доверия в нашей и без того неспокойной информационной экосистеме.

Пока что я бы посоветовал относиться со здоровым скептицизмом к любым видео в стиле vlog, которые попадаются вам в сети, особенно к тем, которые касаются спорных тем. Если что-то кажется правдой, есть большая вероятность, что это подделка ИИ, как бы тревожно это ни звучало.

Одно можно сказать наверняка: век синтетических медиа наступил, и в результате нам придется решать непростые социальные, юридические и этические вопросы.

Если вам интересна тема нейросетей, подпишитесь пожалуйста на мой канал про нейросети, а если вы хотите больше узнать про генерацию изображений, добро пожаловать в этот канал!

Источник статьи на английском - здесь.

2121
6 комментариев

Задаваться вопросами безопасно это или нет безсмысленно и очень поздно. Ящик пандоры давно открыт , да и вообще , вселенной предусмотренно создание ИИ человеком , раз мы до этого добрались и это работает. Так уж она устроена , эта вселенная. Вы можете создать нейронку и дома , достаточно компнуть такие вещи как PyTorch или Tensorflow.

2
Ответить

Вы можете создать нейронку и дома , достаточно компнуть такие вещи как PyTorch или TensorflowВсепропальщики могут создать только материал или комментарий про "все пропало!"

Ответить

Важно осознавать как ее преимущества, так и ограничения, особенно в контексте создания контента

Ответить

ну губы же как будто отдельно от всей остальной мимики двигаются ,совсем все плохо.Будем ждать пока улучшат технологию ,пока что выглядит странно

Ответить

Пока что такие видео выглядят просто как немного анимированная фотография, нежели полноценное видео. Но перевод - это круто и практически удобно.

Ответить