Новый искусственный видеогенератор Alibaba EMO заставляет фотографии говорить и петь

Китайская транснациональная корпорация Alibaba, наиболее известная своими операциями в сфере электронной коммерции, также вкладывает значительные средства в проекты технологического развития. Исследователи из Института интеллектуальных вычислений компании продемонстрировали свой новый генератор видео с искусственным интеллектом EMO.

EMO, или Emote Portrait Alive, представляет собой “выразительный фреймворк для создания портретного видео на основе звука”, который превращает одно неподвижное эталонное изображение и звук голоса в анимированное видео-аватар с выражением лица и позами.

Новый искусственный видеогенератор Alibaba EMO заставляет фотографии говорить и петь

Среди многочисленных примеров, созданных командой, - фотография женщины в солнцезащитных очках, созданная искусственным интеллектом, с дебюта OpenAI в Sora и ее исполнение песни “Don't Start Now” Дуа Липы. К счастью, персонаж - одно из наименее устрашающих творений Соры.

Другой пример показывает созданную искусственным интеллектом фотографию Моны Лизы да Винчи и то, как она поет “Flowers” Майли Сайрус, как описано YUQI. В другом клипе Одри Хепберн поет кавер на трек Эда Ширана. YouTube-канал RINKI собрал все демонстрационные клипы Alibaba и увеличил их масштаб до 4K.

Важной частью EMO является то, что он может синхронизировать губы в синтезированном видеоклипе с реальным звуком, поэтому важно отметить, что модель поддерживает песни на нескольких языках. Он также работает с многочисленными художественными стилями, будь то фотография, живопись или мультфильм в стиле аниме. Он также работает с другими аудиовходами, такими как обычная речь.

Теоретически, аудиовход также не обязательно должен быть “аутентичным”. Буквально на этой неделе Adobe продемонстрировала новую генеративную платформу искусственного интеллекта, которая может создавать музыку из текстовых подсказок. И, как слишком хорошо знают такие знаменитости, как Тейлор Свифт, людям очень просто создавать реалистично звучащие голоса.

Модель, построенная на стабильной диффузионной основе, не первая в своем роде, но, возможно, самая эффективная. В этой первоначальной попытке есть заметные недостатки, в том числе довольно сильный смягчающий эффект на коже людей и иногда резкие движения губ. Тем не менее, общая точность движений губ в ответ на вводимый звук замечательна.

Полное исследование Института интеллектуальных вычислений Alibaba опубликовано на Github, а соответствующий исследовательский документ доступен на arXiv.

📋 Мои данные:

Бесплатно консультирую по внедрению CRM, чат-ботов и созданию голосовых роботов с искусственным интеллектом. Пишите лично мне в Whatsapp или в Telegram @odintsov

Создаём передовых ботов на базе искусственного интеллекта.

📋 Мои ТОПовые публикации:

11
1 комментарий

Держите мой гайд по продажам в мессенджерах https://tvoerazvitie.com/guide

Ответить