Как я сделал свой дипфейк для выступления на конференции

Недавно я воспользовался Wunjo AI, чтобы создать свой собственный дипфейк и синтезировать речь на английском без акцента. В этой статье вы узнаете, что у меня из этого вышло, о моей мотивации, и как мне удалось воплотить идею в жизнь. В конце статьи, вы поймёте для себя, могут ли дипфейки и синтез речи оказаться полезными именно для вас и помочь вам в создании контента.

Мотивация. Выступить на конференции по нейронным сетям со своим исследованием на английском без акцента, и с хорошей картинкой.

Качество звука. При записи своего голоса, я столкнулся с проблемами, низкого качество звучания, сильного акцента и это очень долго. Хотя постобработкой можно улучшить качество звука, но нельзя исправить ошибки произношения. Подключаем нейронные сети. В приложении Wunjo AI задача синтеза речи без акцента может быть решена двумя способами, синтезировать речь на английском, при помощи заранее обученной модели или клонировать свой голос на другой язык. Я выбрал первое, так как во время решение задачи, клонирование голоса я ещё не добавил в Wunjo AI. Мне понадобилось около 10-15 минут, чтобы с первого раза озвучить весь текст выступления. Вы также можете обучить модель нейронной сети на вашем голосе или голосе соседа внутри приложения, как это сделать я снял видео на своем YouTube канале.

Послушаем результаты

Видео с человеком. Я решил создать видео с говорящим человеком в кадре, мне такие видео больше нравятся. Созданием качественного видео с участием человека, требует вложения усилий: настройка освещения, подходящей атмосферы и окружения, лицо, которое бы умело держаться в кадре и удерживать внимание зрителя. Всё это есть! Но в открытом доступе на YouTube, по этой причине идём туда и находим видео с обзорами, где человек прямо смотрит в камеру. Важно отметить, что для качественного дипфейка необходимо, чтобы форма и размер лица соответствовало вашему дипфейку, иначе получится такой результат.

Как выглядит дипфейк, если не соотвествует форма лица

Я взял видео обозревателя Chris Tomshack и выделил самые длинные фрагменты появления обозревателя в кадре, сделал reverse и loop, чтобы зациклить короткое видео говорения. Затем, при помощи Wunjo AI я синхронизировал движения губ с аудио, которое я сделал ранее. Из-за того, что речь была дольше самого отрезка видео, но я сделал loop ранее, перехода кадра не было заметно, что позволило добиться более качественных результатов.

Дипфейк движения губ

Исправление дефектов генерации. В результате создания дипфейков могут возникнуть мало заметные артефакты на видео, например что-то не так с ушами, линия на подбородка, итд. Все такие дефекты можно исправить, при помощи ретуши видео, которая есть в Wunjo AI. Там можно и удалить объекты с видео, все это делается нейронными сетями, примеры вы можете найти в README на GitHub.

Вообще я не знаю бесплатного и открытого проекта для дипфейков и синтеза речи сделанного в России кроме Wunjo AI, который бы работал локально, и включал в себя столько разных нейронок для создания контента: синтез речи на нескольких языках, клонирование голоса, четыре видов дипфейка, AI ретушь и повышения качества картинки до HD. К тому жу обучение на своем голосе внутри приложения.

Замена лица на видео. Свой дипфейк я создал сделав только одну фотографию своего лица на фронтальную камеру. В Wunjo AI я наложил свое лицо на видео, и повысил качество лица до HD окончательно убрав неровности. Результат вышел хорошим для меня, если не знать, что это дипфейк, тогда сложно заметить.

Дипфейк замены лица по фото

Что имеем?

На итоговое видео с речью и дипфейком мне понадобилось около 2 часов, где основное время занимало поиск подходящего лица и отработка подхода плюс 30 минут для монтажа и объединения видео со слайдами.

Надеюсь, вам оказался полезным описанный подход в статье, как использовать дипфейк и синтез речи для создания контента, презентаций и работы. До новых встреч!

Полное видео из конференции, которая проходит в момент написания статьи.

Полное видео из конференции с дипфейком

Смотрите также новые возможности Wunjo AI в обновлении 1.5, о которых подробно я написал в этой статье.

Обновление Wunjo AI v1.5

P. S. Весь процесс синтеза у меня занял не много времени, так как я использовал GPU, синтез речи у меня на GPU происходит практически мгновенно, с обработкой видео немного подольше, чем синтез речи.Вы можете увеличить скорость обработки в несколько раз, переключил с CPU на GPU. Подробнее в документации.

Как я сделал свой дипфейк для выступления на конференции

В процессе подготовки к конференции я столкнулся с рядом проблем