Как я сделал свой дипфейк для выступления на конференции
Недавно я воспользовался Wunjo AI, чтобы создать свой собственный дипфейк и синтезировать речь на английском без акцента. В этой статье вы узнаете, что у меня из этого вышло, о моей мотивации, и как мне удалось воплотить идею в жизнь. В конце статьи, вы поймёте для себя, могут ли дипфейки и синтез речи оказаться полезными именно для вас и помочь вам в создании контента.
Мотивация. Выступить на конференции по нейронным сетям со своим исследованием на английском без акцента, и с хорошей картинкой.
В процессе подготовки к конференции я столкнулся с рядом проблем
Качество звука. При записи своего голоса, я столкнулся с проблемами, низкого качество звучания, сильного акцента и это очень долго. Хотя постобработкой можно улучшить качество звука, но нельзя исправить ошибки произношения. Подключаем нейронные сети. В приложении Wunjo AI задача синтеза речи без акцента может быть решена двумя способами, синтезировать речь на английском, при помощи заранее обученной модели или клонировать свой голос на другой язык. Я выбрал первое, так как во время решение задачи, клонирование голоса я ещё не добавил в Wunjo AI. Мне понадобилось около 10-15 минут, чтобы с первого раза озвучить весь текст выступления. Вы также можете обучить модель нейронной сети на вашем голосе или голосе соседа внутри приложения, как это сделать я снял видео на своем YouTube канале.
Послушаем результаты
Видео с человеком. Я решил создать видео с говорящим человеком в кадре, мне такие видео больше нравятся. Созданием качественного видео с участием человека, требует вложения усилий: настройка освещения, подходящей атмосферы и окружения, лицо, которое бы умело держаться в кадре и удерживать внимание зрителя. Всё это есть! Но в открытом доступе на YouTube, по этой причине идём туда и находим видео с обзорами, где человек прямо смотрит в камеру. Важно отметить, что для качественного дипфейка необходимо, чтобы форма и размер лица соответствовало вашему дипфейку, иначе получится такой результат.
Я взял видео обозревателя Chris Tomshack и выделил самые длинные фрагменты появления обозревателя в кадре, сделал reverse и loop, чтобы зациклить короткое видео говорения. Затем, при помощи Wunjo AI я синхронизировал движения губ с аудио, которое я сделал ранее. Из-за того, что речь была дольше самого отрезка видео, но я сделал loop ранее, перехода кадра не было заметно, что позволило добиться более качественных результатов.
Исправление дефектов генерации. В результате создания дипфейков могут возникнуть мало заметные артефакты на видео, например что-то не так с ушами, линия на подбородка, итд. Все такие дефекты можно исправить, при помощи ретуши видео, которая есть в Wunjo AI. Там можно и удалить объекты с видео, все это делается нейронными сетями, примеры вы можете найти в README на GitHub.
Вообще я не знаю бесплатного и открытого проекта для дипфейков и синтеза речи сделанного в России кроме Wunjo AI, который бы работал локально, и включал в себя столько разных нейронок для создания контента: синтез речи на нескольких языках, клонирование голоса, четыре видов дипфейка, AI ретушь и повышения качества картинки до HD. К тому жу обучение на своем голосе внутри приложения.
Замена лица на видео. Свой дипфейк я создал сделав только одну фотографию своего лица на фронтальную камеру. В Wunjo AI я наложил свое лицо на видео, и повысил качество лица до HD окончательно убрав неровности. Результат вышел хорошим для меня, если не знать, что это дипфейк, тогда сложно заметить.
Что имеем?
На итоговое видео с речью и дипфейком мне понадобилось около 2 часов, где основное время занимало поиск подходящего лица и отработка подхода плюс 30 минут для монтажа и объединения видео со слайдами.
Надеюсь, вам оказался полезным описанный подход в статье, как использовать дипфейк и синтез речи для создания контента, презентаций и работы. До новых встреч!
Полное видео из конференции, которая проходит в момент написания статьи.
Смотрите также новые возможности Wunjo AI в обновлении 1.5, о которых подробно я написал в этой статье.
P. S. Весь процесс синтеза у меня занял не много времени, так как я использовал GPU, синтез речи у меня на GPU происходит практически мгновенно, с обработкой видео немного подольше, чем синтез речи.Вы можете увеличить скорость обработки в несколько раз, переключил с CPU на GPU. Подробнее в документации.