Специалисты создали нейросеть для создания поддельных голосов

Алгоритм умеет имитировать голос говорящего по фрагменту стороннего аудиофайла.

Группа разработчиков создала алгоритм для синтеза текста в речь (text-to-speech; TTS) на основе нейросетевых моделей Tacotron 2 и WaveNet, который умеет создавать голос, имитирующий говорящего по фрагменту стороннего аудиофайла. Результаты работы опубликованы на arxiv.org в июне 2018 года, открытый исходный код размещён на площадке GitHub.

Для работы алгоритма нужно два аудиофайла: один с примером голоса, который необходимо скопировать, и второй с фразой, которую этим голосом нужно произнести. После этого алгоритм почти в реальном времени преобразует голос из второго аудиофайла, делая его похожим на голос говорящего из первого файла.

Пример работы алгоритма
3030
53 комментария

Комментарий недоступен

26

627 форков, однако...

1

Хорошая система биометрии снабжается системой антиспуфинга. Синтез - один из видов атак, причем не самый сложный (даже самый продвинутый). Просто не пройдет. К тому же качество синтеза в предложенной системе не ахти. Они просто мультиспикерную TTS обучили, обусловленную на эмбеддинги спикеров (векторы признаков голоса) и новых спикеров добавляют, получаю новый эмбеддинг из образца. Это плохо работает. Есть ситемы voice conversion, они лучше работают. Но там не синтез, а конверсия конкретной записи с голосом одного диктора в такую же запись с голосом другого. Хотя ничего не мешает сначала синтезировать одним голосом, а потом провести конверсию в другой (образец).

1

Возможное применение в дубляже фильмов. Берем оригинальную дорожку, накладываем на дубляж. Получаем дубляж с голосом оригинального актера.

7

+другая нейросеть подправляет липсинк, чтобы локализаторам дать полную свободу.

1

Можно и просто генерировать хорошие голоса, а актеров полностью создавать с нуля. Это огромный плюс для кинематографа будет.

Прекрасно, я считаю! Если будет возможно - это же будет очень круто! Решится проблема хейта дубляжей и желания слушать с оригинальным голосом актера