Специалисты создали нейросеть для создания поддельных голосов Статьи редакции
Алгоритм умеет имитировать голос говорящего по фрагменту стороннего аудиофайла.
Группа разработчиков создала алгоритм для синтеза текста в речь (text-to-speech; TTS) на основе нейросетевых моделей Tacotron 2 и WaveNet, который умеет создавать голос, имитирующий говорящего по фрагменту стороннего аудиофайла. Результаты работы опубликованы на arxiv.org в июне 2018 года, открытый исходный код размещён на площадке GitHub.
Для работы алгоритма нужно два аудиофайла: один с примером голоса, который необходимо скопировать, и второй с фразой, которую этим голосом нужно произнести. После этого алгоритм почти в реальном времени преобразует голос из второго аудиофайла, делая его похожим на голос говорящего из первого файла.
0
показов
47K
открытий
Комментарий недоступен
627 форков, однако...
Мы постоянно так балуемся при разработке. Тут же люди еще обернули это все в визуальный интерфейс (поделка уровня 3го курса). Это баловство. Тупиковый вариант. Интересный эффект при добавлении нового эмбеддинга по образцу в мультиспикерной системе. Тема активно продвигается - быстрое добавление нового диктора в TTS, но такой способ ущербен. Много артефактов, к тому же он частично воспроизводит только тембр голоса. Манера речи, дефекты - не передаются.
Наверняка дело в размере данных для обучения. Если потренировать на месяце-двух прослушек телефонных разговоров - будет интереснее. Благодаря закону Яровой - будет в доступе
Голос в телефонном канале обычно крайне низкого качества. Обучать на таком TTS - сомнительно.
Зависит от цели! Если цель - ввести в заблуждение при разговоре по телефону, то - самое оно. А про качество - есть HD кодеки в сотовой связи.