Специалисты создали нейросеть для создания поддельных голосов Статьи редакции

Алгоритм умеет имитировать голос говорящего по фрагменту стороннего аудиофайла.

Группа разработчиков создала алгоритм для синтеза текста в речь (text-to-speech; TTS) на основе нейросетевых моделей Tacotron 2 и WaveNet, который умеет создавать голос, имитирующий говорящего по фрагменту стороннего аудиофайла. Результаты работы опубликованы на arxiv.org в июне 2018 года, открытый исходный код размещён на площадке GitHub.

Для работы алгоритма нужно два аудиофайла: один с примером голоса, который необходимо скопировать, и второй с фразой, которую этим голосом нужно произнести. После этого алгоритм почти в реальном времени преобразует голос из второго аудиофайла, делая его похожим на голос говорящего из первого файла.

Пример работы алгоритма
0
53 комментария
Написать комментарий...
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Кроко

627 форков, однако...

Ответить
Развернуть ветку
Алексей Свищев

Мы постоянно так балуемся при разработке. Тут же люди еще обернули это все в визуальный интерфейс (поделка уровня 3го курса). Это баловство. Тупиковый вариант. Интересный эффект при добавлении нового эмбеддинга по образцу в мультиспикерной системе. Тема активно продвигается - быстрое добавление нового диктора в TTS, но такой способ ущербен. Много артефактов, к тому же он частично воспроизводит только тембр голоса. Манера речи, дефекты - не передаются.

Ответить
Развернуть ветку
Denis Kiselev

Наверняка дело в размере данных для обучения. Если потренировать на месяце-двух прослушек телефонных разговоров - будет интереснее. Благодаря закону Яровой - будет в доступе

Ответить
Развернуть ветку
Алексей Свищев

Голос в телефонном канале обычно крайне низкого качества. Обучать на таком TTS - сомнительно.

Ответить
Развернуть ветку
Denis Kiselev

Зависит от цели! Если цель - ввести в заблуждение при разговоре по телефону, то - самое оно. А про качество - есть HD кодеки в сотовой связи.

Ответить
Развернуть ветку
50 комментариев
Раскрывать всегда