27 авг 2019 27.08.2019

Специалисты создали нейросеть для создания поддельных голосов Статьи редакции

Алгоритм умеет имитировать голос говорящего по фрагменту стороннего аудиофайла.

Группа разработчиков создала алгоритм для синтеза текста в речь (text-to-speech; TTS) на основе нейросетевых моделей Tacotron 2 и WaveNet, который умеет создавать голос, имитирующий говорящего по фрагменту стороннего аудиофайла. Результаты работы опубликованы на arxiv.org в июне 2018 года, открытый исходный код размещён на площадке GitHub.

Для работы алгоритма нужно два аудиофайла: один с примером голоса, который необходимо скопировать, и второй с фразой, которую этим голосом нужно произнести. После этого алгоритм почти в реальном времени преобразует голос из второго аудиофайла, делая его похожим на голос говорящего из первого файла.

Пример работы алгоритма

#нейросети

0 показов

47K открытий

53 комментария

Написать комментарий...

Показать всё . Вы видите только часть дискуссии

Аккаунт удален

27.08.2019

Комментарий недоступен

Ответить

Развернуть ветку

Кроко

27.08.2019

627 форков, однако...

Ответить

Развернуть ветку

Алексей Свищев

28.08.2019

Мы постоянно так балуемся при разработке. Тут же люди еще обернули это все в визуальный интерфейс (поделка уровня 3го курса). Это баловство. Тупиковый вариант. Интересный эффект при добавлении нового эмбеддинга по образцу в мультиспикерной системе. Тема активно продвигается - быстрое добавление нового диктора в TTS, но такой способ ущербен. Много артефактов, к тому же он частично воспроизводит только тембр голоса. Манера речи, дефекты - не передаются.

Ответить

Развернуть ветку

Denis Kiselev

30.08.2019

Наверняка дело в размере данных для обучения. Если потренировать на месяце-двух прослушек телефонных разговоров - будет интереснее. Благодаря закону Яровой - будет в доступе

Ответить

Развернуть ветку

Алексей Свищев

16.09.2019

Голос в телефонном канале обычно крайне низкого качества. Обучать на таком TTS - сомнительно.

Ответить

Развернуть ветку

Denis Kiselev

16.09.2019

Зависит от цели! Если цель - ввести в заблуждение при разговоре по телефону, то - самое оно. А про качество - есть HD кодеки в сотовой связи.

Качество связи

Узнайте, что мы делаем для того, чтобы наши абоненты всегда оставались на связи!

network.mts.ru

Ответить

Развернуть ветку

Показать 53 комментария . Вы видите только часть дискуссии

Написать комментарий...

50 комментариев

Раскрывать всегда