Голос в телефонном канале обычно крайне низкого качества. Обучать на таком TTS - сомнительно.

Таня Боброва

Сервисы

27.08.2019

Специалисты создали нейросеть для создания поддельных голосов

Алгоритм умеет имитировать голос говорящего по фрагменту стороннего аудиофайла.

3030

Аккаунт удален

27.08.2019

Комментарий недоступен

Ответить

Кроко

27.08.2019

627 форков, однако...

Ответить

Алексей Свищев

28.08.2019

Хорошая система биометрии снабжается системой антиспуфинга. Синтез - один из видов атак, причем не самый сложный (даже самый продвинутый). Просто не пройдет. К тому же качество синтеза в предложенной системе не ахти. Они просто мультиспикерную TTS обучили, обусловленную на эмбеддинги спикеров (векторы признаков голоса) и новых спикеров добавляют, получаю новый эмбеддинг из образца. Это плохо работает. Есть ситемы voice conversion, они лучше работают. Но там не синтез, а конверсия конкретной записи с голосом одного диктора в такую же запись с голосом другого. Хотя ничего не мешает сначала синтезировать одним голосом, а потом провести конверсию в другой (образец).

Ответить