Как озвучить голосового робота: сравнение TTS, дикторской предзаписи, voice cloning и гибридного синтеза

Как показывают опросы, пользователям не нравится искусственная речь голосовых роботов. Она может снижать конверсию телефонных звонков и негативно сказываться на лояльности аудитории, поэтому клиенты все чаще приходят с запросом на голос робота в концепции like human. Разбираемся, как сделать так, чтобы бот звучал естественно и походил на человека.

Использовать TTS для озвучки ботов очень просто: технология в автоматическом режиме преобразует заданный текст в речь. Изменить реплики робота также не составит труда, достаточно просто отредактировать текст. При этом классический TTS не предполагает выбора интонаций и эмоций, в лучшем случае система сделает паузы после запятых. Синтезированный таким способом голос часто звучит неестественно, клиенту легко догадаться, что он говорит с роботом. TTS лучше использовать в кейсах, где быстро меняются вводные и важно иметь возможность оперативно редактировать реплики бота.

При этом, безусловно, качество TTS бывает разным. Так, речь, синтезированная в первом в России маркетплейсе голосов Aimyvoice, звучит живо и эмоционально. В каталоге — синтезированные голоса Кроша из «Смешариков», известной актрисы дубляжа Татьяны Литвиновой, в портфолио которой мультфильмы «Сад изящных слов», «Золушка и заколдованный принц», сериал «Дивный новый мир» и другие работы, а также стереотипных персонажей — Ленина, Деда Мороза и др.

Сколько стоит

На платформе CyberVoice тариф на 100 000 символов озвучки стоит 900 руб. в месяц.

В маркетплейсе голосов Aimyvoice минута синтеза речи стоит от 1 руб.

Диктор умеет передавать эмоции и правильно интонировать фразы. В некоторых случаях, чтобы создавать нужное для бренда настроение, для озвучки целесообразно использовать реального сотрудника компании.

Я сразу понимал, что в исходящем обзвоне робот должен звучать максимально человечно, поэтому мы не использовали синтез — реплики для Тани озвучила сотрудница «Додо Пиццы», и мы просто загрузили запись в Aimylogic.
Евгений Хрусталев, Совладелец ресторана сети в Сергиевом Посаде, автор проекта роботизированного обзвона

При этом дикторская озвучка имеет серьезное ограничение: набор реплик бота всегда будет ограничен, а запись для новой ветки сценария потребует дополнительных затрат.

Сколько стоит

От 2000 руб. за час. Услуги федерального и известного диктора будут стоить существенно дороже.

Часто реплики голосового бота включают переменные — информацию, которая зависит от конкретного случая. Например, в случае звонка робота с целью подтвердить покупку клиента, переменными являются список заказанных товаров и сумма заказа. Так как записать голосом диктора все цифры и наименования из каталога невозможно, используют комбинацию предзаписи и TTS.

Чтобы свести дикторскую запись и TTS в одну реплику, требуется технология склейки. При этом места переходов все равно будут слышны, так как сгенерированный с помощью TTS голос заметно выбивается по сравнению с диктором. Этот момент можно обыграть, если грамотно проработать сценарий.

Так, основные фразы бота Кристины компании «Филип Моррис Сэйлз энд Маркетинг» записаны голосом диктора, но в конце звонка, когда суммируется заказ, включается синтез. Кристина заранее оговаривает это, и заказы не срываются.

Сколько стоит

См. стоимость TTS и услуг диктора.

Чтобы преодолеть проблему неровной склейки из предыдущего способа озвучки, можно сгенерировать переменные гибридным синтезом, который повторяет интонацию и эмоции человека и звучит естественно. Технология обеспечивает бесшовную склейку синтезированных фраз с основной частью сценария, озвученной диктором.

Используя гибридный синтез, можно обратиться к каждому клиенту по имени и таким образом кастомизировать роботизированные обзвоны. Сфера применения — NPS-опросы, анкетирования, напоминания, upsale и поддержка программ лояльности с помощью телефонного бота. Пилотные проекты с гибридным синтезом на данный момент готовятся в ряде крупных компаний.

Сколько стоит

Стоимость каждой синтезированной реплики — 12 копеек, плюс требуется озвучка проекта диктором — 3 000 руб. в час.

Чтобы клонировать голос, создать его цифровую копию, требуется большой объем данных. Например, голосовой ассистент Альфа-Банка Альф говорит официальным голосом Киану Ривза и Брэда Питта в России, который принадлежит известному актеру дубляжа Всеволоду Кузнецову. Для обучения нейросети на базе технологии Yandex SpeechKit Brand Voice принципиально иметь разнообразный датасет, что делает работу над синтезом необычной даже для профессионального актера. Как признался Всеволод Кузнецов, ему приходилось зачитывать в студии как простые скороговорки, так и несвязанные предложения с большим числом специальных терминов, выдерживая при этом характер и образ Альфа.

Синтез на базе Voice cloning и ассистент Альф

Сколько стоит

Стоимость подобных проектов формируется по запросу, но по причине высокой сложности и больших временных затрат диктора не может быть низкой.

Как озвучить голосового робота: сравнение TTS, дикторской предзаписи, voice cloning и гибридного синтеза

TTS (Text-to-Speech, синтез речи)

Дикторская озвучка

Дикторская озвучка + TTS

Гибридный синтез

Синтез на базе Voice cloning