{"id":14276,"url":"\/distributions\/14276\/click?bit=1&hash=721b78297d313f451e61a17537482715c74771bae8c8ce438ed30c5ac3bb4196","title":"\u0418\u043d\u0432\u0435\u0441\u0442\u0438\u0440\u043e\u0432\u0430\u0442\u044c \u0432 \u043b\u044e\u0431\u043e\u0439 \u0442\u043e\u0432\u0430\u0440 \u0438\u043b\u0438 \u0443\u0441\u043b\u0443\u0433\u0443 \u0431\u0435\u0437 \u0431\u0438\u0440\u0436\u0438","buttonText":"","imageUuid":""}

Когда у бизнеса есть свой голос: как мы разработали новую технологию синтеза речи

Рассказываем о новой ML-модели, которая задействована в голосовых технологиях Yandex.Cloud. Коротко: она поможет бизнесу создавать свою Алису для исходящих звонков без миллионных бюджетов и сделает разговор с пользователем менее роботизированным.

Рынок технологий синтеза речи, по оценке Markets and Markets, к 2026 году достигнет объема в $5 млрд. Бизнес активно внедряет голосовых роботов: это позволяет сократить трудозатраты сотрудников, быстрее консультировать клиентов и оптимизировать бюджет. При этом один и тот же голос могут использовать разные компании, что приводит к смешению брендов. Одинаковым голосом с вами может общаться и банк премиального уровня, и микрофинансовая организация, и даже спамеры.

Как компании лечат эти боли

Предзапись

Одно из очевидных решений — разработать шаблоны-сценарии для диалогов с клиентами, выбрать диктора и сделать уникальные предзаписи. Однако в современных голосовых сценариях часто озвучиваются различные переменные, масштаб вариаций которых может достигать нескольких миллионов значений. Например, уведомление о приеме у врача, где используются Ф.И.О. специалиста, дата посещения, адрес клиники. Одних только имен может быть около пяти тысяч по всей сети клиники — озвучить всё диктором будет трудоемкой задачей и к тому же сделает компанию зависимой от одного диктора.

Преимущества предзаписи: можно попросить диктора говорить с определенной скоростью и определенным тембром.

Недостатки предзаписи: нельзя или слишком сложно кастомизировать диалоговые сценарии, требует много работы с диктором.

Технология полного синтеза

Другой вариант — сделать собственного умного голосового помощника с уникальным голосом, свою Siri или Алису. Абоненты зачастую раздражаются от звонков ботов из колл-центров, но при этом ежедневно разговаривают с помощниками в смартфонах и умных колонках.

Под капотом у голосовых помощников нейросеть, которая полностью синтезирует речь, обучаясь на различных диалоговых сценариях. Также можно использовать не только заранее известные сценарии. Например, с помощью deep learning в Алисе можно генерировать ответы в произвольных диалогах.

Преимущества полного синтеза: на основе любого сценария можно синтезировать речь в реальном времени и кастомизировать сценарии.

Недостатки полного синтеза: требует много часов записи с диктором (от 40 часов), дорого, на реализацию уйдет до полугода. Еще нужны специалисты и оборудование.

Комбо: синтез и предзапись

Самый распространенный сценарий — это подход в лоб: берут наговоренный кусочек предзаписи, склеивают с синтезированным кусочком, и затем идет снова предзапись. При этом для синтезируемой части в данном сценарии голос подбирают на слух. По звучанию предзапись и синтезируемая часть отличаются, слышна склейка внутри фразы, послушайте:

Преимущества подхода: компания получает уникальный голос за сравнительно небольшой бюджет и может использовать кастомизированные сценарии.

Недостатки подхода: синтезируемая речь звучит неественно из-за чего снижается качество коммуникации с клиентами.

Мы понимали, что этот подход является самым востребованным на рынке, особенно для таких базовых сценариев, как маршрутизации звонков на первой линии колл-центра, проведения опросов или телемаркетинга. В Yandex SpeechKit Brand Voice Adaptive мы разработали новый синтез, который способен решать те же задачи, но с более высоким качеством голоса.

Как мы придумали и разработали Yandex SpeechKit Brand Voice Adaptive

В Yandex.Cloud есть сервис Yandex SpeechKit, который создан с использованием технологии машинного обучения — той же, которая лежит в основе Алисы. Yandex SpeechKit применяется для разработки голосовых помощников, автоматизации колл-центров и речевой аналитики. Он позволяет моментально распознавать речь, озвучивать и транскрибировать контент, анализировать звонки, создавать решения для слабослышащих. В рамках сервиса мы уже предоставляем полный синтез, но поняли, что этот вариант подходит далеко не всем.

Нашим клиентам нужен был уникальный голос с тем же качеством, чтобы можно было реализовывать простые, но популярные голосовые сценарии. Например, исходящие и входящие звонки в поддержку. При этом для клиентов важны несколько аспектов:

  • Чтобы сценарии были персонализированными и компания могла создавать релевантный контент для разных пользователей, например, обращаться по имени.
  • Чтобы синтезируемый кусочек звучал как единое целое и в нем не были слышны склейки.
  • Чтобы голос был уникальным, отличал компанию от остальных и вносил вклад в целостность бренда.

В основе SpeechKit Brand Voice Adaptive лежит синтез переменных — наша уникальная технология. Вместо полного синтеза мы синтезируем голос по фразам-шаблонам. Записываем один шаблон и используем его как подсказку для нашей модели. В шаблонах есть две части: постоянная и переменная. Постоянная содержит информацию о том, как надо произносить фразу: с какой скоростью и интонацией. А переменная — это всё, что изменяется для синтеза аудио под конкретного пользователя. Таким образом мы восстанавливаем не весь сигнал, а только его изменяемую часть, имея на входе необходимый текст и постоянную часть сигнала.

Очень похожую задачу решают в различных областях NLP с помощью технологии BERT. Там она используется для работы с текстами. В тексте есть пропущенные части, которые нужно восстановить. Нейросети на основе архитектуры Transformer анализируют кусочки вокруг пропуска и подбирают подходящие фразы в пустые места.

Наша модель представляет собой адаптацию этой технологии для работы с парами «текст + аудио». Архитектура наших нейронных сетей — это развитие архитектуры Transformer, но, опять же, для работы не только с текстом, но и с аудио.

Как работает технология

Сначала диктор, который озвучивает голосового робота, записывает заготовленные фразы-шаблоны по сценариям будущего использования.

Например:

«X, вы записаны на прием к X» или «Посылка № Х прибыла в пункт выдачи по адресу Х и будет находиться там до Х».

Затем все записи в цифровом виде загружаются в ML-модель SpeechKit Brand Voice Adaptive, которая синтезирует точные цифровые копии уже записанных фраз-шаблонов. Они созданы компьютером, но звучат так же естественно, как и аудиозапись.

Во время звонка ML-модель не только синтезирует шаблоны, но и дополняет их новыми переменными из баз данных. При этом переменные всегда будут разными (например, имена абонентов):

«Мария, вы записаны на прием к терапевту» или «Посылка № 3020214 прибыла в пункт выдачи по адресу: улица Льва Толстого, дом 18б — и будет находиться там до 30 июля 2021 года».

ML-модель в режиме реального времени синтезирует фразы целиком — и записанные диктором шаблоны, и переменные. За счет этого речь звучит максимально естественно и склейки внутри синтезируемой фразы не слышно.

Так звучит фраза, полностью синтезированная с помощью SpeechKit Brand Voice Adaptive:

В итоге мы получили ML-модель, которая способна синтезировать речь, не отличимую от человеческой, изменяя в режиме реального времени некоторые ее части, например, имя абонента или дату и время его обращения. Тестируя технологию на исполнителях Яндекс.Толоки, мы смотрели на несколько метрик.

Среди них — MOS (Mean Opinion Score, средняя оценка разборчивости речи), которая сравнивает синтезированную речь с человеческой, и PIVR (Percent of Indistinguishable Voice Recordings, процент неразборчивых записей голоса), которая показывает, сколько толокеров не смогли определить, один человек говорит на двух аудиозаписях или разные. В первых экспериментах 90% слушателей не замечали различий, а сейчас мы повысили этот показатель до 100% — то есть люди не отличают голос робота от голоса человека.

Для обучения модели требуется гораздо меньше данных, чем при полном синтезе, — это экономит затраты. На полный синтез нужно 9 месяцев и несколько миллионов рублей, а на синтез переменных — месяц и бюджет от 150 тысяч рублей.

Будущее

Сейчас, чтобы построить модель для шаблона, нужно 4 часа аудио и время на обучение модели. Впоследствии модель сможет запоминать, как нужно произносить шаблон, всего по одной аудиозаписи, и будет синтезировать этот шаблон нужным голосом без обучения. Это сократит time-to-market до 15 секунд.

Подписывайтесь на блог Yandex.Cloud, чтобы узнавать еще больше новостей и историй об IT и бизнесе.

Другие истории, которые активно читают наши подписчики:

0
Комментарии

Комментарий удален модератором

Развернуть ветку
-3 комментариев
Раскрывать всегда