Как технологии синтеза речи помогают в изучении языка

Рассказываем о работе SaluteSpeech и том, почему он объясняет правила русского языка голосом Гарри Поттера.

Сегодня трудно представить человека, который хотя бы раз в своей жизни не слышал озвученный с помощью речевых технологий голос и, если в случае с пиратской озвучкой аудиокниг или звонков из не самых честных колл-центров, распознать такую речь по странным интонациям, неправильным ударениям и прочим неестественным произношениям не составляет труда, то в случае с современными качественными моделями синтеза речи, вы едва ли сможете отличить «машину» от живого человека. И речь не только о голосовых ассистентах. Технологии синтеза речи нашли широкое применение во многих областях жизни и технологий, значительно упрощая и улучшая различные аспекты нашей повседневной деятельности. Они применяются в медицине, промышленности, бизнес-сфере, образовании и не только. В этой статье мы хотим рассказать о том, как синтезируем голоса при помощи своего сервиса синтеза и распознавания речи — SaluteSpeech, а также расскажем, какое отношение он имеет к вселенной Гарри Поттера.

Что же такое синтез голоса и для чего он используется? На этот вопрос ответила Светлана Сафронова, управляющий директор, начальник управления по AI-решениям для В2В SberDevices.

Синтез голоса — это технология, которая позволяет из текста, написанного обычными буквами, получить звуковой файл, в котором этот текст будет произнесен. Сейчас для создания синтеза необходимо единоразово записать голос живого человека. Это позволит в дальнейшем синтезировать текст любой длины и сложности без участия человека. Но так было не всегда, процесс создания первых моделей синтеза состоял из многих этапов и занимал достаточно много времени. С каждым новым этапом, мы дообучали свою модель синтеза речи и улучшали качество.

Синтез речи используется в виртуальных ассистентах, любых голосовых помощниках, контактных центрах и не только.

Одним из ярких примеров использования технологии является помощь в изучении языка. В этой статье хотим рассказать о том, как SaluteSpeech помогает в этом, на примере портала Грамота.ру.

Мы также поговорили с продюсером портала Грамота.ру — Леонидом Айзиковичем.

На сегодняшний день портал Грамота.ру располагает базой из порядка 180 тыс. слов. Идея озвучить слова появилась давно, это может быть полезно, например, при изучении русского языка как иностранного, когда человеку важно услышать правильное произношение. К примеру, для иностранца слова «тест» и «тесто» выглядят практически одинаково, передать правильное произношение с помощью транскрипции довольно проблематично, вот эти различия в гласных звуках нужно услышать, их невозможно прочитать. Поэтому куда удобнее воспринять правильное звучание на слух. Чтобы озвучить всю базу слов вручную нам понадобилось бы очень и очень много времени, более того, добавление новых слов сопровождалось бы новым этапом записи озвучки. Но благодаря технологии синтеза SaluteSpeech от SberDevices, мы можем озвучить все слова в любом количестве и предоставить людям возможность услышать, как они произносятся правильно.

Для создания качественного синтеза недостаточно просто записать голос, тут нужна синергия ученых, филологов, лингвистов и технологий, потому что робот не знает сам по себе, как правильно произносить слова. К примеру, чтобы научить SaluteSpeech ставить правильные ударения, мы вычленяли какие-то сложные слова, озвучивали их с помощью заранее созданного синтеза, затем слушали, находили еще какие-то ошибки и сложные места, классифицировали результаты, делали определенные пометки и отдавали еще раз роботу. Это процесс не единоразовый, но при каждой итерации дообучения модели качество итогового синтеза сильно улучшается. На сегодняшний день технология озвучивания SaluteSpeech в большинстве случаев расставляет ударения правильно, делает правильные паузы и интонации, правильно определяет какая буква должна прозвучать «е» или «ё». Синтез речи вышел на тот уровень, когда не всегда можно определить кто говорит: человек или робот. А в случае неправильного произношения или неверной интонации, системе можно оперативно дать подсказку, с помощью определенных технических инструментов (SSML разметки), и голос зазвучит правильно. Такая технология позволяет озвучить текст абсолютно любого размера: от произношения конкретного слова, до больших произведений, таких как «Война и Мир».

В рамках этой статьи мы не будем глубоко погружаться в технические аспекты, но хотим рассказать о голосе, который вы слышите на портале Грамота.ру. В этом нам поможет актер дубляжа и диктор — Николай Быстров. И да, если вам показалось, что слова на портале Грамота.ру озвучивает Гарри Поттер, то вам не показалось. Именно Николай озвучивал Гарри в официальном дубляже.

Для нас, дикторов и актеров дубляжа, Грамота.ру — это очень важный инструмент, которым мы постоянно пользуемся. Однажды я увидел апдейт интерфейса: появилась пиктограмма колоночки, решил проверить что это и нажал на неё, а в ответ услышал свой голос. Каково же было мое удивление, это был очень забавный момент. Дело в том, что синтез — это как твой ребенок. Ты его «родил», а дальше он вырос и начал жить своей жизнью. Порой не знаешь где можешь услышать свой голос. У меня есть контракт, по которому я начитал большое количество текста, на нем при помощи машинного обучения обучили модель ИИ, которая начала пользоваться моими тембральными данными. Дальше мой голосможет масштабироваться и использоваться в различных сервисах, без моего дополнительного согласия. Когда я только начинал записывать синтез, мой голос использовался в помощнике для банка и даже для портала Госуслуг. А сейчас он оказался на Грамоте.ру. Я не знал об этом, но очень обрадовался. Здорово, когда твоим голосов озвучивают не тиктоки, а целый словарь русского языка. Я счастлив по этому поводу, потому что довольно часто подобную технологию используют «пираты»: есть сайты с базами голосов актеров, где озвучивают книги в черную с нарушением авторских прав. Когда мы их находим, видим, что получается это у них очень плохо. Моего голоса, к счастью там нет, но он есть на Грамоте и звучит качественно благодаря серьёзной технологии, которая регулярно развивается и улучшается.

С Николаем мы создавали один из первых синтезов и делали это по нынешним меркам очень долго — порядка двух лет. Но сейчас речевые технологии сильно продвинулись и для того, чтобы создать новый синтез нам достаточно одного сеанса в три часа.

Мы были пионерами и учились на ходу: записывали текст, «скармливали» его «машине», смотрели на результаты и понимали, что нужно дообучить. К примеру, мы могли хорошо работать с новостями, но плохо с художественными текстами, в этом случае подбирались художественные тексты, которые мы записывали дополнительно. Кроме цельных текстов записывали алфавит, адреса и даже аббревиатуры. Но самое интересное — это запись тональности, все те же адреса и алфавит нам приходилось не только шептать и проговаривать с разной интонацией, но еще и кричать. Была проделана очень большая работа, но это интересный опыт.

При синтезе голоса используются академические нормы, но существует много частных случаев. Есть, например, слова, в которых может быть вариативное ударение в разговорной форме. Мы обсуждали с коллегами из Грамота.ру возможность добавления вариативных ударений, чтобы изучающие язык могли понять, что ударения могут быть разными. Возможно в будущем на портале появится и такой функционал

SaluteSpeech умеет распознавать и синтезировать шепот и сказочные голоса. Кстати, один из голосов записывала Светлана Сафронова. Запись заняла три часа, на протяжении которых Светлана выдерживала сказочную интонацию и улыбки в голосе. Сейчас её голосом можно создавать медитации, текст которых генерирует GigaChat. Используя навык медитаций в GigaChat, вы можете услышать релаксирующий голос Светланы под шум волн.

Мы видим большие перспективы и возможности применения технологий синтеза речи и понимаем, что нам есть к чему стремиться и куда развиваться. На сегодняшний день у SaluteSpeech есть свой каталог голосов YourVoice, где уже представлены более 80 женских, мужских и детских голосов , но мы всегда рады рассмотреть новые необычные голоса «с изюминкой». Что такое голос «с изюминкой», попробуем продемонстрировать на примере Николая. Мы спросили его когда синтез заменит дикторов и ведущих, и попросили записать ответ голосом. Если вы еще не знакомы с голосом Николая, то самое время послушать:

Создать свой синтез