Новости, Гегенбауэр и город Гжатск: секреты озвучки виртуальных ассистентов «Салют»

Голоса виртуальным ассистентам «Салют» подарили настоящие дикторы. Чтобы «Сбер», «Джой» и «Афина» заговорили, профессиональные мастера озвучки провели сотни часов в студии, а наши специалисты по синтезу написали десятки тысяч строчек кода.

Сегодня мы расскажем, как происходит процесс записи для синтеза голоса виртуального помощника, и раскроем некоторые секреты.

Наверняка многие наши читатели знакомы с тем, как работают технологии синтеза речи. Но не лишним будет напомнить, что голоса виртуальных ассистентов, в том числе наших, синтезированы искусственно. Чтобы создать один голос, нужно записать много часов с конкретным диктором, собрать данные и разметить их. А потом — долго обучать нейросети и совершенствовать модели машинного обучения, чтобы голос получился естественным, а алгоритмы справлялись со сложными случаями. Для создания трёх голосов усилий приходится прикладывать в три раза больше.

Обучением нейросетей занимаются дата-сайентисты. Данные, которые они получают, приходят из студии звукозаписи. О том, что там происходит и как это влияет на качество синтеза в дальнейшем, мы сейчас и расскажем.

Чтобы модели машинного обучения «заговорили», достаточно даже двух-трёх часов записи, но качество будет плохим. Необходимый минимум для создания хорошего синтеза — около 20 часов чистого материала, то есть качественно записанной речи диктора. Верхней границы нет: для голосов наших виртуальных ассистентов мы записали по 100 часов звучания каждого диктора и продолжаем вести запись. Дело в том, что на старте нужен просто голос, а затем задачи усложняются. Например, появляется цель добавить в синтез интонации или научить ассистентов читать аббревиатуры. Ниже мы расскажем, как это решается.

Специальные люди — войс-коучи! Это полноценная фултайм-работа. Команда контролирует, чтобы к диктору попал нужный текст, следит за интонациями, эмоциями, четкостью речи и другими нюансами.

В идеале — в первой половине дня, когда голос уже «проснулся», но ещё не «устал», и работа идёт легко. В любом случае мы стараемся не вести запись дольше трёх часов подряд, чтобы дикторы не утомились и голоса звучали свежо.

На самом деле это может быть почти любой текст. Мы даём дикторам осмысленные предложения только потому, что человеку читать такое нескучно и привычно.

<p>Фразы для дикторов мы выводим на экран</p>

Важно, чтобы тексты были фонетически сбалансированными, то есть в обучающем корпусе должны быть представлены все звуки русского языка. В том числе звуковые сочетания, которые в речи встречаются редко.

Но когда базовые датасеты собраны, выбор материала начинает зависеть от задачи. Например, виртуальный ассистент должен уметь обратиться по имени к любому клиенту, даже с очень редким именем или отчеством. Мы составили огромный список самых разных ФИО, и дикторы читали их, чтобы коллеги потом обучили на этом материале нейросети.

Другой пример: нам нужно было улучшить интонацию перечисления. Чтобы сделать это, мы попросили дикторов читать кулинарные рецепты.

То же, что и нам с вами: труднопроизносимые слова. Например, название города Гжатск. Фразу «Город Гжатск и его уезд» удалось записать только с седьмой попытки. А вообще мы были готовы к тому, что нам придётся записывать сложные примеры, и собирали их. Вот с чем приходится работать дикторам.

Примеры сложных фраз
Многочлены Гегенбауэра.
А ты от него гранж ждёшь?
Ай, корж жжется!
В ЮОАО существовал природный парк Лиахвский заповедник.
СУИ ГУО УЕИ, номер 25, Душутоудонгбеи Вилладж, Джиукву Оффис, Хедонг Дистрикт, Линьи Сити, Шандонг Провинс, Китай.

Несмотря на все эти подготовительные работы, когда мы учили наших виртуальных ассистентов разговаривать, совсем без сложностей не обошлось. Например, вместо слова «банк» они упорно говорили «бан». Такие проблемы решаются в студии: мы попросили дикторов много раз записать слово «банк» в разных контекстах. Используя эти записи, дата-сайентисты обучили виртуальных ассистентов произносить слово правильно.

Например, с аббревиатурами. Даже человек не всегда справляется с различными ППО ФГУП, а для алгоритмов это тем более непростая задача. Чтобы ассистенты научились произносить аббревиатуры корректно, мы давали дикторам «расшифровки». К примеру, «эм фэ цэ», когда речь шла об МФЦ.

Ещё одной нетривиальной задачей стала «эфикация» слов (так мы назвали её внутри команды). Во многих словах, особенно заимствованных из других языков, «е» читается как «э», как в слове «компьютер». Наши ассистенты поначалу читали её как «е», и это звучало довольно забавно. А иногда наоборот произносили «э» в тех случаях, когда нужно было произнести «е». Тогда команда из отдела синтеза речи попросила записать побольше таких слов, их разметили, проставили везде правильные звуки и научили алгоритмы не ошибаться.

Важный показатель качества синтезированной речи — корректные интонации. Это в первую очередь касается не проявления эмоций вроде грусти и радости, а умения правильно произносить вопросительные и восклицательные предложения. Чтобы вопросы звучали естественно, виртуальные ассистенты должны уметь правильно расставлять акценты. Сравните два примера ниже: «Ты ПОЙДЁШЬ домой?» и «Ты пойдёшь ДОМОЙ?» — разные вопросы.

За время работы над синтезом мы создали несколько инструментов, позволяющих расставлять акценты вручную. Однако работают они только в паре с алгоритмами, обученными на хорошем датасете. Поэтому дикторы записали множество вопросов с акцентом на разные слова, и на этих данных мы дообучили нейросети.

Например, междометия. Чтобы речь виртуальных ассистентов звучала естественно, мы записали звуки, которые практически невозможно качественно синтезировать: «угу», «ммм», «неа» и другие. Дело в том, что мы произносим их совсем не так, как обычные слова. А модели машинного обучения читают их по буквам, и получается неестественно.

Теперь мы опционально вставляем такие междометия туда, где это уместно. Примеры — ниже.

После записи на студии отдел синтеза получает папки, в которых хранятся звуковые и текстовые файлы. Звук и текст соответствуют друг другу. Затем начинается процесс разметки: асессоры проверяют соответствие текста звуку, проверяют ударения и размечают границы аудио. Кстати, границы аудио мы просим определять на слух и с точностью до миллисекунд. Дело в том, что некоторые звуки не видны на звуковой волне. Это глухие звуки, такие как «п» в слове «стоп».

Новости, Гегенбауэр и город Гжатск: секреты озвучки виртуальных ассистентов «Салют»

Кстати, звуковые волны (спектрограммы) выглядят вот так — настоящий арт.

Подготовленные данные, чистые и размеченные, можно использовать для обучения. Процесс обучения нейросетей — тема для отдельной истории, и о том, как это происходит, мы расскажем в другой раз.

Нет, и в этом вся прелесть. У Сбера, Джой и Афины разные характеры — мы уже рассказывали о них тут. На первый взгляд, было бы логично описать каждому диктору характер персонажа, которого он озвучивает, и ожидать, что тот постарается ему соответствовать. Но на практике следовать такому техническому заданию на протяжении многих часов, дней, а тем более лет невозможно.

Поэтому мы пошли по единственно верному пути. Сразу же нашли профессиональных дикторов, голоса которых идеально отвечают характерам персонажей, и дали им свободу. И вот уже год, как вы можете слышать эти голоса везде, где есть наши ассистенты. Кстати, применяя наши технологии, мы создаём и альтернативные голоса, которые можно использовать в ваших продуктах с помощью SmartSpeech — специальной платформы распознавания и синтеза речи.

Новости, Гегенбауэр и город Гжатск: секреты озвучки виртуальных ассистентов «Салют»

Сколько часов записи нужно для создания голоса

Кто следит за качеством записи

В какое время суток лучше вести запись

Что именно читают дикторы в студии

Что даётся дикторам сложнее всего

С чем ещё возникали проблемы на старте

Как работа на студии помогла научить ассистентов задавать вопросы

Какие необычные вещи доводилось записывать дикторам

В каком виде дата-сайентисты получают данные со студии и что с ними делают

Подстраивались ли дикторы под характеры виртуальных ассистентов