Retell: как мы озвучили 40 тысяч статей онлайн-СМИ

Привет! Я — Сергей Баранов, со-основатель сервиса Retell. И я не хочу, чтобы вы читали эту статью. Почему? Потому что её можно слушать!

<i>Аудитория <b><a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fwww.sports.ru%2Fboxing%2F1084717190.html&postId=133381" rel="nofollow noreferrer noopener" target="_blank">Sports.ru</a> </b>слушает статьи через наш сервис</i>
2222

Беда, конечно, ну робот же...
Ту же Алису можно потерпеть при озвучении 5-10 сек., например, прогноза погоды. А слушать большой текст постоянно невозможно.

Основные проблемы:
- отсутствие динамики в голосе (интонационной и темповой)
- отсутствие смысловых и речевых пауз (как следствие "слепливание" слов)
- отсутствие смыслового подъема/опускания интонации, когда это необходимо
- неправильные ударения (к слову, вроде это вручную сейчас исправляют)

в итоге:
скучное, гундосенье на одной ноте и постоянное напряжение слушателя на распознавании текста.

Если провести аналогию с созданием виртуальных МУЗЫКАЛЬНЫХ инструментов, то нужны т.н. round-robin и layers, когда голос будет "плавать" по интонации и темпу, причем "правильно" плавать. Т.е. нейронная сетей должно быть 2, как минимум: та которая генерит голос и та, которая управляет интонацией относительно смысла текста (т.е. нужно распознавать ХОТЯ БЫ части предложений, вопрос/восклицательный знак, многоточие)

В общем удачи и успехов в этой нелегкой сфере!

11

Олег, спасибо, очень ценное замечание.
Это именно тот подход, который мы используем. Две нейронные сети решают эту задачу гораздо эффективнее (+ ещё одна вспомогательная). Надеюсь удивить вас лично и наших клиентов результатами в ближайшее время, ведь наша система обучается и с каждым днём становится лучше. :)

4

2016 год  - "количество учтенных слепых и слабовидящих в нашей стране составляет 218 тысяч человек, из них абсолютно слепых — 103 тысячи. Ежегодно в России число лиц впервые ставшими инвалидами из-за нарушения зрения составляет около 45 тысяч"

Это была присказка. Сама сказка у меня такая
- недавно я делал версию сайта для слабовидящих. Для этого я тестировал его через скринридер.

Вы не поверите, как плохо звучит скринридер по сравнению с этим роботом. Но судя по отчетам, тем, кому нужно читать - делают еще хуже, по нашим меркам. Они увеличивают скорость в несколько раз и слушают тексты на таком ускорении, на котором для нас все сливается.

Да, робот должен быть хорошим, как человек.

Но человек может слушать и плохого робота. Полировка качества голосовых роботов - это необходимая фишка для расширения аудитории, но ядру, кому надо слушать - это пофиг.

Качество голосовых роботов переоценено и высшая планка нужна для такого широкого аудитории, которая большую часть времени не будет ими пользоваться.

Ну еще банкам и прочим обзвонщикам - им, да, нужна имитация.

2

мне лично приятно слушать такой голос, без эмоций и спокойно

1

PS: вот тут есть пример, в центре статьи - видео с голосовым ассистентом на скорости 1000 слов в минуту

https://habr.com/ru/post/461469/