Беда, конечно, ну робот же... Ту же Алису можно потерпеть при озвучении 5-10 сек., например, прогноза погоды. А слушать большой текст постоянно невозможно.
Основные проблемы: - отсутствие динамики в голосе (интонационной и темповой) - отсутствие смысловых и речевых пауз (как следствие "слепливание" слов) - отсутствие смыслового подъема/опускания интонации, когда это необходимо - неправильные ударения (к слову, вроде это вручную сейчас исправляют)
в итоге: скучное, гундосенье на одной ноте и постоянное напряжение слушателя на распознавании текста.
Если провести аналогию с созданием виртуальных МУЗЫКАЛЬНЫХ инструментов, то нужны т.н. round-robin и layers, когда голос будет "плавать" по интонации и темпу, причем "правильно" плавать. Т.е. нейронная сетей должно быть 2, как минимум: та которая генерит голос и та, которая управляет интонацией относительно смысла текста (т.е. нужно распознавать ХОТЯ БЫ части предложений, вопрос/восклицательный знак, многоточие)
Олег, спасибо, очень ценное замечание. Это именно тот подход, который мы используем. Две нейронные сети решают эту задачу гораздо эффективнее (+ ещё одна вспомогательная). Надеюсь удивить вас лично и наших клиентов результатами в ближайшее время, ведь наша система обучается и с каждым днём становится лучше. :)
2016 год - "количество учтенных слепых и слабовидящих в нашей стране составляет 218 тысяч человек, из них абсолютно слепых — 103 тысячи. Ежегодно в России число лиц впервые ставшими инвалидами из-за нарушения зрения составляет около 45 тысяч"
Это была присказка. Сама сказка у меня такая - недавно я делал версию сайта для слабовидящих. Для этого я тестировал его через скринридер.
Вы не поверите, как плохо звучит скринридер по сравнению с этим роботом. Но судя по отчетам, тем, кому нужно читать - делают еще хуже, по нашим меркам. Они увеличивают скорость в несколько раз и слушают тексты на таком ускорении, на котором для нас все сливается.
Да, робот должен быть хорошим, как человек.
Но человек может слушать и плохого робота. Полировка качества голосовых роботов - это необходимая фишка для расширения аудитории, но ядру, кому надо слушать - это пофиг.
Качество голосовых роботов переоценено и высшая планка нужна для такого широкого аудитории, которая большую часть времени не будет ими пользоваться.
Ну еще банкам и прочим обзвонщикам - им, да, нужна имитация.
У всех очень разное восприятие. К тому же, в статье у нас показаны примеры только 3-х голосов. Всего же издания могут выбрать из 11 голосовых моделей в своем личном кабинете, и мы стараемся увеличить этот выбор.
Беда, конечно, ну робот же...
Ту же Алису можно потерпеть при озвучении 5-10 сек., например, прогноза погоды. А слушать большой текст постоянно невозможно.
Основные проблемы:
- отсутствие динамики в голосе (интонационной и темповой)
- отсутствие смысловых и речевых пауз (как следствие "слепливание" слов)
- отсутствие смыслового подъема/опускания интонации, когда это необходимо
- неправильные ударения (к слову, вроде это вручную сейчас исправляют)
в итоге:
скучное, гундосенье на одной ноте и постоянное напряжение слушателя на распознавании текста.
Если провести аналогию с созданием виртуальных МУЗЫКАЛЬНЫХ инструментов, то нужны т.н. round-robin и layers, когда голос будет "плавать" по интонации и темпу, причем "правильно" плавать. Т.е. нейронная сетей должно быть 2, как минимум: та которая генерит голос и та, которая управляет интонацией относительно смысла текста (т.е. нужно распознавать ХОТЯ БЫ части предложений, вопрос/восклицательный знак, многоточие)
В общем удачи и успехов в этой нелегкой сфере!
Олег, спасибо, очень ценное замечание.
Это именно тот подход, который мы используем. Две нейронные сети решают эту задачу гораздо эффективнее (+ ещё одна вспомогательная). Надеюсь удивить вас лично и наших клиентов результатами в ближайшее время, ведь наша система обучается и с каждым днём становится лучше. :)
2016 год - "количество учтенных слепых и слабовидящих в нашей стране составляет 218 тысяч человек, из них абсолютно слепых — 103 тысячи. Ежегодно в России число лиц впервые ставшими инвалидами из-за нарушения зрения составляет около 45 тысяч"
Это была присказка. Сама сказка у меня такая
- недавно я делал версию сайта для слабовидящих. Для этого я тестировал его через скринридер.
Вы не поверите, как плохо звучит скринридер по сравнению с этим роботом. Но судя по отчетам, тем, кому нужно читать - делают еще хуже, по нашим меркам. Они увеличивают скорость в несколько раз и слушают тексты на таком ускорении, на котором для нас все сливается.
Да, робот должен быть хорошим, как человек.
Но человек может слушать и плохого робота. Полировка качества голосовых роботов - это необходимая фишка для расширения аудитории, но ядру, кому надо слушать - это пофиг.
Качество голосовых роботов переоценено и высшая планка нужна для такого широкого аудитории, которая большую часть времени не будет ими пользоваться.
Ну еще банкам и прочим обзвонщикам - им, да, нужна имитация.
мне лично приятно слушать такой голос, без эмоций и спокойно
PS: вот тут есть пример, в центре статьи - видео с голосовым ассистентом на скорости 1000 слов в минуту
https://habr.com/ru/post/461469/
Первый голос очень нудный, а вот второй чертовски хорош, прям как живой.
У всех очень разное восприятие. К тому же, в статье у нас показаны примеры только 3-х голосов. Всего же издания могут выбрать из 11 голосовых моделей в своем личном кабинете, и мы стараемся увеличить этот выбор.