Основная проблема аналитики – стоимость работы специалистов, которые вручную прослушивают аудио. В среднем лишь 2 звонка из 100 проходят оценку качества, а про остальные компания ничего не знает. Такой подход приводит к иллюзии контроля, не позволяет оперативно реагировать на ситуацию и давать обратную связь операторам.
Автоматическое распознавание речи (ASR) позволяет увеличить долю анализируемых звонков до 20-50%, а иногда и до 100% при аналогичном бюджете. На таком объеме данных можно судить чем отличается поведение результативного сотрудника от тех, кто не достиг целевых результатов.
Рассказали бы, насколько сложно всё это настроить самостоятельно и сколько будет стоить Ya.Cloud компании.
К примеру, может ли малый бизнес анализировать звонки своего отдела продаж, настроить всё самостоятельно без огромных затрат и поддерживать работу системы?
Обычно ключевая сложность для малого бизнеса это расходы ресурсов на интеграцию. Мы предоставляем сервис в виде API для того, чтобы его можно было встроить в любые решения. Некоторые сервисы телефонии\CRM уже имеют нативную интеграцию и дополнительный функционал вокруг этого (например, упомянутый в статье Zadarma).
Если говорить про затраты непосредственно на сервис транскрибации, то у нас это довольно подробно описано в соответствующем разделе документации - https://cloud.yandex.ru/docs/speechkit/pricing (длинные аудио)
Военные-мвдшные технологии на службу бизнеса))
В целом тема крутая. Интересно было бы узнать, как алгоритмы работают со смешенными диалектами.
Пример - татары очень быстро разговаривают и смешивают русские слова с татарскими. Получается конструктив типа "раствор ёк, суши вёсла. Кайда купить"?)))
У нас в языке довольно много заимствований, поэтому в общем случае получится примерно описанная вами ситуация, за исключением моментов где есть сильно более употребляемые паронимы, но понимая контекст не очень сложно делать нормализацию в процессе аналитики.