Вопрос по разработке и аналитике - у вас есть система анализа работы бота, лучше он стал отвечать или хуже, есть деградация или нет? И если есть, то это только ручное маркирование хороший/плохой ответ или есть какие-то алгоритмы автоматического маркирования?
Сергей, у нас есть система, состоящая из порядка 40 критериев, которые определяются автоматически, по скорость, качеству и удовлетворенности пользователя. Например, различные пользовательские метрики (оценка, длина диалога) измеряются в аб-эксперименте. Похожими метриками можно измерять качество работы операторов и редактировать контент. Качество определения тематик рассчитываются на отложенном валидационном сете и при автоматическом дообучении моделей сравниваются с предыдущими замерами, а в случае успеха, идут в продакшн.
Вопрос по разработке и аналитике - у вас есть система анализа работы бота, лучше он стал отвечать или хуже, есть деградация или нет? И если есть, то это только ручное маркирование хороший/плохой ответ или есть какие-то алгоритмы автоматического маркирования?
Сергей, у нас есть система, состоящая из порядка 40 критериев, которые определяются автоматически, по скорость, качеству и удовлетворенности пользователя. Например, различные пользовательские метрики (оценка, длина диалога) измеряются в аб-эксперименте. Похожими метриками можно измерять качество работы операторов и редактировать контент. Качество определения тематик рассчитываются на отложенном валидационном сете и при автоматическом дообучении моделей сравниваются с предыдущими замерами, а в случае успеха, идут в продакшн.