Искусственный интеллект смотрит жалобы
Любую сложную задачу можно попробовать решить простыми методами. И решение задачи Machine Learning не является исключением.
Обратная связь – это самая ценная информация, поэтому следует максимально подробно изучить каждый её бит. Анализируя жалобы от клиентов, мы объективно видим, в каких бизнес-процессах возникают проблемы. Поскольку процессы часто взаимосвязаны, их возможно сгруппировать и рассматривать как группу. Соответственно, мы приходим к стандартной задаче Machine Learning (ML) – «многоклассовая классификация». В результате данного анализа решается задача — сбор сводной аналитики по организации.
Задача классификации – это задача, в которой имеется множество объектов, разделенных определенным образом на классы. В случае многоклассовой классификации число классов должно быть более 2 и может достигать даже многих тысяч.
Данные по жалобам и ответам на них хранятся на сервере, процесс выгрузки и предобработки проводится стандартно через запрос к базе, на выходе мы получаем датафрейм с данными, с которыми мы будем работать. Жалоба и ответ на нее – это достаточно объемные документы. Например, ответ на жалобу может достигать нескольких сотен или даже тысячи слов. Обрабатывать такой текст напрямую очень затратно (вычислительно), поэтому и необходима предобработка текста.
Точность по модели существенно зависит от уникальности текста, поэтому из текста необходимо убрать слова, не несущие особого смысла – «стоп-слова». Обычно в состав слов входят предлоги, союзы и другие незначимые части речи. Также мы дополнили словарь стоп-слов именами и отчествами.
До момента реализации проекта классификация производилась вручную, следовательно, у нас есть данные, размеченные экспертами. А это классическая ML задача обучения с учителем. Предобработанный текст приводим к виду, который модель может обработать. Для этого переводим ответы на жалобы в векторы признаков (используемая в коде независимая переменная – features, зависимая – labels).
Для классификации выбрана модель Linear Support Vector Classification. Это было сделано по следующим причинам:
- высокая эффективность при работе с измерениями большой размерности;
- устойчивая работа в случае превышения размерности над количеством сэмплов.
Данный проект подготовлен для внедрения в пром. Ежедневно модель будет проводить классификацию данных, введенных в течении рабочего дня. На начальном этапе предполагается дополнительно ручная верификация работы модели экспертом. Раз в месяц модель будет переобучаться. Внедрение данного проекта позволило нам еще на один шаг приблизиться к будущему!