реклама
разместить

Как машинное обучение упрощает жизнь техподдержке True Engineering

Уже около года команда поддержки одного из наших высоконагруженных продуктов использует ML-систему нашей собственной разработки – Problem Detection Platform (PDP). Этот сервис умеет анализировать логи и автоматически классифицировать возникающие ошибки. В результате саппорт получает из логов не тонны сырой информации, а данные, с которыми можно быстро и удобно работать.

Платформа использует машинное обучение, чтобы определять ранние признаки сбоев в логах. В отличие от человека, роботу несложно просмотреть десятки тысяч цепочек логов и найти в них характерные признаки технических сбоев. Обученная модель может использовать накопленный опыт, чтобы таким же образом фиксировать будущие проблемы. По этим данным инженеры смогут принимать решение: завести баг в разработку или пропустить, потому что это типичная ошибка. В результате поддержка избавляется от рутины, её эффективность качественно вырастает.

Как это работает

Решение состоит из трёх приложений: одно анализирует логи и сохраняет результат анализа в базу, второе раз в сутки обновляет модель, т.е. обеспечивает возможность обучения, третье (консольная утилита) позволяет корректировать результаты для дообучения модели. У инженеров также есть дашборд в Kibana, где можно погрузиться в нужные события.

Результаты анализа сервис собирает в Excel-таблицу, где можно увидеть общую статистику по возникшим проблемам, разбивку по классам и потенциальной угрозе, динамику в течение дня. Тут же можно увидеть, какие события имеют регулярный характер, а какие случились впервые.

Датасет для обучения модели собрали так:

  • Взяли 130 000 логов из системы (это цифра за 5 дней)
  • Выделили скриптом из них порядка 3500 уникальных логов со схожими сообщениями
  • Сгруппировали их в 37 файлов по уровню похожести
  • Заполнили описания, по которым модель относит ошибку к определенному кластеру и определенной группе.
Как машинное обучение упрощает жизнь техподдержке True Engineering

PDP в нашей практике

В прошлом году с прототипом продукта начала работать команда поддержки нашей высоконагруженной системы продаж. Уже в первые недели благодаря PDP поддержка действительно нашла несколько багов и технических проблем. В том числе, ошибку, которая влияла на критически важный бизнес-процесс.

В первые месяцы работа была рутинной – нужно было обучить модель. Для этого инженеры в ручном режиме размечали ошибки в поступающих логах. Проработали десятки тысяч логов, чтобы PDP научилась сама определять в них ошибки.

И со временем результаты стали всё очевиднее. Главное – стало возможно эффективно работать с большим объемом записей в логах. В день сейчас возникает около 58 тыс событий, и в отличие от человека, система читает каждую строчку. Поддержка видит динамику по известным кейсам, быстро замечает неизвестные, новые ошибки.

Всё это очень ценная информация для поддержки. Например, можно увидеть, что несколько десятков ошибок могут быть серьёзнее тысячи инцидентов. Если последние размазаны по суткам, то проблемы может и не быть, а ошибки носят технический характер. А вот пик из небольшого количества ошибок за короткое время может говорить об угрозе.

На практике это означает, что команда не узнаёт о проблемах от заказчика или пользователей, а выпускает хотфикс буквально в течение получаса после релиза (реальная цифра).

Что планируем дальше

На данный момент сервис на стадии прототипа. Конечная цель - сделать настоящий MLOps с автоматическими и непрерывными процессы сбора данных для обучения, дообучения модели, её публикации. Плюс, технологии для обеспечения отказоустойчивости и масштабирования под нагрузками и непрерывного сопровождения во время работы.

Чтобы сократить ручную работу саппорта и участие специалистов в работе PDP, нужно точнее определять критичность событий и правильно относить его к какому-то из классов. В теории машинного обучения работа по выделению новых признаков называется Feature Engineering. В итоге PDP будет бить тревогу только в тех случаях, когда поддержке действительно стоит обратить внимание на ошибки.

Ещё одно важное направление – обработка ошибок средней критичности, если их количество начинает резко расти. Иногда плотный поток не самых значимых сбоев говорит о серьёзных проблемах – такие случаи могут не встревожить PDP, но отлавливать их надо. Чтобы реализовать эту качественно новую функцию, в систему добавят дополнительную модель.

Не забываем и про UX. Сейчас команда поддержки смотрит логи в Kibana, а анализ событий и дообучение модели происходит через Excel. В финальной версии PDP будет единое окно, чтобы посмотреть сводную информацию по ошибкам в том или ином классе, доразметить события, отправить данные для дообучения. Также в планах реализация предикативного ввода, чтобы система подсказывала уже известные проблемы по введённым символам или сообщала, что аналогичная цепочка уже размечалась в прошлом.

Однако по отзывам поддержки, уже на стадии прототипа PDP свою полезность доказала:

«Картинка по критичности и частоте возникающих проблем выглядит объективно. Уже в нынешнем виде инструмент стал маст-хэвом на запуск после релизов, благодаря тому, что можно моментально замечать ошибки».

22
реклама
разместить
4 комментария

Интересно. Пока только на русском? 

в скором будущем переведём на английский, ссылкой поделимся

Интересный кейс. Благодарю за статью.

Биткоин упал ниже $80 тысяч впервые с ноября 2024 года, эфир просел до минимумов 2023 года

Криптоиндекс страха и жадности находится в зоне «экстремального страха».

Данные на 7:09. Источник: Coin360
1313
33
33
11
11
11
реклама
разместить
🧊 ВТБ — вечно «недооценённый» банк. Прибыль из воздуха — есть. Дивиденды? В 2021... 2023... 2024… Нет, будут точно в 2026!

Как сделать сотни миллиардов прибыли, не решая фундаментальных проблем? ВТБ знает ответ. Главное — вовремя распустить резервы и пообещать дивиденды когда-нибудь потом… Что вообще происходит с компанией?

🧊 ВТБ — вечно «недооценённый» банк. Прибыль из воздуха — есть. Дивиденды? В 2021... 2023... 2024… Нет, будут точно в 2026!
1515
44

Новая модель от OpenAI, главу криптокомпании Gotbit экстрадировали в США, новая инвестиция Flint Capital и The Garage, SEC высказалась про мемкоины, биткоин упал ниже $80 000

🦄Доброе утро, наши маленькие любители единорогов!

Как продакт, дизайнер и кодер стали «чинить» рынок мёда

Роскачество осенью 24 года объявило, что 80% мёда на прилавках — это разного рода подделка. Рассказываю, в чём глубинные причины беды в отрасли. 5 вариантов где брать мёд.

Как продакт, дизайнер и кодер стали «чинить» рынок мёда
1010
33
22
22
Что такое ландшафтный дизайн и зачем он нужен?
Фото: Андрей Серебряков
1010
66
11
День 1101: индекс Мосбиржи на открытии утренней торговой сессии снижался на 1,9%

Собираем новости, события и мнения о рынках, банках и реакциях компаний.

Источник фото: «Ведомости»
33
11
11
11
11
Как бизнесу избежать фрод-схем и оптимизировать бухгалтерию? Разбираем с Денисом Доброскоком в подкасте «тчк баланса»
Как бизнесу избежать фрод-схем и оптимизировать бухгалтерию? Разбираем с Денисом Доброскоком в подкасте «тчк баланса»
Я рисовала еду 15 лет, а потом пришла нейросеть и изменила всё

В 2014-ом я ушла "на фриланс". Нужно было выбрать специализацию — невозможно одинаково хорошо делать всё. Я проанализировала свой опыт и поняла, что лучше всего у меня получаются фуд-зоны для упаковок. Коллеги это отмечали, арт-директора хвалили композиции из фруктов. Сделала на это ставку.

Я рисовала еду 15 лет, а потом пришла нейросеть и изменила всё
55
11
11
[]