Три кейса мониторинга информационных систем Банка ДОМ.РФ с помощью "Ключ-Астром"
Мир информационных технологий в 2022 году полон различного ПО, дающего возможность в реальном времени проводить мониторинг информационных систем с различных сторон. Но бывает и такое, что вы не можете подключить мониторинг к ядру платформы, написанной, например, на той же Java, или являющейся гигантским монолитом, писавшимся вендором не один год и без предоставления вам доступа. С решением данной задачи нам помог продукт Ключ-Астром, о котором и пойдет речь.
Чтобы удостовериться в заявленном функционале, мы реализовали пилотный проект продукта, а в следующем году планируем масштабирование на другие системы банка.
Новые возможности мониторинга
"Ключ-Астром" — это система мониторинга производительности приложений (Application Performance Monitoring, APM) от российской компании "Рускомтехнологии", включенной в реестр российского ПО Минкомсвязи РФ.
APM – это решение, которое предоставляет единую платформу для анализа производительности полного стека приложения вплоть до каждой отдельной пользовательской транзакции для всех слоев и используемых технологий.
Это важный инструмент, который дает возможность совершить качественный скачок в повышении уровня мониторинга и стабильности сервиса приложений для клиентов и бизнес-процессов, понять поведение приложения, обнаружить проблемы прежде, чем пользователи подвергнутся негативному воздействию.
ПО для мониторинга производительности приложений обладает следующими ключевыми характеристиками:
- мониторинг пользовательского опыта: сбор метрик с браузера пользователя, мобильного приложения, синтетические проверки и т.д.;
- мониторинг приложений: сбор метрик приложения, сбор трассировок и запросов внутри приложения, профилирование кода;
- мониторинг инфраструктуры: сбор метрик хостов, процессов, сервисов;
- автоматическое обнаружение и сопоставление приложения и компонентов его инфраструктуры;
- отслеживание производительности приложения, обнаружение аномалий в его работе (ИИ);
- отслеживание влияния нового внедрения/поставки/мерджа/патча;
- автоматическое построение ресурсно-сервисной модели;
- механизмы машинного обучения для выявления инцидентов и причин их возникновения.
Как улучшить продукт, разрабатываемый вендором, и не наткнуться на проблемы, которые могут возникнут у пользователей
Мониторинг "Ключ-Астром" в ДОМ.РФ был поставлен на АС Банка — "Кредитная дорога" и "Личный кабинет застройщика".
Одной из основных особенностей "Ключ-АСТРОМ" является механизм автоматического определения инцидентов ("Проблемы"), который с применением машинного обучения и искусственного интеллекта выявляет проблемы с доступностью и производительностью приложений, сервисов и инфраструктуры с указанием корневых причин и влиянием на конечных пользователей.
Несколько примеров по схеме AS IS / TO BE
Кейс №1
Высокая нагрузка серверов приложения по CPU.
AS IS:
- получение информации об алерте с помощью систем оповещения Банка;
- переход в систему мониторинга Grafana для подтверждение факта проблемы;
- снятие дампы памяти и дампы потоков, логи и хар файлы.
Итогом будет заведение обращения в пространстве вендора на проведение разбора ошибки.
TO BE:
- "Ключ-Астром" присылает алерт по сервису на общую почту,
- мы переходим по ссылке из письма и попадаем на веб интерфейс "Ключ-Астром" с проблемой и в описании видим, что именно вызвало нагрузку,
- события объединяются единой корневой причиной,
- с этой фактурой вплоть до класса заводим обращение на вендора.
Итог по сценарию:
Экономия в среднем 4-6 часов на сбор анализа для предоставления вендору. Также снижает затраты на анализ со стороны вендора, так как указывается сразу корень проблемы.
Кейс №2
Индивидуальный всесторонний анализ различных ошибок
AS IS:
- необходимо иметь доступ к базе данных и серверам приложений,
- необходимо иметь личную УЗ для подключения (снижает безопасность),
- необходимо иметь определенный навык для поиска ошибок и построения необходимых запросов.
TO BE:
В ПО "Ключ-Астром" есть инструмент "Индивидуальный всесторонний анализ", из которого можно получить практически все, что происходит в приложении — не только в моменте, но также и исторические события (они имеют ограничение по сроку хранения). Например, можно посмотреть количество запросов в базу данных или топ веб-запросов пользователей.
Мы можем также разбить запросы вплоть до стека и предоставить фактуру по деградации. Этот элемент с точки зрения поддержки АС "Кредитная дорога" и АС "Личный кабинет застройщика" уникальный, поскольку позволяет анализировать ошибки, возникающие у пользователей при работе с приложением.
Итог по сценарию
В среднем мы сокращаем время выявления первичной проблемы на 20-30 минут, а также снижаем зависимость от скиллов сотрудника. Количество людей, которые могут пользоваться данным анализом, возрастает, при этом снижается риск несанкционированных запросов в базу данных или сервера приложений.
Кейс № 3
Анализ производительности пользовательского интерфейса
AS IS:
- нет целевого инструмента, только HAR file.
TO BE:
При разборе ошибок мы используем инструмент "Анализ производительности". В нем виден топ действий пользователей на всех серверах приложений. Здесь выстраивается так называемый индекс Apdex — рейтинг удовлетворенности пользователей. Рейтинг рассчитывается для каждого действия пользователя и зависит от отклонений метрик производительности и доступности операций (время и ошибки). На основании этих данных вычисляется оценка, от "Отлично" до "Недопустимо" которая отражает удовлетворенность конечного пользователя от взаимодействия с приложением. По Apdex мы можем понять, какое именно действие пользователей занимает наибольшее количество времени и может вызвать раздражение, или получить уведомление о медленной работе сервиса.
Также есть инструмент, который показывает ошибки пользовательских запросов с фронта приложения. Это позволяет нам провести анализ не только в рамках бэкенда, но и фронта приложения.
Итог
Подводя общий итог по работе с данным ПО мониторинга Ключ-Астром: благодаря системе мы можем выявить множество узких мест, которые могут привести к деградации продуктовой среды, или же увидеть улучшения в работе приложения.
Из статьи осталось непонятным, почему стоит выбрать проприетарное решение и платить сотни тысяч ежемесячно вместо использования опенсорсного APM со сбором данных в Эластик.
Добрый день! Огромное спасибо за ваш вопрос, вы вдохновили нас на создание материала на этот счет, здесь мы подробно объясняем отличие опенсорса и промышленной платформы.
https://vc.ru/u/952799-ruskomtehnologii/568542-sravnenie-promyshlennogo-apm-i-open-source-resheniy
Добрый день, ключ астром это полная копия Dynatrace, в чем заключается ваша разработка