Её зовут СиМона. Наш год с новой системой мониторинга IT

Заместитель директора департамента мониторинга и бесперебойности информационных систем банка «Санкт-Петербург» Алексей Тутуков — о том, как команда банка год прожила с новой системой мониторинга IT, что за это время доделала и что планирует

Банк «Санкт-Петербург» около года назад запустил мониторинговый центр и внедрил новую зонтичную систему мониторинга. Мы писали об этом вот здесь (https://bosfera.ru/bo/kak-bank-sankt-peterburg-novyy-monitoringovyy-centr-zapuskal). Я хотел бы поделиться тем, как мы живем с ними дальше, как добавляем новые объекты, стараясь ничего не упустить, и как развиваем систему.

Масштабирование зонтика

Зонтик – отличная вещь. Но смысл его в том, чтобы укрыть от дождя всё нужное и ничего не упустить. Только тогда можно сказать, что он работает и выполняет свои задачи. Так же и с зонтичной системой мониторинга – она может быть сколь угодно красивой, но мы должны обеспечить такой уровень автоматизации, менеджмента и мощности, чтобы система могла охватить все необходимые объекты.

Что мы для этого сделали?

Во-первых, автоматизация. Мы автоматизировали процесс добавления в мониторинг новых объектов. При появлении такого объекта на него автоматически устанавливаются агенты мониторинга, которые отслеживаются системой. А в самом мониторинге настроены дефолтные шаблоны проверок, которые навязываются системой в зависимости от типа объекта. Нам остается только управлять алертами: по умолчанию они идут в круглосуточную группу администраторов мониторингового центра, но их путь может настраиваться.

Во-вторых, менеджмент. Мы ввели регламент мониторинга, в котором прописали несколько базовых принципов, облегчивших работу системы. Все нужные доступы нужным ролям к нужным объектам теперь даются автоматически. Все сетевые доступы настраиваются по шаблонам. Все объекты инфраструктуры охватываются централизованной системой мониторинга с минимальным участием команды мониторинга.

В-третьих, масштабируемость. У мониторинга есть ядро и есть proxy-серверы, которые снижают нагрузку на ядро. После добавления определенного количества объектов на proxy-сервер создается новый proxy, и все новые записи идут уже на него. Для этого мы подготовили инфраструктуру и шаблоны, и теперь всё делается автоматически по готовым образцам.

Алексей Тутуков
Заместитель директора департамента мониторинга и бесперебойности информационных систем банка «Санкт-Петербург»

СиМона и её уровни

Зонтичная система – не монолит. Единым решением мы не смогли бы закрыть все потребности бизнеса и IT. Вокруг мониторинга мы создали целую экосистему. Мы называем её СиМона.

У экосистемы есть три уровня. На нижнем уровне существуют различные системы сбора данных, каждая из которых используется для своих целей. Cisco AppDynamics используется для мониторинга самого важного для банка — клиентского опыта. В основном с помощью AppDynamics мы контролируем работоспособность интернет-банка и мобильного приложения, видим, как клиент взаимодействует с нашими приложениями, какие проблемы у него возникают. Zabbix – open-source решение, которое мониторит работоспособность 80% всех объектов в банке: инфраструктуры, оборудования в ЦОД, сетевого оборудования, всех систем и приложений, которые не относятся к mission-critical. Еще одно приложение – Prometheus – используется для мониторинга микросервисов, на базе платформ OpenShift, Kubernetes или Docker Swarm.

Все триггеры и метрики от этих трех систем отправляются на следующий уровень – уровень агрегации, обогащения и корреляции событий. Это самостоятельная разработка, которая получает события, маршрутизирует адресатам, обогащает информацией (если это заложено правилами мониторинга), делает корреляцию, чтобы избежать алерт-шторма при крупных авариях.

Её зовут СиМона. Наш год с новой системой мониторинга IT

Верхний уровень СиМоны – пользовательский. Все пользователи системы мониторинга для нас — клиенты, так как в нашем банке мы создаем подход к мониторингу – as a service. Мы оказываем услугу мониторинга нашим клиентам и всячески стремимся ее улучшать. Так вот, для клиентов существует единый интерфейс мониторинга на базе Grafana. Все dashboard’ы видны там. Также на этом уровне существует система, которая формирует отчеты, если это требуется.

Кроме этих трех уровней, у СиМоны есть система диагностики, созданная нами на базе зонтичной системы мониторинга. Она называется Fix.СиМона и в ней работают сетевые инженеры. Дело в том, что в банкинге очень важную роль играет безопасность, в том числе информационная. Из-за наших систем безопасности зоны сети жестко сегментированы. У сетевых инженеров не всегда есть доступы, необходимые, чтобы починить ПО в том или ином сегменте сети. Fix.СиМона позволяет инженеру обратиться к агенту мониторинга и выполнить команду через него, не обладая правами администратора данного сегмента. Это уменьшает количество времени, необходимого на фикс.

В наших планах – развивать систему мониторинга в сторону автоматизации восстановления работоспособности. Это следующий уровень зрелости работы с мониторингом, и мы к нему стремимся.

77
2 комментария

Мне вот интересно: как вы умудряетесь создавать системы мониторинга (Симоны и прочее) и все это ради клиентов, но при этом не можете нормально среагировать на отмену исполнительного производства?! https://vc.ru/claim/318561-pao-bank-spb-nezakonno-blokiruet-sredstva

Вы 3 недели назад получили оригинал от приставов о прекращении производства, на прошлой неделе заблокировали все счета (после чего я не меньше 4 раз звонил в банк и подавал претензии) а вчера вы списали средства

Так как вы можете говорить, что вы мониторите ситуации клиентов и вообще про клиент-ориентированность? У вас одна рука не знает что другая делает, а если даже сообщаешь вам заранее предоставить доказательства вы все равно поимеете своих клиентов потому что тупые и неповоротливые.

Все ваши мониторинги гроша ломаного не стоят

Антон, здравствуйте! Ответили вам в ЛС.