Автоматизация процедур конфигурирования и запуска/перезапуска компонентов IT-решения. В рамках диагностики или для восстановления работоспособности (когда причины проблемы устранены) необходимо запускать/перезапускать определенные компоненты IT-решения, а работу каких-то компонентов, наоборот, блокировать. Это означает, что IT-решение должно обеспечивать гибкие возможности по настройке компонентов. Кроме этого, не стоит забывать, что аварийная ситуация является стрессовой и важно не допустить, чтобы инженер, выполняющий действия по диагностике и устранению проблемы, не усугубил ситуацию. Для этого у него должен быть под рукой набор заранее подготовленных процедур по запуску/рестарту и переконфигурированию тех или иных компонентов.
Все просто и понятно. Давно искал такую подачу материала по этой теме.
Спасибо за статью!
Интересно а есть какие-то готовые программные продукты (мониторинги, аналитика аварий, ...) для внедрения SRE?
Ну гугл например предлагает в их облаке все делать https://sre.google/sre-in-cloud/
Но по нашей практике универсальных решений нет и под конкретный продукт проще и лучше собрать свое на базе K8s, prometheus, grafana, ...
Ну гугл например предлагает в их облаке все делать https://sre.google/sre-in-cloud/
Но по нашей практике универсальных решений нет и под конкретный продукт проще и лучше собрать свое на базе K8s, prometheus, grafana, ...