SRE (Site Reliability Engineering) на языке бизнеса

SRE - это культура работы с IT-решениями, которая с помощью улучшения процессов разработки и тестирования, а также за счет автоматизации позволяет сократить аварийное время, делая IT-решения более предсказуемыми и устойчивыми, а бизнес в результате - более успешным.

22

Все просто и понятно. Давно искал такую подачу материала по этой теме.
Спасибо за статью!
Интересно а есть какие-то готовые программные продукты (мониторинги, аналитика аварий, ...) для внедрения SRE?

Ну гугл например предлагает в их облаке все делать https://sre.google/sre-in-cloud/
Но по нашей практике универсальных решений нет и под конкретный продукт проще и лучше собрать свое на базе K8s, prometheus, grafana, ...

1