Чтобы разобраться с инцидентом, нужно организовать работу команды для устранения ошибки, быть в это время на связи с клиентом. При этом часть инцидентов будет незначительной: например, падение работоспособности на пять секунд, после которых ресурс восстанавливался самостоятельно. Уверен, многие с этим сталкивались. По нашей внутренней статистике, таких кейсов было около 70%. Но даже по ним приходили оповещения: и клиенту, и команде. Срабатывание ложной тревоги по итогу стоит времени сотрудникам, а компании — денег.