И вот как-то раз прямо перед обедом мы увидели красный Nagios (наш мониторинг): облако потеряло часть хранилища по одному пути. Данные шли по другим путям и клиенты не пострадали, но тем не менее это была аварийная ситуация. Мы бросились ее исправлять, но не успели: через 5 минут пути сами восстановились. Расследование показало, что в аварии участвовали три СХД одного и того же вендора, но разных моделей и находящихся в разных залах. Мы долго думали и не смогли найти какой-либо связи, кроме как с активностью на Марсе. Не видели мы связи и в том, что падение продуктива произошло в тот момент, когда Иван пошел менять патчкорд на тесте. В конце концов между тестом и продуктивом несколько коммутаторов.