Бывают, конечно, и непредсказуемые ситуации: пожары, наводнения, электростанции выходят из строя. Например, этим летом в Екатеринбурге была аномальная жара. В одном из дата-центров вышла из строя основная система охлаждения, а резервная не справилась с нагрузкой. Мы отключили часть оборудования в стойках, где температура в корпусе серверов была критической. Проблемы продлились не дольше пары часов: инженеры соорудили дополнительное водяное охлаждение для внешних блоков кондиционеров — и всё вернулось в норму.
Мы мониторим не только базовые параметры сервера. Они, конечно, важны. Мы разбиваем сайт на сервисы, которые важны для клиента, и мониторим.
Для растущих интернет-магазинов или нагруженных crm вроде упомянутого Bitrix это может быть форма заказа или обратной связи, очередь оповещений клиентов, исправность интеграций с внешними системами. В мониторинге интеграций 1C в топе!
Еще топ ошибок мониторинга — это базовые параметры. Срок действия доменов, сертификатов, лицензий на софт и обновления и дата последней установки исправлений.
Часто клиенты концентрируются на том, что важно здесь и сейчас, а эти вещи уходят на второй план и забываются.
По моей оценке к падениям сервиса и уменьшению цифр 9 в uptime кратно чаще приводят такие мелочи, а не ddos атаки.
Потому регулярный мониторинг и быстрая реакция надёжных админов и разработчиков на проблему очень важны!
О, как в тему реклама при атаке на TW милионами пакетов ). Может ли автор статьи дать развернутый ответ почему так получилось, и почему такого не будет в вашем облаке
Если я правильно понял, вопрос про таймвеб. Если что, я не автор статьи и с NetAngels никак не связан. Мне комментарий попал по больному.
Мы перетащили сервис аналитики клиента из timeweb в другой ДЦ за несколько часов, потому что за неделю TW не решили проблему.
Похожая история была с другим провайдером 4 года назад.
DDOS идет на одного клиента, а страдают все клиенты за сетевым устройством хостера. В тот раз клиент не мог с 1с работать, а на 1С вообще все продажи завязаны. 10 магазинов по стране отдувались перед клиентами, что они принять оплату и чек выбить не могут.
Мы в итоге увезли железки через неделю разрывов и тормозов в другой ДЦ.
Мой опыт говорит, что так выглядят архитектурные ошибки.
Их сложно исправить быстро. Отсюда тормоза в решении проблемы.
Мне тоже интересно, как этот вопрос решается в NetAngels. За мои 15 лет опыта решения задач с разными ДЦ есть такие, где подобная проблема не возникала ни разу.
Давайте правильно пересчитаем 99,999% uptime на часы простоя:
365 дней × 24 часа × (100% − 99,999%) = 0,0876 часа в год. То есть 5 минут в год.
Спасибо, что заметили! <3
согласен, еще на 100 нужно поделить, чтобы процент получить
Как правильно рассчитать SLA
https://uptime.is/