Первым шагом определим основные требования к сервису. На текущий момент, основная задача - мониторить доступность сайтов и получать уведомления при их недоступности, а также уведомления о доступности после недоступности 🥸. Согласен, звучит невероятно, другими словами - фиксируем инцидент и оповещаем о начале и завершении.
О вышло в итоге, что сервер мониторинга сам от сети потерялся )) Для такого контроля нужно несколько серверов, желательно разнесенных географически.
Архитектурно это учтено, но пока что не дошли руки до реализации :)
Есть одна основная (мастер-слейв) локация, например, МСК-1 и N дополнительных в других городах/дц/странах
После того, как основная локация регистрирует инцидент, дополнительные проверяют недоступность ресурса, если он действительно недоступен, отмечаются в инциденте, что тоже проверили и все ок.
Если же инцидент ложный, проверяем другой локацией до N раз, в случае чего, инцидент удаляется, а уведомление не отправляется
100%
У меня на хостинге есть такая услуга, там пингуется с разных локаций и айпи