Кейс: Яндекс Метрика отключили мониторинг доступности сайтов. Как на самом деле надо делать мониторинг?

С 3 сентября Яндекс отключил функцию мониторинга сайтов в Метрике, которые многие пользовались для того чтобы получать уведомления по почте или СМС о поломке своих сайтов. Чтобы не полагаться на внешние решения мы в Инитлаб давно разработали собственное решение для мониторинга здоровья веб-серверов и сайтов. Что и как мы мониторим читайте в этой статье.

Мониторинг у нас является частью технической поддержки серверов и сайтов наших клиентов. Разрабатывали мы его на основе OpenSource решения Zabbix. Если с сайтом или сервером что-то не в порядке или прогнозируются неприятности, то мониторинг заводит задачу в нашем сервис-деске на сотрудника, и дальше уже в рабочем порядке мы решаем проблему.

На серверах мы мониторим:
1. Свободное место на дисках. Прогнозируем что оно закончится заранее по динамике уменьшения места.
2. Среднюю нагрузку на CPU, RAM. Если сервер перегружен, заводится тикет для анализа ситуации.
3. Здоровье дисков через SMART. Информирует об аппаратных проблемах на сервере.
4. Наличие обновлений безопасности для системного и прикладного софта сервера.
5. Наличие локального бекапа и бекапа в облаке S3.

На сайтах мы дополнительно мониторим:
1. Доступность. Отслеживаем несколько страниц сайта на предмет могут ли пользователи просматривать эти страницы. Проверяем код ответа сервера 200 Ок.
2. Скорость работы сайта. Помимо времени ответа сервера отслеживаем показатели интегрированной оценки скорости работы сайта Google PageSpeed (LightHouse). При замедлении более 20% заводим тикет.
3. DNS записи. Проверяем корректность установки DNS-записей чтобы сайт работал, почта доставлялась.
6. Срок действия домена. Проверяем срок действия домена и предупреждаем о необходимости продления заранее.
7. Корректность и срок действия SSL сертификата. Проверяем корректность и срок действия сертификата для работы сайта по HTTPS и предупреждаем о необходимости продления. Сертификаты LetsEncrypt обновляем автоматически.
8. Изменения в файле .htaccess. Часто по ошибке происходит при обновлении CMS, может приводить к некорректной работе сайта.

Для сайтов, где идут работы по SEO, мы дополнительно мониторим:
1. Выборочно ключевые слова в метатегах, заголовках, названиях страниц. Иногда при обновлении CMS или в результате выполнения каких-то работ на сайте слетают правки SEO-специалистов, о чем предупредит мониторинг.
2. Изменения в файле robots.txt. Также бывает слетает при обновлении CMS. Мониторинг позволяет не дожидаясь информирования от поисковых систем быстро предотвратить последствия.

Для интернет-магазинов, и других продающих сайтов дополнительно мы пишем тесты и мониторим:
1. Функционал сайта. Автоматически проверяем функционал сайта путем отправки запросов, имитирующих действия пользователя. Например проверяем работоспособность корзины, поиска.
2. Работу прогрева кеша страниц и параметров Memcacached. Сбои в системе кеширования страниц приводят к замедлению работы сайта. Мы тонко настраиваем кеширование и затем за ним следит мониторинг.
3. Импорты и экспорты данных.

Для CMS Drupal мы дополнительно мониторим безопасность. Отслеживаем наличие обновлений безопасности Drupal и модулей, vendor-библиотек PHP.

Всего мониторинг следит за 20-ю параметрами сайта и еще 50-ю параметрами серверов чтобы мы узнавали о проблемах на сайте не только до того, как о них узнают посетители сайтов, наши клиенты и поисковые системы, но и смогли предотвратить саму первопричину проблемы. Нашим мониторингом мы полностью владеем и поддерживаем его сами, поэтому его никто не отключит внезапно. Такой мониторинг мы используем при оказании услуг поддержки сероверов и сайтов для всех клиентов Инитлаб.

33
Начать дискуссию