Изначально выбор пал на InfluxDB. Мы осознавали необходимость сбора логов Nginx, статистики из pg_stat_statements, хранения исторических данных Prometheus. Influx нам не понравился, так как он периодически начинал потреблять большое количество памяти и падал. Кроме того, хотелось группировать запросы по remote_addr, а группировка в этой СУБД только по тэгам. Тэги дороги (память), их количество условно ограничено.
В общей сложности в проект входят 14 приложений, которые работают на десяти серверах.
похоже, действительно масштабная штука!
Если ЦВТ так борется за вычислительные ресурсы, то зачем использовать Zabbix для "телебоньканья" API?
Sensu или старый добрый nagios по ресурсам будут более вменяемы.
Потому, что он уже есть.
К слову о nagios - когда то давно у нас использовалась исинга. И нельзя сказать, что она потребляла мало ресурсов. Добавление новых метрик - новые скрипты в nagios агенте. Если скрипты на баше - это куча форков, куча походов на диск (да, у нас есть страничный кеш и на диск мы когда то перестанем ходить, но неужели ему не найдется более эффективного применения?). Если на питоне - запускать интерпретатор, что тоже дорого. Zabbix хотя бы часть метрик достает системными вызовами или через интеграцию агента с источниками метрик.
Да и функионал его поширше будет.
У nagios нет будущего. Sensu не использовал.
Комментарий недоступен
К сожалению, у нас NDA, хотя нам бы очень хотелось рассказать о проекте :(
Там точно есть о чем рассказывать.
Не менее яркий пример — Nginx-логи. Не удивительно, что мало кто их парсит или упоминает в списке обязательных. Это же далеко не так. Трейсить запросы без логов невозможно. Лет 10 назад общались с чуваками из Яху и они рассказывали как они обрабатывают логи Хадупа в самом Хадупе. При этом всем нужно обучать модель, которая могла бы переживать флапающие метрики. Хотя наверное в маленьких проектах нет нужды предсказывать выход из строя части мощностей.
Абсолютно согласен, что без логов никак.
Но практика показывает, что на небольших веб проектах и техподдержке не всегда их смотрят, а если и смотрят, то не всегда по ним алертят.
Статья по большому счету предназначена для джунов и мидлов, которые не выстраивали мониторинг с нуля. Как уже говорил, приходящие к нам на собеседование админы часто по старинке выстраивают мониторинг от железа. Да, следить за ним важно, но мониторить все равно в первую очередь надо приложение.