Как не повторять судьбу Facebook и Cloudflare — не уходить в даунтайм часами

На фото — пожар в крупном датацентре, дым от которого видно из окна нашего офиса на другом конце Москвы. На этом фоне расскажу о том, какие шаги предпринять, если вы — бизнесмен, а ваш сайт лежит.

Так горит датацентр в Москве
2424

Фото с MSK-IX на Бакулева? Судя по расположению домов - да.
Не "программисты", не "бекендеры". Даже не "очень хорошие". Надежность, отказоустойчивость и танго с облачными провайдерами — это вотчина отдельных людей: DevOps и, если вам повезло, Site Reliability Engineer'ов (SRE).Вина в падениях часто программеров.

Ответить

Самое неэффективное, что может сделать руководитель после падения — это пойти и отчитать программиста, который катнул багу на прод.

Бодрые команды практикуют blameless postmortems. Это митинг, на котором задача не найти виноватого, кто получит люлей за криворукость, а создать action plan, чтобы этого не повторилось. Внести системное изменение в процесс. Классические решения: повысить покрытие тестами, канареечный деплой, разбить продукт на beta/prod...

8
Ответить

Neo Geo на Калужской)

Ответить