Хостинг Timeweb: причины пятничного сбоя

11.12.20 в 16:02 МСК мы столкнулись с аппаратной проблемой в работе системы маршрутизации. Серверы продолжали работать, но прекратили быть доступны извне. Сегодня мы расскажем, что произошло, что мы уже сделали и что еще предстоит сделать.

Проблема возникла на корневом маршрутизаторе, через который идет весь трафик. Он имеет собственное резервирование большинства функций на случай поломки. А то, что невозможно продублировать — зарезервировано вторым маршрутизатором, подключенным и готовым к работе.

Это значит, что если какой-то элемент корневого маршрутизатора выходит из строя, второй роутер незамедлительно подключится к работе. И, в целом, такая внештатная ситуация не раз проигрывалась на тестовых испытаниях. Но не всё так просто.

На момент выхода из строя основного маршрутизатора мы применили свежую конфигурацию сетевых настроек на резервном роутере, но столкнулись с отказом работы устройства.

В период сбоя телефония была недоступна. Ребята из поддержек, из офиса и дома, не имея доступов к тикетам и телефону, переключились на сообщества в VK и Telegram.

В этот момент инженеры находились в поиске временного решения, которое позволит вернуться сервису в строй. К 18:55 МСК мы восстановили доступность сети.

На этом работы не закончились: уже ночью вместе с поставщиком оборудования мы доставили, установили и запустили абсолютно новый маршрутизатор, чтобы исключить любые просадки.

Сейчас работаем в штатном режиме: ловим и фильтруем атаки типа DDoS в адрес клиентских сайтов, следим и балансируем нагрузку на серверах. Помогаем в тикетах, по телефону, отвечаем в мессенджерах и соцсетях.

Несмотря на то, что мы резервируем каждый участок как минимум в двукратном размере, жизнь преподносит сюрпризы. Мы как хостинг-провайдер обязаны просчитывать даже такие ситуации и исключать их.

В настоящий момент мы находимся на связи с поставщиками оборудования: проводим аудит, проверяем совместимость версий ПО, выясняем наличие возможных незадокументированных проблем и уязвимостей в оборудовании, чтобы обеспечить заявленную стабильность.

Продолжаем поддерживать двойной резерв ядра сети и проводим дополнительные тесты бесшовного перехода между вариантами в случае возникновения любых нештатных ситуаций. Важно: такие тесты не затронут текущую работу сайтов клиентов.

Мы обеспечены всем необходимым запасом оборудования, вплоть до резерва кабелей. Более того, точка маршрутизатора стала нашим самым зарезервированным и безопасным участком.

Мы приносим извинения каждому, кто испытал сложности с доступом или понес финансовые/репутационные потери из-за аварии. И благодарны вам за взвешенную позицию и слова поддержки, которые вы писали, пока мы в поте лица занимались решением проблемы. Спасибо вам за доверие ❤

89 комментариев

15.12.2020

Нигде не увидел " Мы лоханулись с тем-то и тем-то, были неправы там-то и там-то, извлекли такие-то уроки". Только никчёмный рассказ, как вы героически боролись с последствиями своих косяков. Кому это интересно? С таким подходом у вас снова что-то упадёт

Ответить

Timeweb Cloud

Автор

Тут не об этом: о ситуации писали в нескольких темах на VC + наши клиенты делились подробностями и опасениями. Мы же были целиком сконцентрированы на диагностике и вынужденно молчали. Исправляемся.

vc.ru

Хостинг Timeweb: причины пятничного сбоя — Сервисы на vc.ru

Хостинг Timeweb не работает. Как вы поступаете, когда заказчик ругается на недоступность сайта, а проблемы у хостинга? — Вопросы на vc.ru

Илья Соколов

27.12.2020

TL, зато оцените, как быстро они вам ответили. А вот эту статью 4 дня писали! И это ж согласовать со всеми надо, после того как разобрались, что это было)))

Илья Мурадзаде

Все равно, Timeweb лучший среди своих конкурентов.
Никто не застрахован. С каждым бывает. Главное, они открыты и всегда идут на встречу своим клиентам. Мы довольны их хостингом.