{"id":14275,"url":"\/distributions\/14275\/click?bit=1&hash=bccbaeb320d3784aa2d1badbee38ca8d11406e8938daaca7e74be177682eb28b","title":"\u041d\u0430 \u0447\u0451\u043c \u0437\u0430\u0440\u0430\u0431\u0430\u0442\u044b\u0432\u0430\u044e\u0442 \u043f\u0440\u043e\u0444\u0435\u0441\u0441\u0438\u043e\u043d\u0430\u043b\u044c\u043d\u044b\u0435 \u043f\u0440\u043e\u0434\u0430\u0432\u0446\u044b \u0430\u0432\u0442\u043e?","buttonText":"\u0423\u0437\u043d\u0430\u0442\u044c","imageUuid":"f72066c6-8459-501b-aea6-770cd3ac60a6"}

Хостинг Timeweb: причины пятничного сбоя

11.12.20 в 16:02 МСК мы столкнулись с аппаратной проблемой в работе системы маршрутизации. Серверы продолжали работать, но прекратили быть доступны извне. Сегодня мы расскажем, что произошло, что мы уже сделали и что еще предстоит сделать.

Что случилось

Проблема возникла на корневом маршрутизаторе, через который идет весь трафик. Он имеет собственное резервирование большинства функций на случай поломки. А то, что невозможно продублировать — зарезервировано вторым маршрутизатором, подключенным и готовым к работе.

Это значит, что если какой-то элемент корневого маршрутизатора выходит из строя, второй роутер незамедлительно подключится к работе. И, в целом, такая внештатная ситуация не раз проигрывалась на тестовых испытаниях. Но не всё так просто.

На момент выхода из строя основного маршрутизатора мы применили свежую конфигурацию сетевых настроек на резервном роутере, но столкнулись с отказом работы устройства.

Что происходило дальше

В период сбоя телефония была недоступна. Ребята из поддержек, из офиса и дома, не имея доступов к тикетам и телефону, переключились на сообщества в VK и Telegram.

В этот момент инженеры находились в поиске временного решения, которое позволит вернуться сервису в строй. К 18:55 МСК мы восстановили доступность сети.

На этом работы не закончились: уже ночью вместе с поставщиком оборудования мы доставили, установили и запустили абсолютно новый маршрутизатор, чтобы исключить любые просадки.

Сейчас работаем в штатном режиме: ловим и фильтруем атаки типа DDoS в адрес клиентских сайтов, следим и балансируем нагрузку на серверах. Помогаем в тикетах, по телефону, отвечаем в мессенджерах и соцсетях.

Что нам предстоит

Несмотря на то, что мы резервируем каждый участок как минимум в двукратном размере, жизнь преподносит сюрпризы. Мы как хостинг-провайдер обязаны просчитывать даже такие ситуации и исключать их.

В настоящий момент мы находимся на связи с поставщиками оборудования: проводим аудит, проверяем совместимость версий ПО, выясняем наличие возможных незадокументированных проблем и уязвимостей в оборудовании, чтобы обеспечить заявленную стабильность.

Продолжаем поддерживать двойной резерв ядра сети и проводим дополнительные тесты бесшовного перехода между вариантами в случае возникновения любых нештатных ситуаций. Важно: такие тесты не затронут текущую работу сайтов клиентов.

Мы обеспечены всем необходимым запасом оборудования, вплоть до резерва кабелей. Более того, точка маршрутизатора стала нашим самым зарезервированным и безопасным участком.

Мы приносим извинения каждому, кто испытал сложности с доступом или понес финансовые/репутационные потери из-за аварии. И благодарны вам за взвешенную позицию и слова поддержки, которые вы писали, пока мы в поте лица занимались решением проблемы. Спасибо вам за доверие ❤

0
89 комментариев
Написать комментарий...
Евгений Нехаев

Клиенты платят по 1000 руб в год и больше платить не хотят, а оборудование покупается за доллары. Хостинг хоть 100 раз всё зарезервирует, если клиенты будут готовы оплачивать. Из-за желания выжить и оптимизации сейчас в поддержках сидят хомячки, которые мегабит от мегабайта отличить не могут.

Ответить
Развернуть ветку
Александр Денисов

И что это даст? У меня клиент на VDS переехал за немалые деньги и ожидает больше надежности от Таймвеб, тем не менее маршрутизатор оказался один общий для всех и сайт на VDS тоже лежал. Как мне кажется, деньги можно потратить на еще один маршрутизатор-то. Это не еще один дата-центр развернуть ведь.

Ответить
Развернуть ветку
Евгений Нехаев

Дело явно не в циске за 50 тыр. Железка для програмно-аппаратной защиты от ддос на толстый канал может $1 млн запросто стоить и никто не будет покупать их 2 шт. В таких железяках внутри и так все зарезервировано, но банальная уязвимость или сгорел конденсатор за 100 руб и всё легло.

Ответить
Развернуть ветку
Андрей Захаров
Железка для програмно-аппаратной защиты от ддос на толстый канал может $1 млн запросто стоить и никто не будет покупать их 2 шт

Будут и покупают, потому что настоящее резревирование требует двух географически разнесенных плащадок (дата центров).

Ответить
Развернуть ветку
86 комментариев
Раскрывать всегда