{"id":14277,"url":"\/distributions\/14277\/click?bit=1&hash=17ce698c744183890278e5e72fb5473eaa8dd0a28fac1d357bd91d8537b18c22","title":"\u041e\u0446\u0438\u0444\u0440\u043e\u0432\u0430\u0442\u044c \u043b\u0438\u0442\u0440\u044b \u0431\u0435\u043d\u0437\u0438\u043d\u0430 \u0438\u043b\u0438 \u0437\u043e\u043b\u043e\u0442\u044b\u0435 \u0443\u043a\u0440\u0430\u0448\u0435\u043d\u0438\u044f","buttonText":"\u041a\u0430\u043a?","imageUuid":"771ad34a-9f50-5b0b-bc84-204d36a20025"}

Хостинг Timeweb: причины пятничного сбоя

11.12.20 в 16:02 МСК мы столкнулись с аппаратной проблемой в работе системы маршрутизации. Серверы продолжали работать, но прекратили быть доступны извне. Сегодня мы расскажем, что произошло, что мы уже сделали и что еще предстоит сделать.

Что случилось

Проблема возникла на корневом маршрутизаторе, через который идет весь трафик. Он имеет собственное резервирование большинства функций на случай поломки. А то, что невозможно продублировать — зарезервировано вторым маршрутизатором, подключенным и готовым к работе.

Это значит, что если какой-то элемент корневого маршрутизатора выходит из строя, второй роутер незамедлительно подключится к работе. И, в целом, такая внештатная ситуация не раз проигрывалась на тестовых испытаниях. Но не всё так просто.

На момент выхода из строя основного маршрутизатора мы применили свежую конфигурацию сетевых настроек на резервном роутере, но столкнулись с отказом работы устройства.

Что происходило дальше

В период сбоя телефония была недоступна. Ребята из поддержек, из офиса и дома, не имея доступов к тикетам и телефону, переключились на сообщества в VK и Telegram.

В этот момент инженеры находились в поиске временного решения, которое позволит вернуться сервису в строй. К 18:55 МСК мы восстановили доступность сети.

На этом работы не закончились: уже ночью вместе с поставщиком оборудования мы доставили, установили и запустили абсолютно новый маршрутизатор, чтобы исключить любые просадки.

Сейчас работаем в штатном режиме: ловим и фильтруем атаки типа DDoS в адрес клиентских сайтов, следим и балансируем нагрузку на серверах. Помогаем в тикетах, по телефону, отвечаем в мессенджерах и соцсетях.

Что нам предстоит

Несмотря на то, что мы резервируем каждый участок как минимум в двукратном размере, жизнь преподносит сюрпризы. Мы как хостинг-провайдер обязаны просчитывать даже такие ситуации и исключать их.

В настоящий момент мы находимся на связи с поставщиками оборудования: проводим аудит, проверяем совместимость версий ПО, выясняем наличие возможных незадокументированных проблем и уязвимостей в оборудовании, чтобы обеспечить заявленную стабильность.

Продолжаем поддерживать двойной резерв ядра сети и проводим дополнительные тесты бесшовного перехода между вариантами в случае возникновения любых нештатных ситуаций. Важно: такие тесты не затронут текущую работу сайтов клиентов.

Мы обеспечены всем необходимым запасом оборудования, вплоть до резерва кабелей. Более того, точка маршрутизатора стала нашим самым зарезервированным и безопасным участком.

Мы приносим извинения каждому, кто испытал сложности с доступом или понес финансовые/репутационные потери из-за аварии. И благодарны вам за взвешенную позицию и слова поддержки, которые вы писали, пока мы в поте лица занимались решением проблемы. Спасибо вам за доверие ❤

0
89 комментариев
Написать комментарий...
TL

Нигде не увидел " Мы лоханулись с тем-то и тем-то, были неправы там-то и там-то, извлекли такие-то уроки". Только никчёмный рассказ, как вы героически боролись с последствиями своих косяков. Кому это интересно? С таким подходом у вас снова что-то упадёт

Ответить
Развернуть ветку
Timeweb Cloud
Автор

Тут не об этом: о ситуации писали в нескольких темах на VC + наши клиенты делились подробностями и опасениями. Мы же были целиком сконцентрированы на диагностике и вынужденно молчали. Исправляемся.

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Timeweb Cloud
Автор

Согласны, так и есть. Однако решение оказалось верным: работая напрямую с клиентами в чатиках и соцсетях в период сбоя, мы смогли помочь большему количеству пользователей и дали понять, что не замалчиваем проблему.

А ответы в СМИ на тот момент оставили до лучших времён, как проведём действительно полную диагностику.

Ответить
Развернуть ветку
Александр Денисов

Ваша самая главная ошибка при публикации новостей  втом, что вы не успокоили пользователей сразу, что все их данные и резервные копии в безопасности. Многие вебмастера помнят или наслышаны о случае в Макхост, когда у них сервера горели, а еще в Мастерхост был "рейдерский захват". Делайте более развернутую новость даже в случае ЧП. Я лично держу у вас порядка 30 сайтов от 30 разных клиентов. Мне ведь тоже нужно им ситуацию объяснить как-то.

Вот вам идеальная схема для плохих новостей:
- У нас в чч:мм нами обнаружена проблема
- Проблема завключается в ..
- Проблема не повлияла на сохранность ваших данных, все сервера работаю штатно
- У нас есть план и мы его придерживаемся
- Занимается решением столько-то человек
- Восстановим работу примерно через .. часов
- Виновные будут найдены и выводы будут сделаны позже, после анализа инцидента

Ответить
Развернуть ветку
Валентин Баранов

В группе VK все было ровно так как вы описываете, в Твиттере тоже было.

Ответить
Развернуть ветку
Александр Денисов

Я был в фейсбуке. Там не было:
- Проблема не повлияла на сохранность ваших данных, все сервера работаю штатно
- У нас есть план и мы его придерживаемся
- Занимается решением столько-то человек
- Восстановим работу примерно через .. часов

Ответить
Развернуть ветку
Чайка О.

VK и Твиттер... Странно, что в списке нет Телеграма и Фейсбука.

Ответить
Развернуть ветку
Timeweb Cloud
Автор

Александр, вы описали ровно так, как мы общались и информировали клиентов в VK. Здорово, что разделяете нашу стратегию по информированию.

Ответить
Развернуть ветку
Александр Денисов

Ну, если вы информируете так в VK, то почему бы тогда в других соц.сетях не указывать ссылку на VK в качестве основного официального источника новости. Я вообще не знал, что у вас в ВК более подробно все расписано, я был в Фейсбуке

Ответить
Развернуть ветку
Timeweb Cloud
Автор

Не главная, лишь более активная и наполненная. Старались информировать везде и как можно скорее, успевали не всюду, приходилось выбирать. Для нас этот случай - стимул наладить лучшие коммуникации с технярями.

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Timeweb Cloud
Автор

Похоже, мы обладаем разным объемом информации, чтобы вести общение в одном ключе. Предлагаем исправить. Тут и тут можно посмотреть, как мы реагировали в период инцидента:
https://vk.com/wall-28839208_26860
https://vk.com/wall-28839208_30619

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
86 комментариев
Раскрывать всегда