{"id":14276,"url":"\/distributions\/14276\/click?bit=1&hash=721b78297d313f451e61a17537482715c74771bae8c8ce438ed30c5ac3bb4196","title":"\u0418\u043d\u0432\u0435\u0441\u0442\u0438\u0440\u043e\u0432\u0430\u0442\u044c \u0432 \u043b\u044e\u0431\u043e\u0439 \u0442\u043e\u0432\u0430\u0440 \u0438\u043b\u0438 \u0443\u0441\u043b\u0443\u0433\u0443 \u0431\u0435\u0437 \u0431\u0438\u0440\u0436\u0438","buttonText":"","imageUuid":""}

Разбор полётов: что на самом деле произошло в ДЦ Курчатовский

Привет! На связи команда хостинга REG.RU и мы хотели бы детально разобрать случившуюся аварию в ДЦ Курчатовский (KIAEHOUSE). Расскажем, что стало причиной, кого затронуло и как обстоят дела сейчас.

Начать стоит с того, что REG.RU имеет распределённую инфраструктуру. Мы предоставляем различные услуги в четырёх независимых дата-центрах. Так, например, в нашем собственном ЦОД в «Технополис Москва» находятся клиенты с услугами по аренде и размещением оборудования, а также корпоративного облака на VMware, их вчерашний инцидент никак не затронул.

В ДЦ Курчатовский (KIAEHOUSE) в Москве мы арендуем машинный зал, где размещаются серверы для услуг виртуального хостинга и VPS. Именно их в разной степени и коснулась авария. Обо всём в хронологическом порядке.

Гроза и отключение питания

28 июня в Москве прошёл сильный ливень с грозой. Тем, кто находится в Москве, не требуется описание происходящего. Для тех, кто еще не в курсе, подборка роликов от РБК:

Как же катаклизм затронул нас? По информации об инциденте от KIAEHOUSE, в 13:27 во время грозы отключились две независимые энергетические магистрали из-за отключения высоковольтных кабелей из ТЭЦ16 и попадания молнии в трансформаторную подстанцию на территории Курчатовского института.

Дата-центр переключился на автономный источник питания. В течение 50 минут пока он работал, команда ДЦ пыталась ввести в строй резервную линию питания, но её выбивала автоматика. В итоге резерв был запущен, когда автономный источник уже истощился: для всего оборудования, за исключением опорной сети, отключилось питание.

Мы получили уведомление об аварии от ДЦ в 13:45 мск. Важно отметить, что потеря питания на основном и на резервном входе — очень редкий случай, и за почти 10 лет работы с ДЦ Курчатовским — это первая подобная авария. Уровень доступности инфраструктуры ЦОД последние 5 лет составлял шесть «девяток» — 99,9999%. Но автономное питание дата-центра не рассчитано на поддержание инфраструктуры всего дата-центра продолжительное время, и к 14:00 мск серверные стойки начали отключаться от питания. Постоянная работа поддерживалась только для ядра сети дата-центра.

В 13:52 мск восстановили один луч питания. Начался поэтапный ввод системы охлаждения и подача питания на стойки – весь процесс занял около часа. Но часть серверов по-прежнему оставались недоступными:

  • вышел из строя один сетевой коммутатор дата-центра и пять сетевых коммутаторов на наших стойках;
  • повредились RAID-массивы на инфраструктурных серверах дата-центра;
  • несколько наших серверов вышло из строя.

Все коммуникации с KIAEHOUSE ведутся через систему тикетов, которая стала неисправна в результате аварии. В критической ситуации нам пришлось искать варианты, чтобы ускорить восстановление, и стали общаться с инженерами ЦОД в личных мессенджерах, чтобы скорее заменить неисправное оборудование.

Свой почтовый сервис ЦОД восстановил в 17:37, мы продолжили подавать заявки на замену неисправного оборудования через официальный канал. Сервер телефонии дата-центра восстановили в 18:36, а панель управления в 19:53.

Утилизация каналов связи REG.RU в ЦОД KIAEHOUSE

595 решённых тикетов за час и другие детали восстановления

Чтобы максимально оперативно провести восстановительные работы (то, что было возможно сделать с нашей стороны) и оперативно ответить на все заявки, мы вывели на смену дополнительных специалистов — администраторов и специалистов техподдержки хостинга, конструктора, единой службы поддержки.

  • В 16:20 восстановлена работа нашей тикет-системы. В 13:30 до аварии в очереди 17 неотвеченных тикетов.
  • В 16:24 в техподдержке хостинга было 202 неотвеченных тикета, в 17:05 мы достигли пика в 706 неотвеченных запросов. В среднем по данным за май и июнь мы давали ответ в течение часа на 97% запросов. В этот день срок ответа ожидаемо увеличился.
  • К 16:45 нам удалось запустить около 90% серверов виртуального хостинга, 91% серверов классических VPS и 96% серверов Облачных VPS.
  • В 17:37 ЦОД восстановил почтовый сервис, мы смогли подавать заявки на замену неисправного оборудования в тикет-системе ЦОД. До этого делали это через личные мессенджеры.
  • К 17:47 было запущено 95% серверов.
  • С 17 до 18 часов техподдержка решила 595 тикетов. На 18:00 в очереди остался 451 тикет.
  • С 18 до 19 поддержка решила 354 тикета. На 19:00 в очереди 268 тикетов.
  • В 20:03 электричество было подано на все серверы и все неисправные сетевые коммутаторы были заменены.
  • С 19:00 до 20:00 поддержка решила 174 тикета. В очереди — 186 тикетов.
  • С 20:00 до 21:00 поддержка решила 94 тикета. В очереди — 189 тикетов.
  • С 21:00 до 22:00 поддержка решила 78 тикетов. В 22:00 в очереди осталось 202 тикета.
  • К 22 часам осталось 6 серверов, которые имели те или иные проблемы: сгоревший блок питания или материнская плата. Из-за высокой нагрузки на сотрудников дата-центра время выполнения операций сильно затянулось. В результате стандартная задача переноса дисков в подменный сервер, занимающая обычно 10 минут, потребовала 1,5 часа на выполнение.
  • К 23:19 проблемы оставались с 4 серверами.
  • С 22:00 до 01:00 поддержка решила 113 тикетов. В 01:00 в очереди осталось 120 тикетов.
  • К 1:07 все серверы были запущены. Оставалось решить точечные проблемы/ Например, самая частая проблема, которая может возникнуть при обрыве питания сервера, – это поломка баз данных MySQL с таблицами типа InnoDB.
  • В 3:00 в очереди осталось 7 неотвеченных тикетов.
Количество тикетов без ответов в очереди

Авария, которая произошла — экстраординарное событие для ДЦ в Курчатовском институте. Сегодня, 29 июня, специалисты аварийно-диспетчерского центра и городских энергетических служб занимались выяснением корневых причин аварии и устранения всех последствий.

Мы понимаем, что авария доставила нашим клиентам сложности. Для нас это также стало неожиданностью: повторимся, что за почти 10 лет работы — это первая подобная авария в ДЦ Курчатовский и форс-мажорная ситуация. Учитывая совокупность фактов, мы планируем продолжить сотрудничать с коллегами из KIAEHOUSE и ожидаем от них информацию о работе с подобными рисками, после того, как они полностью расследуют инцидент. Мы будем следить за реализацией всех мер, предотвращающих повторение подобного в будущем.

Мы сделали промокод XLF7NBNU для всех наших клиентов на продление хостинга или VPS на 1 месяц со скидкой 25% до 15 июля 2021 года — с ним можно продлить до 5 услуг хостинга или VPS на одном аккаунте. Этот же промокод даёт скидку 25% при продлении Конструктора сайтов на 1 год. Для Облачных VPS мы уже начислили всем клиентам с активными серверами сумму на 3 дня использования всех серверов на аккаунте.

Если у вас всё ещё остались проблемы с доступностью сайта, напишите заявку в службу поддержки — мы на связи 24 часа и обязательно поможем.

Команда хостинга REG.RU

0
4 комментария
Кирилл

По мне - достойный отчёт об инциденте, который вызывает доверие. Нужно поучиться Пескову.

Ответить
Развернуть ветку
Nikolay Kenig

А если отключить освещение, кондиционеры и все что не касается серверов. На сколько это продлило бы работу от дизеля? Он же у вас есть?

Ответить
Развернуть ветку
REG.RU
Автор

На территории Курчатовского института нельзя хранить дизельное топливо, поэтому ДГУ в этом ЦОД отсутствуют, вместо ДГУ используются аккумуляторные кластеры. 

Ответить
Развернуть ветку
Uuno Turhapuro

Нет там никакого дизеля. Если в 13.27 авария, а в 14 все начало отключаться, то все висело на ИБП, т.е. аккумуляторах.

Ответить
Развернуть ветку
1 комментарий
Раскрывать всегда