Как работает дежурная служба дата-центра (ЦОД)
Дежурная служба подразделения эксплуатации центра обработки данных, как и служба клиентского сервиса, является одним из главных индикаторов, по которому судят о реальном качестве услуг ЦОД. И это не просто так: от подготовки инженеров ЦОД, оперативности и качества их взаимодействия с системами жизнеобеспечения клиентского оборудования напрямую зависит соблюдение договора об уровне оказания услуг (SLA). Это является главным репутационным фактором для практически любого уважающего себя оператора центра обработки данных.
Информационная справка
В дата-центрах IXcellerate дежурная служба клиентского сервиса и дежурная служба эксплуатации ЦОД являются разными подразделениями, но работают в тандеме на одну конечную цель – повышение уровня удовлетворенности клиентов. Клиентский сервис отвечает непосредственно за взаимодействие с клиентами и обработку всех входящих запросов, а дежурные инженеры эксплуатации ЦОД контролируют все инженерные системы, к которым подключено клиентское оборудование, и оповещают клиентский сервис о любых изменениях.
Мы поговорили с руководителем дежурной службы ЦОД IXcellerate, Максимом Малютиным, который нам подробно рассказал, из чего складываются будни его коллег, на какие этапы делятся смены, какие процедуры применяются в случае возникновения нештатных ситуаций.
Дежурная служба отвечает за эксплуатацию инженерного оборудования ЦОД. Мы первыми реагируем на любые внештатные ситуации и осуществляем полный контроль над инженерными системами, а также действиями коллег из сервисной команды и подрядных организаций. Если изменяется режим работы инженерного оборудования ЦОД или происходит поломка, то мы узнаём об этом в первую очередь, и все начальные шаги/действия в этом процессе, как правило, именно наши. Это суперответственная работа.
В ранние годы IXcellerate, когда ЦОД был только один и оборудования было не так много, эти две службы были объединены. Со временем наша площадка значительно расширилась, увеличилось количество дата-центров, стоек, кондиционеров, трансформаторных подстанций, распределительных сетей и т. д. Тогда руководство компании приняло решение о разделении службы на две разных. Одна занимается вопросами клиентского сервиса, то есть непосредственно взаимодействует с нашими уважаемыми клиентами и оказывает их сотрудникам поддержку по вопросам ввоза/вывоза оборудования, сопровождения неавторизованных инженеров, выполняет услуги «Remote Hands», помогает с вопросами подключения кроссировок к операторам и т.д. А вторая – это дежурная служба эксплуатации, которая контролирует и отвечает за исправное состояние и корректную работу всего инженерного оборудования ЦОД.
Мы обрабатываем все ситуации, связанные с оборудованием заказчиков, среди которых: подключение серверных стоек, контроль за температурой и влажностью, мониторинг электро- и холодоснабжения, и других параметров. При необходимости информирования клиентов мы взаимодействуем со службой клиентского сервиса.
Пример из клиентской практики
Давайте лучше на примере. Допустим, рядом с клиентской стойкой зафиксировано повышение температуры. Дежурные инженеры видят это через систему мониторинга и направляют туда сотрудника на осмотр оборудования для установления причин. При осмотре выясняется, что в это время с оборудованием данной стойки работал сотрудник клиента, который демонтировал часть оборудования и не установил заглушки со стороны холодного коридора, что спровоцировало рост температуры возле указанной стойки. Чтобы возобновить температурный режим необходимы совместные усилия двух наших команд: дежурные инженеры эксплуатации сообщают дежурным клиентского сервиса о месте и причине повышения температуры и незамедлительно начинают предпринимать действия по ее снижению, в то время как дежурный инженер клиентского сервиса взаимодействует с клиентом и фиксирует ситуацию через клиентский портал. Это позволяет действовать быстрее, т.к. процессы уже идут параллельно: один сотрудник коммуницирует с клиентом, а второй уже реагирует на изменения в работе оборудования.
Режим работы
Поскольку наши дата-центры работают круглогодично и круглосуточно (24/7/365), дежурные инженеры всегда следят за оборудованием и работают посменно – сутки/через трое. Весь график работ утверждается на месяц вперёд.
Расскажите о распорядке смены более подробно, из каких рутинных действий или проверок состоит день, на какие этапы он делится?
В течение дня основная работа — это мониторинг всех инженерных систем.
Мы отслеживаем все параметры ЦОД, их там в совокупности несколько сотен, а всего точек снятия показаний десятки тысяч.
Сотрудники приходят на работу заблаговременно до начала своей смены. Происходит пересменка: это целый алгоритм действий, из которых главное – передать информацию о всех возникших ситуациях за предыдущую смену. Начальник дежурной смены должен четко понимать, в каком состоянии находится объект. Какие холодильные машины или кондиционеры были отключены, с чем это было связано, проводилось ли техническое обслуживание и, если да, то на какое оборудование была переведена нагрузка, ну и так далее.
Планирование работ и ежедневные обходы
У службы эксплуатации есть утвержденный годовой план по предупредительным ремонтам и техническому обслуживанию, в соответствие с которым инженеры сервисной команды выполняют обслуживание инженерного оборудования. Коллеги передают в дежурную службу наряд на работы, допустим, на плановое отключение прецизионного кондиционера. Они эти работы проводят, а дежурные инженеры осуществляют мониторинг. Наша задача в это время – следить за состоянием клиентской инфраструктуры, которая может оказаться при этом затронутой.
Также у нас существуют рутинные обходы. Они делятся на два типа: обход внутренних помещений (в т.ч. машинных залов) и обход уличных инженерных систем (дизель-генераторы и холодильное оборудование).
Вот типовой лист обхода ЦОД МOS1, он проводится четыре раза в сутки. В листе обхода прописана программа обхода и блок-схема. Как правило, обход начинается с помещения дежурной службы, продолжается в зоне разгрузки, далее — к системе пожаротушения, затем в клиентскую зону, потом в машинный зал и т.д.
Мы готовы к абсолютно любым сценариям. Любое оповещение о просадках или отключениях не является штатным по определению, но у нас все алгоритмы отработаны.
Недавно мы проводили отключение стойки с одним из наших клиентов в ЦОД MOS2, они привозили своих специалистов для участия в этой тренировке. Мы совместно отрабатывали взаимодействие на случай возникновения таких ситуаций в будущем.
Самое ответственное время
Когда инженеры сервисной команды проводят техническое обслуживание оборудования. Это, как правило, происходит днем. Множество включений, переключений мощностей, смены нагрузок. Сотрудники клиентов работают со стойками, периодически проводят работы в холодных коридорах, могут перекрыть доступ воздуха из-под фальшпола, мы должны прийти и проинформировать, что так делать не стоит. Много всего! Это самое ответственное время.
В конце смены мы передаём график, план обхода, а также оперативный журнал с зафиксированными событиями за день. Каждая смена должна быть в курсе всех таких событий, как минимум, за последние две недели. Люди уходят в отпуск, могут заболеть, а так как наши объекты должны работать исправно всегда, дежурный инженер, приходя на смену, должен четко понимать, что происходило до него.
Подробнее читайте на сайте www.ixcellerate.ru