Как научить инженеров ЦОД работать с инцидентами и быть готовыми ко всем внештатным ситуациям?

Лучший способ отработки внештатных ситуаций с инженерной инфраструктурой дата-центра — превентивный подход к проблеме. Готовых отраслевых методик здесь не существует, поэтому каждый провайдер создает свою систем. В статье делимся нашим опытом на примере ЦОДа в Петербурге.

Как научить инженеров ЦОД работать с инцидентами и быть готовыми ко всем внештатным ситуациям?

Мотивация: кадровый приоритет

Обучение сотрудников может являться для компании как важным бизнес-процессом, так и данью моде на постоянное развитие и повышение эффективности персонала.

В дата-центрах же этот процесс – один из основных. Более того, сегодня это обязательное условие эффективной и качественной работы всей компании, основа реализации бизнес-модели ЦОДа как провайдера безотказной ИТ-инфраструктуры.

Почему?

Базовая парадигма подготовки технического персонала дата-центра к работе с внештатными и аварийными ситуациями формулируется в отраслевом стандарте Management & Operations экспертного института Uptime Institute.

Стандарт оценивает качество управления инженерных служб дата-центров и направлен на снижение количества отказов из-за человеческого фактора. А именно ошибки и неготовность персонала являются основной причиной инфраструктурных аварий в ИТ-отрасли.

Более 75% всех сбоев в работе сайтов, приложений и базовых ИТ-систем, развернутых на ресурсах дата-центров, происходят по причине прямых ошибок операторов площадки, неверных управленческих решений на уровне комплектования команды инженеров, при выстраивании процессов обслуживания и обучения ответственных специалистов.

Между тем, качественно поставленное обучение персонала, грамотные инструкции по действиям в различных ситуациях и добросовестное регламентное обслуживание оборудования сокращают количество отказов минимум в 3 раза.

Столпы антропоцентричного ЦОДа

В центре стандарта – человек. Качество работы дата-центра зависит как от достаточного количества квалифицированных сотрудников, так и от правильной организации их труда. Причем чем выше уровень дата-центра по классификации Tier, тем строже требования к организации работы, которую выполняет персонал.

Для подготовки кадров стандарт предлагает программу обучения, цель которой сформулирована следующим образом: «Весь персонал должен понимать политики, процедуры и уникальные требования к работе в ЦОД, чтобы избежать незапланированных простоев и реагировать на ожидаемые события».

Это и стало отправной точкой при создании системы аттестации сотрудников Linxdacenter. Опираясь на требования стандарта и собственный опыт эксплуатации ЦОД, мы разработали для сотрудников нашей инженерной службы обязательную программу проверки знания инструкций, сценариев реагирования на чрезвычайные и штатные ситуации, распределения ролей и зон ответственности между участниками дежурной смены.

Цели, формат и процедура

Без аттестации, конечно, можно работать – без нее мы обходились ранее, до сих пор ее не задействует множество отраслевых компаний.

Однако современный дата-центр представляет собой инженерный объект, состоящий из множества подсистем, управление которыми требует высочайшей квалификации, ответственности и внимания.

На своем опыте мы неоднократно убеждались, что методики контроля качества работы инженерных служб приносят хороший практический результат только тогда, когда они формализованы и применяются регулярно.

Аттестация помогает стимулировать рост эффективности и качества труда, точно определять как необходимость повышения квалификации, так и конкретные области знаний конкретных специалистов, требующих коррекции.

Наконец, такие «экзамены» помогают оптимально расставлять специалистов по иерархии позиций с учетом актуального уровня профессиональных знаний и навыков.

Аттестации носят плановый характер. За две недели персоналу сообщаются критерии аттестации, вопросы для экзамена, проходят разъяснительные консультации.

Аттестация проводится на внутреннем портале, разработанном для автоматизации процесса и отслеживаемости результатов в исторической перспективе в электронном виде.

Как научить инженеров ЦОД работать с инцидентами и быть готовыми ко всем внештатным ситуациям?

Все вопросы в рамках подготовки разбираются со ссылками на нормативные документы и инструкции. Аттестацию проводит комиссия в составе не менее трех человек, процедура состоит из двух этапов.

На первом этапе проводится тестирование в рамках опросников и тестов. Общее количество вопросов – 60-70 в зависимости от специализации. Во время аттестации случайным образом выбираются 15.

Около 80% вопросов касаются непосредственно профессии аттестуемого, остальные 20% – смежных областей знаний и компетенций коллег по ЦОДу.

Пример опросника

Механики

Раздел «Maintenance» (Обслуживание)

1. Когда запланировано следующее ТО систем, за которые вы отвечаете?

2. Сколько сотрудников указано в списке на доступ от подрядчика, который будет проводить следующее ТО?

3. Какая текущая версия и дата утверждения документа с контактами и SLA поставщиков?

4. Что такое «предупредительное обслуживание»? Дайте ссылку на инструкцию по предупредительному обслуживанию и график его проведения.

5. Какие виды технического обслуживания проводятся в ЦОД? Чем они отличаются? Где можно увидеть списки такого обслуживания?

Раздел EOP (Emergency Operations Procedures – процедуры аварийной эксплуатации)

1. При какой температуре в помещениях ИБП нужно начинать выполнение EOP?

2. При каком давлении в системе ХС нужно начинать выполнение EOP?

3. Укажите действия при неисправности фанкойла «Water loss alarm».

Инженеры-электрики

Раздел «Общие инструкции, Приказы (Common Instructions, Orders)»

1. Укажите ваши действия при пожаре в ЦОД и при пожаре в ДГУ.

2. Укажите ваши действия при появлении неисправностей на пожарной панели ЦОД или ДГУ.

3. Укажите ваши действия при ложном срабатывании систем пожаротушения ЦОД или ДГУ.

4. Каким документом регламентируются работы в действующих электроустановках?

5. Что должен сделать контролирующий системы мониторинга при появлении аварийных и предупредительных сообщений (за исключением периода перехода между источниками энергии)?

6. Где располагается мастер-ключ для экстренного доступа в стойки клиентов?

7. В каких инструкциях указаны меры по работе во время пандемии и какие они?

ИТ-инженеры

Раздел «Оборудование»

1. Укажите ближайшую дату поверки средства измерения (и его тип) по вашим системам.

2. Приложите ссылку на папку с документацией к любому оборудованию, относящемуся к вашим системам.

3. Приложите ссылку на исполнительную документацию по любой из обслуживаемых вами систем.

4. Приложите ссылку на папку с альбомом последних версий схем по обслуживаемым вами системам.

Раздел «Работа в системе инцидент-менеджмента»

1. Как определить, какой приоритет нужно поставить обращению?

2. Если для решения проблемы нужна дополнительная информация от клиента, какой статус нужно выставить в тикете?

3. Ваши действия при поступлении высокоприоритетных обращений в нерабочее время.

4. Как правильно запросить дополнительную информацию от клиента?

5. В чем разница в статусах On Hold и Waiting? Учитываются ли эти статусы при расчете времени решения обращения?

Второй этап процедуры аттестации состоит из личного собеседования комиссии со специалистом. В работе аттестационной комиссии обязательное участие принимает непосредственный руководитель аттестуемого работника. Компетенции работника оцениваются, в первую очередь, по уровню его подготовки, в том числе навыкам, итогам работы за определенный период времени, а также соответствию требованиям к занимаемой должности. Решение принимается открытым голосованием большинством голосов.

Возможные вердикты комиссии

По результатам аттестации выносится заключение, возможны три основных варианта:

- занимаемой должности соответствует;

- соответствует, но не полностью (рекомендуется повторная аттестация);

- не соответствует занимаемой должности.

В первом случае сотрудника могут включить в резерв на повышение на вышестоящую должность.

Неполное соответствие (второй вариант) предполагает либо перевод (с согласия сотрудника) на другую работу, либо направление на дополнительное обучение и повторную аттестацию.

В третьем случае рассматривается вопрос либо о переводе на другую работу, требующую более низкой квалификации, либо о расторжении трудового договора по п. 3 ч. 1 ст. 81 ТК РФ.

Выводы

Непрерывность работы – критическая характеристика для ЦОДа, определяющая в том числе SLA для его клиентов. Непрерывность опирается на комплекс тесно связанных между собой составляющих: специалистов, политик, процессов и организационной структуры компании. Люди в этом перечне – на первом месте, и именно их профессионализм и уровень подготовки являются ключевыми факторами для качества работы ЦОДа.

Формализация работы персонала и проверка уровня актуальных знаний и навыков помогают отслеживать динамику и обеспечивать объективность оценок. Внедренная система аттестации позволила нам реализовать комплексный подход к обучению и проверке уровня знаний персонала ЦОДа.

Больше полезного контента об ИТ-рынке, облачной индустрии и дата-центрах в нашем телеграм-канале "Сейф для данных". Подписывайтесь!

Читайте также:

88
17 комментариев

Как сотрудники относятся к такому подходу? Готовы к постоянному обучению?

1

Сотрудники относятся к такому подходу с пониманием и постоянно повышают свой профессиональный уровень.

Можно прикинуть перспективы автоматизации мониторинга работы ЦОДа в этом свете? Они сокращают потенциальное влияние человеческого фактора или просто переводят его возможное влияние на работу площадки на новый уровень, т.е. все равно итоговое решение принимает человек, и завалить работу он может точно также, как и раньше?

1

Если вы имеете в виду, требование TIER4 о “способности инфраструктуры самостоятельно реагировать на аварии” то да, наличие автоматизации систем ЦОД переводит площадку на новый уровень, уменьшая влияние человеческого фактора, но не исключает его, поэтому роль аттестации и тренировок по прежнему велика.

А вы даже в таком формальном вопросе, как аттестация, с сотрудниками на "ты" общаетесь?

1