{"id":14275,"url":"\/distributions\/14275\/click?bit=1&hash=bccbaeb320d3784aa2d1badbee38ca8d11406e8938daaca7e74be177682eb28b","title":"\u041d\u0430 \u0447\u0451\u043c \u0437\u0430\u0440\u0430\u0431\u0430\u0442\u044b\u0432\u0430\u044e\u0442 \u043f\u0440\u043e\u0444\u0435\u0441\u0441\u0438\u043e\u043d\u0430\u043b\u044c\u043d\u044b\u0435 \u043f\u0440\u043e\u0434\u0430\u0432\u0446\u044b \u0430\u0432\u0442\u043e?","buttonText":"\u0423\u0437\u043d\u0430\u0442\u044c","imageUuid":"f72066c6-8459-501b-aea6-770cd3ac60a6"}

Как научить инженеров ЦОД работать с инцидентами и быть готовыми ко всем внештатным ситуациям?

Лучший способ отработки внештатных ситуаций с инженерной инфраструктурой дата-центра — превентивный подход к проблеме. Готовых отраслевых методик здесь не существует, поэтому каждый провайдер создает свою систем. В статье делимся нашим опытом на примере ЦОДа в Петербурге.

Мотивация: кадровый приоритет

Обучение сотрудников может являться для компании как важным бизнес-процессом, так и данью моде на постоянное развитие и повышение эффективности персонала.

В дата-центрах же этот процесс – один из основных. Более того, сегодня это обязательное условие эффективной и качественной работы всей компании, основа реализации бизнес-модели ЦОДа как провайдера безотказной ИТ-инфраструктуры.

Почему?

Базовая парадигма подготовки технического персонала дата-центра к работе с внештатными и аварийными ситуациями формулируется в отраслевом стандарте Management & Operations экспертного института Uptime Institute.

Стандарт оценивает качество управления инженерных служб дата-центров и направлен на снижение количества отказов из-за человеческого фактора. А именно ошибки и неготовность персонала являются основной причиной инфраструктурных аварий в ИТ-отрасли.

Более 75% всех сбоев в работе сайтов, приложений и базовых ИТ-систем, развернутых на ресурсах дата-центров, происходят по причине прямых ошибок операторов площадки, неверных управленческих решений на уровне комплектования команды инженеров, при выстраивании процессов обслуживания и обучения ответственных специалистов.

Между тем, качественно поставленное обучение персонала, грамотные инструкции по действиям в различных ситуациях и добросовестное регламентное обслуживание оборудования сокращают количество отказов минимум в 3 раза.

Столпы антропоцентричного ЦОДа

В центре стандарта – человек. Качество работы дата-центра зависит как от достаточного количества квалифицированных сотрудников, так и от правильной организации их труда. Причем чем выше уровень дата-центра по классификации Tier, тем строже требования к организации работы, которую выполняет персонал.

Для подготовки кадров стандарт предлагает программу обучения, цель которой сформулирована следующим образом: «Весь персонал должен понимать политики, процедуры и уникальные требования к работе в ЦОД, чтобы избежать незапланированных простоев и реагировать на ожидаемые события».

Это и стало отправной точкой при создании системы аттестации сотрудников Linxdacenter. Опираясь на требования стандарта и собственный опыт эксплуатации ЦОД, мы разработали для сотрудников нашей инженерной службы обязательную программу проверки знания инструкций, сценариев реагирования на чрезвычайные и штатные ситуации, распределения ролей и зон ответственности между участниками дежурной смены.

Цели, формат и процедура

Без аттестации, конечно, можно работать – без нее мы обходились ранее, до сих пор ее не задействует множество отраслевых компаний.

Однако современный дата-центр представляет собой инженерный объект, состоящий из множества подсистем, управление которыми требует высочайшей квалификации, ответственности и внимания.

На своем опыте мы неоднократно убеждались, что методики контроля качества работы инженерных служб приносят хороший практический результат только тогда, когда они формализованы и применяются регулярно.

Аттестация помогает стимулировать рост эффективности и качества труда, точно определять как необходимость повышения квалификации, так и конкретные области знаний конкретных специалистов, требующих коррекции.

Наконец, такие «экзамены» помогают оптимально расставлять специалистов по иерархии позиций с учетом актуального уровня профессиональных знаний и навыков.

Аттестации носят плановый характер. За две недели персоналу сообщаются критерии аттестации, вопросы для экзамена, проходят разъяснительные консультации.

Аттестация проводится на внутреннем портале, разработанном для автоматизации процесса и отслеживаемости результатов в исторической перспективе в электронном виде.

Все вопросы в рамках подготовки разбираются со ссылками на нормативные документы и инструкции. Аттестацию проводит комиссия в составе не менее трех человек, процедура состоит из двух этапов.

На первом этапе проводится тестирование в рамках опросников и тестов. Общее количество вопросов – 60-70 в зависимости от специализации. Во время аттестации случайным образом выбираются 15.

Около 80% вопросов касаются непосредственно профессии аттестуемого, остальные 20% – смежных областей знаний и компетенций коллег по ЦОДу.

Пример опросника

Механики

Раздел «Maintenance» (Обслуживание)

1. Когда запланировано следующее ТО систем, за которые вы отвечаете?

2. Сколько сотрудников указано в списке на доступ от подрядчика, который будет проводить следующее ТО?

3. Какая текущая версия и дата утверждения документа с контактами и SLA поставщиков?

4. Что такое «предупредительное обслуживание»? Дайте ссылку на инструкцию по предупредительному обслуживанию и график его проведения.

5. Какие виды технического обслуживания проводятся в ЦОД? Чем они отличаются? Где можно увидеть списки такого обслуживания?

Раздел EOP (Emergency Operations Procedures – процедуры аварийной эксплуатации)

1. При какой температуре в помещениях ИБП нужно начинать выполнение EOP?

2. При каком давлении в системе ХС нужно начинать выполнение EOP?

3. Укажите действия при неисправности фанкойла «Water loss alarm».

Инженеры-электрики

Раздел «Общие инструкции, Приказы (Common Instructions, Orders)»

1. Укажите ваши действия при пожаре в ЦОД и при пожаре в ДГУ.

2. Укажите ваши действия при появлении неисправностей на пожарной панели ЦОД или ДГУ.

3. Укажите ваши действия при ложном срабатывании систем пожаротушения ЦОД или ДГУ.

4. Каким документом регламентируются работы в действующих электроустановках?

5. Что должен сделать контролирующий системы мониторинга при появлении аварийных и предупредительных сообщений (за исключением периода перехода между источниками энергии)?

6. Где располагается мастер-ключ для экстренного доступа в стойки клиентов?

7. В каких инструкциях указаны меры по работе во время пандемии и какие они?

ИТ-инженеры

Раздел «Оборудование»

1. Укажите ближайшую дату поверки средства измерения (и его тип) по вашим системам.

2. Приложите ссылку на папку с документацией к любому оборудованию, относящемуся к вашим системам.

3. Приложите ссылку на исполнительную документацию по любой из обслуживаемых вами систем.

4. Приложите ссылку на папку с альбомом последних версий схем по обслуживаемым вами системам.

Раздел «Работа в системе инцидент-менеджмента»

1. Как определить, какой приоритет нужно поставить обращению?

2. Если для решения проблемы нужна дополнительная информация от клиента, какой статус нужно выставить в тикете?

3. Ваши действия при поступлении высокоприоритетных обращений в нерабочее время.

4. Как правильно запросить дополнительную информацию от клиента?

5. В чем разница в статусах On Hold и Waiting? Учитываются ли эти статусы при расчете времени решения обращения?

Второй этап процедуры аттестации состоит из личного собеседования комиссии со специалистом. В работе аттестационной комиссии обязательное участие принимает непосредственный руководитель аттестуемого работника. Компетенции работника оцениваются, в первую очередь, по уровню его подготовки, в том числе навыкам, итогам работы за определенный период времени, а также соответствию требованиям к занимаемой должности. Решение принимается открытым голосованием большинством голосов.

Возможные вердикты комиссии

По результатам аттестации выносится заключение, возможны три основных варианта:

- занимаемой должности соответствует;

- соответствует, но не полностью (рекомендуется повторная аттестация);

- не соответствует занимаемой должности.

В первом случае сотрудника могут включить в резерв на повышение на вышестоящую должность.

Неполное соответствие (второй вариант) предполагает либо перевод (с согласия сотрудника) на другую работу, либо направление на дополнительное обучение и повторную аттестацию.

В третьем случае рассматривается вопрос либо о переводе на другую работу, требующую более низкой квалификации, либо о расторжении трудового договора по п. 3 ч. 1 ст. 81 ТК РФ.

Выводы

Непрерывность работы – критическая характеристика для ЦОДа, определяющая в том числе SLA для его клиентов. Непрерывность опирается на комплекс тесно связанных между собой составляющих: специалистов, политик, процессов и организационной структуры компании. Люди в этом перечне – на первом месте, и именно их профессионализм и уровень подготовки являются ключевыми факторами для качества работы ЦОДа.

Формализация работы персонала и проверка уровня актуальных знаний и навыков помогают отслеживать динамику и обеспечивать объективность оценок. Внедренная система аттестации позволила нам реализовать комплексный подход к обучению и проверке уровня знаний персонала ЦОДа.

Больше полезного контента об ИТ-рынке, облачной индустрии и дата-центрах в нашем телеграм-канале "Сейф для данных". Подписывайтесь!

Читайте также:

0
18 комментариев
Написать комментарий...
Светлана Романович

Как сотрудники относятся к такому подходу? Готовы к постоянному обучению?

Ответить
Развернуть ветку
Ася

Вот тоже возник этот вопрос, как быть с мотивацией? Кадры в ИТ на вес золота, а постоянные экзамены - не слабый такой стресс.

Ответить
Развернуть ветку
Linxdatacenter
Автор

Сотрудники относятся к такому подходу с пониманием и постоянно повышают свой профессиональный уровень.

Ответить
Развернуть ветку
Kseniya

Можно прикинуть перспективы автоматизации мониторинга работы ЦОДа в этом свете? Они сокращают потенциальное влияние человеческого фактора или просто переводят его возможное влияние на работу площадки на новый уровень, т.е. все равно итоговое решение принимает человек, и завалить работу он может точно также, как и раньше?

Ответить
Развернуть ветку
Linxdatacenter
Автор

Если вы имеете в виду, требование TIER4 о “способности инфраструктуры самостоятельно реагировать на аварии” то да, наличие автоматизации систем ЦОД переводит площадку на новый уровень, уменьшая влияние человеческого фактора, но не исключает его, поэтому роль аттестации и тренировок по прежнему велика.

Ответить
Развернуть ветку
Денис Бойцов

А вы даже в таком формальном вопросе, как аттестация, с сотрудниками на "ты" общаетесь?

Ответить
Развернуть ветку
Linxdatacenter
Автор

Да.

Ответить
Развернуть ветку
Владимир Шабалин

В теории - насколько реально предусмотреть и задокументировать вообще все реальные сценарии форс-мажора? Как такие программы влияют на структуру и численность штата персонала в дата-центре - например, мы все оптимизировали, обтренировали, и людей стало нужно в 1,5 раза меньше и т.д.?

Ответить
Развернуть ветку
Linxdatacenter
Автор

Предусмотреть все аварийные ситуации на самом деле сложно, качество проработки зависит от опыта команды эксплуатации и реализации процесса непрерывного улучшения документации по итогам полученного опыта. На структуру и численность персонала это никак не влияет.

Ответить
Развернуть ветку
Oleg Gorbatov

Исходя из возможных вердиктов комиссии - часть сотрудников отчисляется. каковы примерные результаты обычной проверки? Какой
процент соответствует занимаемой должности, какой - нет? И какой тренд в режиме несколько проверок?)

Ответить
Развернуть ветку
Linxdatacenter
Автор

100% сотрудников проходят проверку.

Ответить
Развернуть ветку
Ольга Мельниченко

Здравствуйте! Статья интересная, спасибо. А не занимаетесь ли вы распространением знаний и скиллов в этой области? Семинары-вебинары, тренинги для коллег и проч.?

Ответить
Развернуть ветку
Linxdatacenter
Автор

Спасибо за вопрос. Да, наши сотрудники принимают участие в тренингах в качестве преподавателей, проводящихся на базе АНО КС ЦОД https://ano-dcc.ru/study/

Ответить
Развернуть ветку
Маргарита Крысина

Неплохой подход у вас вышел. Но есть вопрос: насколько по отрасли распространено, как в коммерческих, так и корпоративных ЦОДах? Если задуматься, ведь действительно в критический момент люди сваливаются на уровень подготовки, а не взлетают до уровня своих ожиданий, поэтому учения важны) Но насколько это проникло в культуру в целом, вот в чем вопрос...

Ответить
Развернуть ветку
Linxdatacenter
Автор

Должно быть в ЦОДах, прошедших сертификацию/аттестацию Uptime по стандарту Operational Sustainability. Также, примерно похожий процесс должен быть организован по требованиям ПТЭЭП 1.4.5 (Глава 1.4 Требования к персоналу и его подготовка)

Ответить
Развернуть ветку
Айгуль Ширяева

Корреляция с требованиями Uptime в этой программе вашей есть, или вы просто сами идете по своему пути полностью? В смысле - делитесь ли best practices с международным сообществом или там уже и так все это знают, умеют и применяют?

Ответить
Развернуть ветку
Linxdatacenter
Автор

У требований Uptime есть один критерий - наличие процесса. Как этот процесс должен выглядеть и каким образом реализуется - это на усмотрение каждой организации. Но, например, некоторые наши примеры наработок в этой области используются в курсах Uptime по этой теме.

Ответить
Развернуть ветку
Oleg Karpov

Междусобойчик какой-то в коментах.

Ответить
Развернуть ветку
15 комментариев
Раскрывать всегда