Вьетнамские флэшбэки: как COVID привел к потопу в серверной и параличу бизнеса
Из-за ЧП может полностью выйти из строя вся IT-инфраструктура и остановиться работа бизнеса. Реальный кейс о катастрофе времен пандемии и ее устранении силами экспертов ALP ITSM.
Друзья, всем привет! На связи снова Дмитрий Бессольцев, генеральный директор компании ALP ITSM. В своих статьях я постоянно говорю о значимости резервного копирования. А недавно вспомнил показательный случай, произошедший с одним из наших клиентов несколько лет назад.
Возможно, эти «вьетнамские флэшбэки» уберегут кого-то от простоев бизнеса и ненужных трат.
Невероятный триггер катастрофы
В мире IT-аутсорсинга часто говорят о регламентах, SLA и плановой поддержке. Но настоящая проверка профессионализма команды происходит тогда, когда бизнес клиента сталкивается с форс-мажором, требующим не просто быстрой, а молниеносной реакции.
История, о которой пойдет речь – яркий пример такого непредвиденного кризиса. Она кажется почти невероятной: меры по борьбе с глобальной пандемией коронавируса, казалось бы, далекие от серверных стоек, стали причиной масштабного IT-коллапса.
Героем этой истории стал наш давний клиент – успешная производственная компания (назовем ее компания N). Мы, ALP ITSM, сопровождали ее IT-инфраструктуру уже 4 года, помогая бизнесу стабильно развиваться. За это время компания несколько раз расширялась и переезжала в новые офисы. Каждый переезд – это сложная операция, и мы всегда обеспечивали аккуратную упаковку, перевозку и развертывание всего оборудования на новом месте, стремясь минимизировать простой и обычно укладываясь в выходные.
Последний переезд в новый офис с выделенной серверной комнатой также прошел успешно. Подрядчик, строивший серверную, консультировался с нами, и почти все рекомендации были учтены. Увы, одно критическое замечание было проигнорировано – и это предопределило грядущие события.
Причина аварии: цепочка неожиданных событий
Летом 2021 года, спустя несколько месяцев после переезда, в компании N был зафиксирован случай заболевания COVID-19 у одного из сотрудников. Стремясь обезопасить коллектив, руководство приняло решение о срочной дезинфекции офиса. Одной из процедур в таких случаях была обработка помещений горячим паром – эффективным методом уничтожения вируса на поверхностях.
Вечером после ухода сотрудников в офис прибыла дезинфекционная бригада. Чтобы избежать ложных срабатываний, датчики пожарной сигнализации во всем офисе были отключены – за одним исключением. Серверная комната, считавшаяся изолированной, осталась под защитой своей собственной системы. Помещения заполнили паром и оставили в таком состоянии на ночь.
На следующий день сотрудники столкнулись с цифровой тишиной: не работали телефоны, интернет, 1С и все корпоративные сервисы. Первым делом штатные IT-специалисты компании направились в серверную. Картина, открывшаяся их глазам, была катастрофической: вся комната и оборудование были залиты водой.
Расследование показало цепочку роковых событий:
- Триггер: cлучай заболевания COVID-19 у сотрудника.
- Реакция: вызов дезинфекции горячим паром.
- Нештатная ситуация: пар, вопреки ожиданиям, проник в «изолированную» серверную комнату через вентиляционные каналы.
- Срабатывание системы: пожарные датчики в серверной (единственные активные в офисе) ошибочно идентифицировали густой пар как дым.
- Катастрофа: сработала система автоматического пожаротушения. И здесь случилось главное: вопреки нашим рекомендациям использовать безопасное для электроники газовое тушение, подрядчик установил жидкостную систему. Результат – серверная была затоплена, как если бы в ней бушевал настоящий пожар.
Последствия инцидента: полный паралич бизнеса
Масштаб бедствия был огромным. Вода вызвала короткие замыкания и массовое повреждение оборудования. Серверы, коммутаторы, маршрутизаторы – практически вся IT-инфраструктура в серверной вышла из строя. Значительная часть техники была неремонтопригодна – восстановление оборудования обошлось бы дороже покупки нового.
Ключевым фактором, усугубившим ситуацию, стала локальная (on-premise) модель размещения инфраструктуры. Все критически важные для бизнеса данные и сервисы (1С, телефония, файловые хранилища, сетевая инфраструктура) были не распределены в облаке, а находились физически в этой одной серверной комнате. Когда серверная погибла – погибло все.
Эффект был мгновенным и тотальным. Компания оказалась полностью парализована. Сотрудники не могли:
- выйти в интернет;
- работать в 1С (учет, логистика, производство – все остановилось);
- пользоваться корпоративной телефонией;
- получить доступ к любым сетевым ресурсам или файлам;
- фактически выполнять свои рабочие обязанности.
Бизнес простаивал, неся прямые и косвенные убытки каждую минуту. Требовались не просто ремонтные работы, а полное восстановление IT-жизнедеятельности компании в экстремально сжатые сроки. На кону была не только техника, но и репутация, и финансовое благополучие клиента.
Спасательная операция: молниеносная реакция и командная работа ALP ITSM
Увидев масштаб катастрофы, мы понимали: каждая минута простоя бизнеса – это прямые убытки клиента. К счастью, инцидент произошел в пятницу. Выходные стали нашим стратегическим преимуществом – окном для маневра, когда бизнес-процессы клиента и так приостановлены.
Группа экстренного реагирования ALP ITSM прибыла на место через считанные минуты после звонка. Перед нами стояла задача-максимум — восстановить работоспособность критически важных систем до понедельника. Мы сразу разделили силы по двум фронтам, действуя как слаженный механизм:
- Спасаем уцелевшее – инженеры приступили к тщательной диагностике затопленного оборудования. Все, что можно было спасти – аккуратно просушивалось, поврежденные блоки (БП, модули RAM, диски) оперативно заменялись из нашего аварийного запаса. Небольшая часть сетевого оборудования и серверов была возвращена к жизни буквально «на коленке».
- Запускаем временные решения – неидеально, но быстро:
- Уцелевшие серверы были срочно переконфигурированы. На них «уплотнили» критические сервисы – 1С, файловые хранилища, внутренние базы. Системы работали медленно, под нагрузкой, но это было лучше, чем ничего.
- Ключевым спасением стали внешние резервные копии! Благодаря тому, что ALP ITSM хранила актуальные бэкапы клиента в своем защищенном облаке (практика, которую мы настоятельно рекомендуем всем), мы смогли мгновенно развернуть часть сервисов (корпоративная почта, специализированное ПО) на наших облачных мощностях. Доступ к ним был настроен через VPN для сотрудников клиента.
- Были оперативно перенастроены сетевые маршруты, чтобы направить трафик на временные решения.
Параллельно в режиме нон-стоп работал отдел закупок ALP ITSM. Специалисты обзванивали поставщиков по всей стране, ища необходимое серверное и сетевое оборудование (серверы, коммутаторы, маршрутизаторы) с немедленной отгрузкой «с колес». Цель была одна – доставить и установить все до утра понедельника. Благодаря налаженным партнерским связям и пониманию срочности нужные позиции были найдены и заказаны в рекордные сроки.
Слаженность команды решила исход битвы – каждый знал свою роль:
- инженеры на месте диагностировали и «реанимировали» железо, выполняли локальную настройку;
- облачные специалисты разворачивали сервисы из бэкапов в облаке ALP ITSM;
- отдел закупок занимался экстренными поставками оборудования;
- менеджмент координировал процессы, коммуницировал с клиентом и управлял ресурсами.
Опыт, отсутствие паники и четкий алгоритм действий при ЧП позволили избежать хаоса.
В результате бизнес удалось спасти буквально за несколько дней:
- Уже в пятницу благодаря временным решениям были восстановлены базовые сервисы — корпоративная телефония, доступ в интернет и работа 1С. Бизнес смог продолжить работу, хотя и с ограниченной скоростью и функциональностью.
- В субботу-воскресенье поступило новое оборудование. Инженеры ALP ITSM работали круглосуточно: монтировали стойки, устанавливали серверы, настраивали сеть, переносили данные и сервисы с временных решений и из облака обратно на новую локальную инфраструктуру.
- К утру понедельника, когда сотрудники вышли на работу, вся IT-инфраструктура компании N была полностью восстановлена на новом оборудовании. Рабочие места были готовы, сервисы функционировали в штатном режиме. Финансовые и репутационные потери были минимальны благодаря тому, что основной удар пришелся на выходные и был парирован за 72 часа.
Выводы и уроки: что должен знать каждый бизнес, чтобы не повторить этот «потоп»
Этот невероятный кейс – не просто история о стечении обстоятельств. Это наглядное пособие по критическим уязвимостям и обязательным мерам защиты для любой компании:
- Жидкостное пожаротушение в серверной – смертельно! Это главная инженерная ошибка. Серверные комнаты и ЦОД должны оснащаться газовыми (например, хладоновыми, фреоновыми) системами пожаротушения. Вода уничтожает электронику быстрее любого пожара.
- Внешние резервные копии (off-site backup) – ваш главный спасательный круг. Локальные бэкапы на NAS или ленте в той же серверной бесполезны при ее разрушении (пожар, потоп, кража). Обязательно храните копии данных географически удаленно – в защищенном облаке (как у ALP ITSM) или на выделенном объекте вне офиса. Регулярно тестируйте восстановление из них!
- Не держите все яйца в одной корзине: используйте облако и «теплый резерв». Полная зависимость от одной локальной серверной – огромный риск. Переносите критически важные сервисы (почта, CRM, документооборот) в облако. Для ключевых on-premise систем организуйте «теплый резерв» – предварительно настроенное резервное оборудование (у себя или у партнера), готовое к быстрому запуску в случае аварии.
- Disaster recovery plan (DRP) – не роскошь, а необходимость. Четкий, документированный и регулярно тестируемый план восстановления после сбоя – это инструкция по спасению бизнеса. Он должен включать: порядок оповещения, роли и ответственность, приоритеты восстановления сервисов, схемы коммуникации, контакты поставщиков. ALP ITSM настаивает: разработка и тестирование DRP доступны и критически важны для бизнеса любого размера, а не только для корпораций. Мы делаем это для наших клиентов.
- Опытная команда и партнер – ваша страховка. Технологии важны, но именно люди действуют в кризис. Надежный IT-партнер с отработанными процедурами реагирования на инциденты – неотъемлемая часть безопасности бизнеса.
- Непредсказуемость – единственная константа. ЧП может прийти откуда угодно: новая пандемия, ложное срабатывание системы, ошибка подрядчика, стихия. Абсолютной защиты нет, поэтому готовность к восстановлению – главный приоритет. Инвестируйте в IT-безопасность и резервирование до инцидента, а не после.
Заключение: уроки на века, а не только на время пандемий
Главный урок для всех: инвестиции в грамотную IT-инфраструктуру, надежное резервное копирование и DRP-план с опытным партнером – это не излишество, а стратегическая необходимость и страховка бизнеса. Это защита не только от катастроф вроде пандемий, но и от более вероятных рисков: пожаров, потопов, сбоев оборудования, человеческих ошибок.
Не ждите, пока «пар попадет в вентиляцию» вашего бизнеса – заложите фундамент безопасности собственной компании уже сегодня. Команда ALP ITSM не только проследит за повседневной работой IT-систем, но и гарантирует непрерывность работы вашего бизнеса даже при самых невероятных и катастрофических сценариях. Мы знаем, что форс-мажор непредсказуем, и мы готовы к нему, чтобы ваша компания продолжала работать – без паники и без фатальных потерь.