Глобальный сбой Microsoft сказался почти на всех, кроме России. Но это не повод расслабляться

Сбой систем Windows нарушил работу авиакомпаний, аэропортов, банков и СМИ по всему миру. Руководитель корпоративных практик ALP Group Александр Казеннов объясняет, что делать, чтобы не допустить подобных провалов в будущем.

«Синий экран смерти» в аэропорту Далласа. Источник: <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fcommons.wikimedia.org%2Fwiki%2FFile%3ADulles_Airport_CrowdStruck_%2853867936421%29.jpg%3Fuselang%3Dru&postId=1329612" rel="nofollow noreferrer noopener" target="_blank">reivax</a>, Wikimedia
«Синий экран смерти» в аэропорту Далласа. Источник: reivax, Wikimedia

Что произошло?

В пятницу, 19 июля, на миллионах устройств с Windows 10 появился «синий экран смерти». По всему миру аэропорты не могли принимать самолеты, в США отменили более 1 400 рейсов, ограничил работу международный аэропорт Сиднея, пострадали железнодорожные службы Великобритании, прервалось вещание крупнейших телеканалов (ABC News, Sky News), наблюдались проблемы с проведением безналичных платежей через Visa, а в Израиле с техническими проблемами столкнулись больницы, банки, почта и системы оказания экстренной помощи.

Как позже выяснилось, хакеры в этот раз были ни при чём: глобальный сбой произошел в облачной платформе Microsoft Azure и был вызван ошибкой в обновлении от американского вендора решений по информационной безопасности CrowdStrike. Главный виновник сбоя — датчик Falcon, который должен блокировать кибератаки… но вместо этого вызвал «синий экран». Представители Microsoft сообщили, что «изменения конфигурации в части серверных рабочих нагрузок Azure вызвали перебои между хранилищем и вычислительными ресурсами, что привело к сбоям подключения и затронуло приложения Microsoft 365, зависящие от этих подключений».

Ошибка была обнаружена, и в тот же день был подготовлен патч. Но исправление требовало ручного обращения к системе, поэтому даже на частичное восстановление потребовалась половина пятницы. Илон Маск поспешил назвать сбой компьютерных систем Microsoft «крупнейшим провалом в истории IT», а журналисты окрестили его «цифровой пандемией».

Что интересно, России проблема массово не коснулась. Как многие помнят, Microsoft отключила российских корпоративных клиентов от облачных сервисов Azure в марте 2024 года. Кроме того, сбой затронул только устройства, на которых было установлено непопулярное в нашей стране антивирусное ПО CrowdStrike.

Комментарий ALP Group

Александр Казеннов
Руководитель корпоративных практик ALP Group

По заверениям наших критически значимых компаний, глобальный сбой не коснулся России благодаря успешному импортозамещению иностранного программного обеспечения. Однако нужно понимать, что у нас будут свои сбои — по той простой причине, что 100% совершенного софта на данный момент не существует.

Да и у Microsoft это не первый и не последний сбой. Например, 25 января 2023 года неудачное обновление глобальной вычислительной сети WAN на 7,5 часов парализовало работу целого ряда популярных облачных сервисов, включая Microsoft Teams, Outlook и Power BI.

Как обезопасить себя от подобных проблем? В первую очередь, обязательно создавать резервные серверы. Если на основном сервере произойдет сбой, то включится резервный. Кроме того, любые, даже самые минимальные обновления, стоит выкатывать сначала на основном сервере и только через определенное количество дней — на резервном.

Во-вторых, не спешить обновляться. Да, сейчас кейс был в основном про централизованный онлайн-сервис, но и для внутрикорпоративных критичных решений не стоит торопиться с обновлением до его тщательной проверки и обратной связи от рынка — всё ли в порядке. Как правило, на профильных форумах достаточно оперативно появляется информация о тех или иных сложностях обновлений и результатах установки. После выхода новых обновлений, патчей ПО, стоит выждать «театральную» паузу в паре с тестированием, посмотреть на результаты применения обновлений по рынку, и только после этого устанавливать новую версию софта к себе. Бывают ситуации, когда обновление критично — например, устраняет опасную уязвимость. Но даже в таких случаях стоит взвесить все за и против, и только потом обновляться. К слову, интересно было изучать комментарии отдельных компаний, о том, что их проблемы не затронули, потому что критическая инфраструктура всё еще на Windows 3.11. Видимо, тот случай, когда «работает — не трогай» с защитой от проникновений (надеюсь 🙂).

В-третьих, нужно продолжать работу над качеством продуктов и тестов. Сложность IT-систем только растет. Особенно когда речь идет о критической инфраструктуре, на QA-тестировании новых релизов нельзя экономить ни человеческие, ни временные ресурсы.

В-четвертых, имеет смысл заранее продумать план действий на случай нештатной ситуации, чтобы оперативно и качественно сработать и не быть застанными врасплох. Здесь нужно помнить, что проблемы могут произойти на любых узлах — не только, как в случае с Microsoft Azure, на этапе обновления программного обеспечения, но и по причине человеческого фактора, сбоя в оборудовании или ввиду природных катаклизмов. Произошедшее лишь напоминает о том, что софт тоже сбоит, и это нужно учитывать в плане реагирования. Подозреваю, что об этом все вспоминают в последнюю очередь.

И, ещё, коллеги-разработчики, давайте все-таки будем ответственнее подходить к решению задач. Судя по масштабу крушений, инцидент легко выявлялся на этапе внутренних тестов до выпуска в прод.

А вы что думаете? Поделитесь своим мнением в комментариях ⬇

66
2 комментария

в том то и дело у всех сбой а у меня чет нет

1

Когда зарубежные компании начали массово уходить с рынка, я начал на наших переходить потихоньку. Да, было болезненно и непривычно. Однако выводы сделал для себя спустя 2 года. Линуха надежнее винды, vmmanager работает стабильнее чем vmware, и только по сервисам гугла иногда скучаю)))

▎Интернет рухнул: Что произошло 14 января 2025 года?
▎Интернет рухнул: Что произошло 14 января 2025 года?
11
Сбой интернета в России 14 января 2025
Сбой интернета в России 14 января 2025
Про (без)ответственный подход к ИИ

Сегодняшний пост посвящен ответственному подходу к ИИ, точнее, как вы уже могли догадаться, обсуждению случаев, когда ответственного подхода не хватило. Я не ставлю перед собой цель охватить все истории, когда что-то в использовании или разработке ИИ пошло не так. Кроме того, я сознательно опущу случаи, которые привели к непосредственной угрозе жиз…

22
Что нас ждет в 2025 году? Главные тренды кибербезопасности, о которых вы должны знать

Вас когда-нибудь удивляло, как быстро меняется мир киберугроз? Хакеры больше не похожи на тех, кого мы привыкли видеть в фильмах с капюшонами и мрачными подвалами. Сегодня они больше напоминают бизнесменов: организованных, технологически подкованных и, увы, на шаг впереди. 2025 год обещает быть особенным для кибербезопасности, и если вы считаете, ч…

Тихий нарушитель: как неуправляемые устройства угрожают вашему бизнесу

Когда мы представляем современный бизнес, в голове сразу возникают образы ультрасовременных офисов, эффективных рабочих процессов и сети, в которой устройства работают как часы. Но давайте посмотрим на это иначе. Представьте, что вы управляете высокотехнологичной крепостью, спроектированной, чтобы выдерживать самые мощные атаки. Ваши стены прочны,…

Тихий нарушитель: как неуправляемые устройства угрожают вашему бизнесу
22
Форс-мажор идет по плану...

Или что делать, когда кажется, что мир рухнул...

11
Авиакомпания Delta подала в суд на разработчика ПО в сфере кибербезопасности CrowdStrike из-за сбоя, который вывел из строя «миллионы компьютеров по всему миру»

Он произошёл в июле 2024 года — из-за некорректного обновления ПО для Windows, MacOS и Linux.

Источник фото: Inc 
1111
11
За принудительное обновление надо наказывать. К тому же если отключено было
Цена опечатки: как одна ошибка в коде привела к многомиллионным убыткам Amazon и её клиентов

Главное

11
[]