Объясняю масштабный сбой Facebook на картинках

Вечером 4 октября весь Интернет наблюдал за глобальным падением Facebook, Instagram и WhatsApp, которое продлилось больше 6 часов. А затем неполадки появились в Telegram, Twitter, Youtube и многих других сервисах. Даже упали сервера Oculus — люди, находящиеся в момент падения серверов в шлемах виртуальной реальности, увидели, что всё вокруг стало чёрное, и подумали, что умерли. По крайней мере, так шутят на Reddit.

На самом деле, владельцы Oculus могли с переменным успехом пользоваться скаченными приложениями, но всё равно забавно. <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Ft.me%2Fefeedread%2F19178&postId=301942" rel="nofollow noreferrer noopener" target="_blank">Efeed</a> 
На самом деле, владельцы Oculus могли с переменным успехом пользоваться скаченными приложениями, но всё равно забавно. Efeed 

Мне надоели скучные, длинные и сложные лонгриды про объяснение интернет-апокалипсиса и я решил написать свою статью в стиле легендарного Wait But Why. Таких я ещё не видел. Прочитал десятки статей, источников, отчётов и мнений, из-за чего публикую материал только сегодня. Вышло очень просто о сложном и с понятными иллюстрациями.

Для начала: как работает Интернет

Объясняю масштабный сбой Facebook на картинках

Интернет — это огромный улей. Он поделён на очень много пчелиных сот, где каждая сота — своя сеть. Все они пронумерованы для удобства. Например, сота №1 это ваша сеть, в которой только вы смотрите Youtube и залипаете в TikTok. А сота №2 это сеть вашего друга. Между вашими сетями передаётся информация, к примеру, сообщения в Telegram. Получается коммуникация, а такой обмен называют протоколом BGP.

Объясняю масштабный сбой Facebook на картинках

Маршрутизаторы — устройства с антеннами, разбросанные по всему миру и передающие информацию между всеми сетями. Они выстраивают маршрут из сети в сеть. Выключишь один: и как домино все остальные перестанут нести информацию, поток остановится.

Что произошло

Тут есть несколько вариантов. Либо Facebook выпустило большое обновление ключевых маршрутизаторов, но с ошибкой. Либо сотрудники отключили часть пути сетей для обслуживания — например, для ремонта оптоволоконной линии. Во время обычной работы кто-то дал неправильную команду, которая отключила все сервера Facebook от сети. Из-за случайной ошибки, всё пошло не по плану.

Специальная программа должна была проверять все подобные опасные команды, но почему-то не сделала это.

Одна сеть сказала всем остальным, что у неё больше нет части информации о Facebook. Именно в этой сети жили сервера, которые отвечают за домены, принадлежащие компании. Когда пользователи заходили в Facebook, Instagram и WhatsApp — сети просто ничего не отвечали. Они будто забыли, кто этот ваш Facebook. Случайным образом из системы удалилась эта информация и вместе с ней заглохли все остальные маршрутизаторы.

Объясняю масштабный сбой Facebook на картинках

Фактически все центры обработки данных Facebook во всём мире перестали передавать друг другу информацию и отключились.

Жуткая ситуация, когда сам себе отключаешь доступ к удалённому серверу. Каждый сисадмин хоть раз в ней был. Представляю, какой ад там сейчас творится.

Самат Галимов, Технический директор

Из-за этого во время сбоя домен Facebook.com выставили на продажу на Whois. Формально Facebook перестал существовать в Интернете, и его домен оказался как бы свободным. Но технически его не получилось бы продать, потому что он всё же занят компанией.

Если коротко: капитально лоханулись. Технический запрос «всё ли норм» положил всю сеть, а кто-то заработал ачивку «положил половину интернета одной командой».
Интересно было бы посмотреть на лицо человека, когда он осознал, что произошло. Заодно пульс и давление стоило бы записать, явно в книгу рекордов Гиннеса попал бы.

Алексей Ткачук, Telegram-канал DNative

Что предприняли сотрудники и почему так долго

В Кремниевой долине только началось утро понедельника и сотрудники просыпались. Но вместе с сервисами Facebook, которыми пользуемся мы, перестали работать все корпоративные инструменты. Мессенджеры, адресные книги и даже бейджики — из-за этого в часть офисов нельзя было зайти.

Решить проблему крайне сложно. Сотрудники дата-центров не имеют ключей доступа, а те, у кого есть ключи — находятся далеко от дата-центров. В связи с удалённой работой, некоторые важные кадры могли вообще работать на Мальдивах вдали от серверов.

Объясняю масштабный сбой Facebook на картинках

Сотрудникам пришлось ехать к компьютерам, которые занимаются маршрутизацией сети, из-за чего это заняло так много времени. Но это ещё не все беды: серверные очень сильно охраняются, посторонним инженерам было сложно к ним попасть. А когда не работают даже бейджики и остальные корпоративные инструменты для связи с начальством — ещё сложнее.

К тому же, оборудование и маршрутизаторы специально спроектированы так, чтобы их было сложно модифицировать, даже если у вас есть физический доступ к ним. Опытные инженеры, конечно, смогли обойти все описанные проблемы, но это заняло целых 6 часов.

Даже когда всё починили, слишком много пользователей нахлынуло обратно в сервисы Facebook. Некоторые центры обработки данных не выдержали и на время отключились из-за резкого изменения в энергопотреблении. Представьте, какой для них стресс: то заснули на весь мир, а потом получили в несколько раз больше работы.

Объясняю масштабный сбой Facebook на картинках

Почему досталось всему Интернету

Когда пользователи узнали, что не работают привычные Instagram и WhatsApp, пошли пользоваться другими приложениями. Например, искали спасение в Twitter и Telegram. Сервисы получили неожиданно много нового трафика, из-за чего их сервера не выдержали под нагрузкой. А вот Telegram, кстати, почти устоял и принял 70 миллионов новых пользователей. Трафик некоторых мобильных приложений вырос в 30-50 раз. Очень впечатляет, как мы зависимы от Facebook и к чему может привести такое падение.

Но у кого-то были и другие поводы. Например, сайт Ozon не грузился, потому что для загрузки требовалось подключиться к Facebook. Тысячи людей по всему миру не могли войти в игры, в которые они заходили через соцсеть. Как мы знаем, она просто на время исчезла из Интернета.

Сотрудники всех этих сервисов тоже принялись всё чинить и просто ждать, пока наплыв трафика стихнет.

Объясняю масштабный сбой Facebook на картинках

Только не говори, что такое будет повторяться

К сожалению, подобные сбои ещё будут повторяться много раз. Современный интернет работает по принципам, которые были придуманы больше 30 лет назад. В то время никто не думал, что Интернетом будут пользоваться миллиарды человек.

За прошедшие десятилетия человечество построило Интернет централизованным, уязвимым, и поэтому не устойчивым. Последние крупные сбои Amazon, Google и CloudFare подтвердили, насколько хрупкий Интернет. Это срочно пора исправить.

Что может сделать Facebook и другие компании, чтобы такое больше не повторялось

Сегодня есть очень много систем, которые защищают сервера от случайных действий работников. Если вы меняете важные данные, через 15 минут вам нужно руками подтвердить изменение. Если вы этого не делаете, изменения сбрасываются. Этими системами пользуются много больших корпораций, но Facebook она не помогла.

Теперь её точно будут тестировать на порядок выше, чтобы такое больше не повторилось. В компании уже придумывают, как избежать таких проблем в будущем. Но говоря о такой сложной системе, как Интернет, рано или поздно мы увидим ещё штормы.

Мог ли кто-то внутри Facebook устроить саботаж

Всё возможно, но здесь точного ответа нет.

Компанию давно обвиняют в негативном влиянии на детей, не удалении жестокого контента и тысяч фейковых новостей в соцсети. В тот же день бывшая сотрудница компании Фрэнсин Хауген обвинила Facebook в пренебрежении безопасностью людей ради выгоды, подкрепив свои слова корпоративными документами. На фоне этих скандалов и крупного шторма в соцсети, некоторые подумали, не саботаж ли это?

Официально сбой не вызван действиями злоумышленников. И особых доказательств иному нет.

Заключение

Компаниям остаётся совершенствовать свои системы и в целом Интернет, а нам — спокойно наблюдать. Если у вас есть свой бизнес, подумайте, как вы можете пережить следующий кризис и не потерять клиентов во время сбоя.

Спасибо, что прочитали статью! Подписывайтесь на мой Telegram-канал, там больше похожего контента и анонсы следующих статей. Пишу про стартапы, технологии и науку.

3535
13 комментариев

Пришёл посмотреть картинки, получил простыню текста.

46
Ответить

Комментарий недоступен

6
Ответить

С самого начала какая-то чушь:
"Интернет — это огромный улей. Он поделён на очень много пчелиных сот, где каждая сота — своя сеть. Все они пронумерованы для удобства."

3
Ответить

Почему? 

4
Ответить

Я считаю, что аналогия вполне верна. 
Недавно почитал статью на habre, перевод. Там примерно тоже самое имели ввиду.

"Интернет — это буквально сеть из сетей, связанных между собой с помощью BGP. BGP позволяет одной сети (скажем, Facebook) объявлять о своём присутствии другим сетям, которые в конечном счёте формируют весь интернет."

Я не спорю, ты тоже прав в плане того, что компы пронумерованы и могут посылать данные, но то, что написано выше - точно не чушь)

3
Ответить

Официально сбой не вызван действиями злоумышленников. И особых доказательств иному нет.Позитивные утверждения более доходчивы.

Предлагаю редактуру:
Нет доказательств того, что сбой вызван действиями злоумышленников.
Так что официально, у сбоя другие причины.

2
Ответить

Сами сказали что длинные и скучные, хоть у вас и не лучше,такие же длинные и не самые интересные

2
Ответить