Объяснение: что случилось с Facebook, почему долго чинили и может ли это повториться

Разбор от бывшего директора по распространению технологий «Яндекса» Григория Бакунова.

Пролистал большую статью от Cloudflare про сегодняшнее падение Facebook и решил написать свою — сильно более простую. 4 октября приблизительно в 19:45 мск оглушительно рухнул Facebook и почти все его внешние и внутренние сервисы. Лежал Facebook, Messenger, Instagram, WhatsApp, лежали корпоративные и бизнес-сервисы Facebook, не отвечали ни сайты, ни мобильные приложения.

Что произошло

Судя по всему, кто-то из сетевых администраторов внёс изменения в конфигурацию сети Facebook — причём так, что большая часть этой сети перестала существовать.

Интернет, который многие считают единой сетью, на самом деле состоит из большого количества более мелких сетей, по сути, это сетка сеток. Чтобы информация из одной подсети попадала в другую, была построена система обмена информацией о конфигурации и расположении узлов в подсетях, маршрутизаторы обмениваются друг с другом информацией о расположении подведомственных им сетей по протоколу BGP.

Так вот, одна из таких подсетей анонсировала всем внутри и снаружи, что часть сети Facebook теперь находится не у неё. Так получилось, что именно в этой подсети жили NS-сервера, отвечающие за домены, принадлежащие компании. А значит, начиная с какого-то момента все, кто пытался узнать на каком IP-адресе находится facebook.com, стали получать пустой ответ. Последствия предсказуемы: не работает Facebook и все его сервисы у пользователей, внешних и внутренних.

Почему так долго не работали сервисы

Вместе с тем сотрудники Facebook оказались в незавидном положении:

  • Недоступные все внутренние ресурсы компании, включая мессенджеры и корпоративные адресные книги.
  • Нельзя зайти в офис (часть офисов пускали только по бейджикам, которые привязаны к интернет-авторизации).
  • Потеряны почти любые привычные способы коммуникации.

Вдобавок ко всему, большую часть проблем можно было решить только при физическом доступе к серверам, который существенно осложнён привычной расслабленностью удалённой работы. Первые признаки восстановления систем можно было заметить уже после 12 ночи, то есть через три часа глухого молчания.

При этом крепко досталось всему интернету. Лежали почти все крупные соцсети, которым внезапно достался трафик Facebook — люди, не найдя привычных Instagram и WhatsApp, пошли искать спасения в Twitter и Telegram. Получившие новый трафик поначалу радовались, но потом начали стонать под полученной неожиданно нагрузкой.

Сильно пострадали все публичные DNS-сервера — мобильные клиенты Facebook и все сайты, где была авторизация через Facebook или кнопка like, безостановочно DDoS-или свои DNS запросами к несуществующему Facebook. Трафик некоторых мобильных приложений вырос в 30-50 раз. Впечатляет?

Будет ли такое повторяться

Будет. Потому что современный интернет всё ещё базируется на принципах, которые были выработаны 30, а иногда и больше лет назад. Никто тогда не думал о глобальной мировой сети.

За прошедшие годы человечество построило интернет таким, какой он есть сейчас — централизованным, уязвимым и потому неустойчивым. Последние выключения Cloudflare, Amazon, Facebook и других крупных интернетообразующих сервисов показали, насколько хрупкая конструкция этот наш интернет. И кажется это то, что срочно пора исправить.

196196
170 комментариев
241
Ответить

"показали, насколько хрупкая конструкция этот наш интернет."

Легли то все несколько сервисов, приматы временно не смогли делать посты в свои инстаграмы, какая проблема)) печально, что огромные просторы интернета для многих начинаются и заканчиваются каким нибудь инстаграмом. Так что не надо тут, все с интернетом в порядке) 

89
Ответить

Ну ещё в некоторых организациях коммуникации происходят в мессенджерах, например wa. Наверное это не совсем правильно. Но в итоге напряглись не только инстаблогеры и тп.

4
Ответить

А когда Akamai ложился? Половина крупнейших ресурсов легло. Предлагаете в каждый дом независимую инфраструктуру прокладывать вместе с оптикой?)

6
Ответить

> приматы временно не смогли делать посты в свои инстаграмы

приматы - это люди с такой "дальновидной" логикой.
отрубить на шесть часов 2 популярных месенджера, фейсбук и ватсап - это однозначный урон многим бизнесам.

инста тоже генерит дофига бабла.

4
Ответить

У многих бизнес в социальных сетях

1
Ответить

Легли и необходимые для жизни сервисы! Отвалился Lg ThinQ, также проблемы были и Mihome, как результат я долго не мог понять почему некоторая техника отвалилась от majordom и всем приходится управлять физически (пришлось топать в баню пешком чтобы физически вручную все включать), свет и все блоки управляющие через инет отвалились, только физическое управление. Домашняя сеть тоже начала брыкаться и показывать отсутствие интернета, кинетики с ума посходили, хотя проблемм с инетом небыло, телефон honor показывал отсутствие интернета через wi-fi . Вообщем пока не открыл телеграмм думал у меня мозг взорвется от того откуда проблемы везде и сразу....

Ответить