Объяснение: что случилось с Facebook, почему долго чинили и может ли это повториться Статьи редакции

Разбор от бывшего директора по распространению технологий «Яндекса» Григория Бакунова.

Пролистал большую статью от Cloudflare про сегодняшнее падение Facebook и решил написать свою — сильно более простую. 4 октября приблизительно в 19:45 мск оглушительно рухнул Facebook и почти все его внешние и внутренние сервисы. Лежал Facebook, Messenger, Instagram, WhatsApp, лежали корпоративные и бизнес-сервисы Facebook, не отвечали ни сайты, ни мобильные приложения.

Что произошло

Судя по всему, кто-то из сетевых администраторов внёс изменения в конфигурацию сети Facebook — причём так, что большая часть этой сети перестала существовать.

Интернет, который многие считают единой сетью, на самом деле состоит из большого количества более мелких сетей, по сути, это сетка сеток. Чтобы информация из одной подсети попадала в другую, была построена система обмена информацией о конфигурации и расположении узлов в подсетях, маршрутизаторы обмениваются друг с другом информацией о расположении подведомственных им сетей по протоколу BGP.

Так вот, одна из таких подсетей анонсировала всем внутри и снаружи, что часть сети Facebook теперь находится не у неё. Так получилось, что именно в этой подсети жили NS-сервера, отвечающие за домены, принадлежащие компании. А значит, начиная с какого-то момента все, кто пытался узнать на каком IP-адресе находится facebook.com, стали получать пустой ответ. Последствия предсказуемы: не работает Facebook и все его сервисы у пользователей, внешних и внутренних.

Почему так долго не работали сервисы

Вместе с тем сотрудники Facebook оказались в незавидном положении:

  • Недоступные все внутренние ресурсы компании, включая мессенджеры и корпоративные адресные книги.
  • Нельзя зайти в офис (часть офисов пускали только по бейджикам, которые привязаны к интернет-авторизации).
  • Потеряны почти любые привычные способы коммуникации.

Вдобавок ко всему, большую часть проблем можно было решить только при физическом доступе к серверам, который существенно осложнён привычной расслабленностью удалённой работы. Первые признаки восстановления систем можно было заметить уже после 12 ночи, то есть через три часа глухого молчания.

При этом крепко досталось всему интернету. Лежали почти все крупные соцсети, которым внезапно достался трафик Facebook — люди, не найдя привычных Instagram и WhatsApp, пошли искать спасения в Twitter и Telegram. Получившие новый трафик поначалу радовались, но потом начали стонать под полученной неожиданно нагрузкой.

Сильно пострадали все публичные DNS-сервера — мобильные клиенты Facebook и все сайты, где была авторизация через Facebook или кнопка like, безостановочно DDoS-или свои DNS запросами к несуществующему Facebook. Трафик некоторых мобильных приложений вырос в 30-50 раз. Впечатляет?

Будет ли такое повторяться

Будет. Потому что современный интернет всё ещё базируется на принципах, которые были выработаны 30, а иногда и больше лет назад. Никто тогда не думал о глобальной мировой сети.

За прошедшие годы человечество построило интернет таким, какой он есть сейчас — централизованным, уязвимым и потому неустойчивым. Последние выключения Cloudflare, Amazon, Facebook и других крупных интернетообразующих сервисов показали, насколько хрупкая конструкция этот наш интернет. И кажется это то, что срочно пора исправить.

0
170 комментариев
Написать комментарий...
Оля Зима

Зато вчера многие пообщались с домашними, с семьей в живую а не онлайн. А некоторые легли спать пораньше и выспались :-) 

Ответить
Развернуть ветку
Александр А.

Я вчера наоборот уснуть не мог.

Но про Фейсбук только утром из новостей узнал )) 

Ответить
Развернуть ветку
Оля Зима

6 чувство спать не давало, ведь такое важное событие в мире произошло, такой убыток понес Фейсбук. И столько пользователей нервничали :-)

Ответить
Развернуть ветку
167 комментариев
Раскрывать всегда