Amazon объяснила массовую недоступность своих «облачных» сервисов сбоем из-за опечатки

Массовый сбой в работе «облачных» сервисов Amazon, из-за которого 28 февраля 2017 года появились проблемы в работе Trello, Coursera, IFTTT, Quora и других сайтов, был вызван опечаткой одного из сотрудников компании. Об этом говорится в сообщении Amazon.

28 февраля 2017 года команда Amazon S3 занималась отладкой системы выставления счетов и для этого ей понадобилось перевести несколько серверов в автономный режим. «К сожалению, команда была введена неправильно и под отключение попало больше серверов, чем предполагалось. Среди них были серверы, которые поддерживали работу подсистем S3», — сказали в компании.

В частности, была выведена из строя система, которая управляла метаданными и информацией о расположении всех объектов S3 в регионе. Без неё многие сервисы не могли выполнять задачи по поиску и хранению данных. Тогда же оказался недоступен сервис Amazon Elastic Compute Cloud (EC2), который используется для доступа к вычислительным мощностям.

Представители компании добавили, что для возвращения к работе нужно было перезапустить некоторые системы и провести их проверку, что заняло довольно много времени. По их словам, S3 может продолжить работу при потере нескольких серверов, однако массовая перезагрузка стала проблемой.

Сейчас Amazon уже внесла изменения в S3, которые позволят восстанавливать системы быстрее. Кроме того, инженеры не смогут отключать серверы, которые задействованы в системах «определённого уровня». Также компания пообещала исправить работу панели информации AWS Service Health Dashboard, которая не показывала информацию о сбоях, так как сама зависит от S3.

Amazon предоставляет услуги одного из крупнейших «облачных» сервисов в мире, которым пользуются многие интернет-компании для хранения данных и ускорения работы проектов. Основные конкуренты компании в этой сфере — Google и Microsoft.

11
8 комментариев

2017, но уборщицу в серверной никто не отменял)

17
Ответить

Или,
– Давай, Михалыч, шараш!

update dbo.S3MetadataRestartPending
set IsRestartRequired = 1
-- where SubSet in ('Accounting')

4
Ответить

1. Редакция, как связан EC2 и срочное хранение информации?

2. Представляете, если бы что-нибудь, например, втащил ошибку в Amazon Alexa, и она начала бы творить массовый беспредел у людей в домах. S3 это не самое страшное :)

2
Ответить

Поправили про EC2

Ответить

Вот этот юзабилитильный линух :) одна опечатка и кранты

2
Ответить

Комментарий недоступен

1
Ответить

Кто-там хотел брать пример с Амазона с его "10 тыс. изменений своей системы в день" ? ;-)

Вот тоже самое и получите.

Ответить