Amazon объяснила массовую недоступность своих «облачных» сервисов сбоем из-за опечатки Статьи редакции

Массовый сбой в работе «облачных» сервисов Amazon, из-за которого 28 февраля 2017 года появились проблемы в работе Trello, Coursera, IFTTT, Quora и других сайтов, был вызван опечаткой одного из сотрудников компании. Об этом говорится в сообщении Amazon.

28 февраля 2017 года команда Amazon S3 занималась отладкой системы выставления счетов и для этого ей понадобилось перевести несколько серверов в автономный режим. «К сожалению, команда была введена неправильно и под отключение попало больше серверов, чем предполагалось. Среди них были серверы, которые поддерживали работу подсистем S3», — сказали в компании.

В частности, была выведена из строя система, которая управляла метаданными и информацией о расположении всех объектов S3 в регионе. Без неё многие сервисы не могли выполнять задачи по поиску и хранению данных. Тогда же оказался недоступен сервис Amazon Elastic Compute Cloud (EC2), который используется для доступа к вычислительным мощностям.

Представители компании добавили, что для возвращения к работе нужно было перезапустить некоторые системы и провести их проверку, что заняло довольно много времени. По их словам, S3 может продолжить работу при потере нескольких серверов, однако массовая перезагрузка стала проблемой.

Сейчас Amazon уже внесла изменения в S3, которые позволят восстанавливать системы быстрее. Кроме того, инженеры не смогут отключать серверы, которые задействованы в системах «определённого уровня». Также компания пообещала исправить работу панели информации AWS Service Health Dashboard, которая не показывала информацию о сбоях, так как сама зависит от S3.

Amazon предоставляет услуги одного из крупнейших «облачных» сервисов в мире, которым пользуются многие интернет-компании для хранения данных и ускорения работы проектов. Основные конкуренты компании в этой сфере — Google и Microsoft.

0
8 комментариев
Написать комментарий...
Денис Кулагин

2017, но уборщицу в серверной никто не отменял)

Ответить
Развернуть ветку
Евгений Демур

Или,
– Давай, Михалыч, шараш!

update dbo.S3MetadataRestartPending
set IsRestartRequired = 1
-- where SubSet in ('Accounting')

Ответить
Развернуть ветку
Vladislav Arbatov

1. Редакция, как связан EC2 и срочное хранение информации?

2. Представляете, если бы что-нибудь, например, втащил ошибку в Amazon Alexa, и она начала бы творить массовый беспредел у людей в домах. S3 это не самое страшное :)

Ответить
Развернуть ветку
Андрей Фролов
Автор

Поправили про EC2

Ответить
Развернуть ветку
Valeratal No

Вот этот юзабилитильный линух :) одна опечатка и кранты

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Андрей Захаров

Кто-там хотел брать пример с Амазона с его "10 тыс. изменений своей системы в день" ? ;-)

Вот тоже самое и получите.

Ответить
Развернуть ветку

Комментарий удален модератором

Развернуть ветку
Francis R. Wilkeу

всем этим сервисам нужно было в обязательном порядке иметь реплики в других регионах, тогда не было бы блэкаута.

Ответить
Развернуть ветку
5 комментариев
Раскрывать всегда