«Яндекс» объяснил ошибкой удаление виртуальных машин части пользователей «Облака» Статьи редакции
Это первый крупный сбой в работе сервиса с момента его запуска.
«Яндекс» по ошибке удалил данные с виртуальных машин некоторых пользователей платформы «Яндекс.Облако». Пользователи рассказали об инциденте на «Пикабу» и «Хабре», представитель «Яндекса» подтвердил vc.ru случившееся.
16 мая «Яндекс» проводил плановые технические работы по остановке и удалению виртуальных машин пользователей, которые не оплатили использование сервиса или нарушили правила. Удаление виртуальных машин началось в 16:35 Мск, но было остановлено в срочном порядке в 16:51, когда специалисты заметили, что в загруженный список попали активные виртуальные машины, объяснил представитель «Яндекса».
Абсолютное число пострадавших пользователей, как и размер всей аудитории «Облака», представитель «Яндекса» не раскрывает. Он добавил, что компания работает над мерами, которые позволят избежать подобных ошибок в будущем.
«Яндекс» запустил облачную платформу для бизнеса «Облако» в сентябре 2018 года. Это первый серьёзный инцидент в его истории, отмечает «Хабр».
Комментарий недоступен
Я кстати думал что в Яндексе виртуалтные машины бекапятся по умолчанию. В ажуре к примеру 2 копии делается by design
Они "бэкапятся" в двух логиках, двумя разными сторонами процесса.
Одно дело когда, как Александр выше — сам сисадмин бэкапит свои данные, пусть даже на том же самом Облаке, рядышком. Это от ошибок самого сисадмина. Но есть и другой бэкап, который он не видит, это бэкап самого Облака, от ошибок админов Облака, от посыпавших или ушедши на плановую замену дисков… На эту устойчивость, высокого уровня, админ, покупающий услуги, никак не влияет.
Комментарий недоступен
В теории - сервис должен обладать определённой устойчивостью, что достигается резервированием. Сервер приложения - кластер. Перед ним - балансировщик. Хранилище - кластер. Перед ним - балансировщик. Элементы кластеров (vm) должны подниматься по шаблону. Такой резерв может работать в рамках одной зоны (не очень надежно) или пары-тройки зон (оч хорошо). И бекапы тут - горячие, переключение на другого мастера в кластере должно быть автоматом. Поднятие нового элемента кластера вместо упавшего - автоматом.
А вот бэкапы - они в таком конфиге нужны только внешние, для надёжности.
Вот я и удивлен что бэкап облака не справился со своей функцией. Видимо эти копии удалились вместе с основной vm