Disaster Recovery: как обеспечить устойчивость ИТ-инфраструктуры к сбоям и катастрофам

На стабильную работу ИТ в компании, помимо внутренних процессов, влияют и внешние факторы. Например, в дата-центре может пропасть электроснабжение или площадку полностью уничтожит пожар. Такое случается крайне редко, но за последние годы это произошло неоднократно у нескольких крупных дата-центров в РФ и за рубежом.

Если произойдет глобальный сбой или катастрофа, у бизнеса не получится быстро восстановить системы даже с помощью вовремя сделанных бэкапов на отдельную СХД или в другой ЦОД и продолжить работу. Обычно работа встает на часы или дни, либо данные исчезают навсегда, тогда как минутные простои для крупного бизнеса оборачиваются миллионными убытками и репутационными рисками.

Чтобы защитить инфраструктуру от чрезвычайных ситуаций, существует аварийное восстановление. В этом материале мы рассказали, что такое Disaster Recovery, какие параметры влияют на выбор решения и как бизнес может повысить свою устойчивость к катастрофам.

Disaster Recovery (DR) — это комплекс инструментов и действий, которые помогают бизнесу восстановить ИТ-инфраструктуру, сети, сервисы или файлы после глобальных форс-мажоров. Это может быть выход из строя системы кондиционирования в дата-центре, санкции, политические конфликты или цунами, которое уничтожит площадку.

При наличии грамотного DR-плана (DRP) компания может за один-два часа продолжить работу в штатном режиме даже при отказе всего дата-центра или серверной. Но это возможно, только если была заранее развернута резервная площадка, удаленная от основного дата-центра, куда настроена репликация всех бизнес-критичных сервисов и хранится бэкап всех некритичных. В DRP прописывается порядок действий ИТ-специалистов в случае краха основной инфраструктуры, критический срок простоя, после которого начинается переключение на резерв и все процедуры.

Чтобы грамотно выбрать резервную площадку, разработать DRP и просчитать стоимость решения, бизнесу нужно самостоятельно проанализировать воздействие форс-мажоров на бизнес-процессы, оценить риски и определить время и точку восстановления данных. Рассмотрим каждый параметр отдельно.

BIA (business impact analysis) — анализ воздействия на бизнес. Важность бизнес-процессов влияет на меры по их защите. Например, минута простоя банковского мобильного приложения может привести к срывам транзакций и недовольству клиентов. Поэтому уровень важности процесса можно оценить как высокий, а доступность системы должна быть непрерывной.

RA (risk analysis) — анализ рисков. На инфраструктуру влияют много факторов: внешние (санкции, наводнение, отключение от глобального интернета) и внутренние (человеческий фактор, ошибки в инструкциях, поломки оборудования). Необходимо проанализировать их, чтобы подготовиться к форс-мажорам и избежать их негативного влияния на компанию.

RTO (recovery time objective) — максимальное время, за которое система должна восстановить работу. RTO измеряется в минутах, часах, днях. Например, для критически важных систем и баз данных можно установить значение в несколько минут, а для файловых серверов — до нескольких часов или дней.

RPO (recovery point objective) — максимальное время, за которое могут быть потеряны данные в результате сбоя. Например, если RPO будет четыре часа, то бизнес в случае инцидента может лишиться данных за это или меньшее время. Для работы бизнес критичных данных необходимо, чтобы значение RPO было не больше часа.

В теории можно установить значение RPO в несколько секунд для всей инфраструктуры, но аварийное восстановление будет стоит компании колоссальных денег и возникнут ограничения с географией второй площадки, т.к. потребуется синхронная репликация. Поэтому важно прийти к компромиссному решению, когда компанию устроит стоимость решения и возможные потери в случае глобальной аварии или стихийного бедствия.

Для DR необходимо создать удаленную резервную площадку, с которой в режиме реального времени будут синхронизироваться системы и сервисы организации. Развернуть ее можно как на собственном оборудовании, так и в облаке.

В идеале площадка должна быть территориально удалена от основного дата-центра: в нескольких километрах, другом городе, стране или сейсмической зоне. Кроме того, дата-центр должен потреблять электропитание от другой магистрали и пользоваться другими маршрутами интернет-провайдеров.

Создавать резервную площадку на физическом оборудовании дорого и долго. Необходимо закупить дорогое оборудование, дождаться поставку, организовать серверную, нанять специалистов, которые смогут организовать DR. В условиях санкций и нарушенных логических цепочек проект может затянуться на год и более. А капитальные затраты не окупятся даже через десять лет.

Такое решение могут себе позволить только крупные корпорации, которые имеют закрытую систему и хотят держать под полным контролем все бизнес-процессы. Например, государственные компании, финансовые организации, энергетический сектор. Альтернативный вариант — арендовать оборудование или облако. В этом случае нет расходов на покупку серверов, но клонирование данных и перенос систем в другую локацию может занять много времени.

Резервная площадка в облаке не требует от бизнеса затрат на оборудование, персонал и обслуживание вычислительных мощностей. Компания арендует необходимый объем ресурсов у облачного провайдера и настраивает самостоятельно репликацию, управляя ее частотой.

Площадка может быть как на базе публичного облака, так и приватного. При необходимости можно масштабировать ресурсы или, наоборот, отказаться от какой-то их части. Оплата услуг чаще проходит по модели pay-as-you-go, то есть по факту использования. При этом часть провайдеров предлагает пониженные тарифы для пассивной резервной площадки.

Еще одно преимущество облачного решения в том, что развернуть виртуальный дата-центр можно в максимально удаленной локации от основного ЦОД: в другом городе или стране. Например, у ITGLOBAL.COM есть семь площадок: две в России, по одной в Нидерландах, Казахстане, Канаде, США, Беларуси.

Виртуальный резервный дата-центр подойдет как SMB, которому не выгодно нанимать персонал и закупать оборудование, так и крупному бизнесу, которому необходимо оптимизировать в кризис расходы на обслуживание ИТ-инфраструктуры и аварийное восстановление.

Если у компании нет ресурсов или желания заниматься самостоятельно Disaster Recovery, то можно полностью делегировать площадку для аварийного восстановления облачному провайдеру в рамках DRaaS. Подробнее о услуге мы рассказали в статье «DRaaS — аварийное восстановление как сервис».

Суть услуги в том, что подрядчик берет на себя не только содержание инфраструктуры, но и предоставляет инструменты для репликации. Как правило, еще и по ценам ниже IaaS. В рамках DRaaS все гарантии обслуживания прописаны в SLA, например, время простоя виртуальных машин за год и время восстановления сервисов. Данные надежно защищены, если облако развернуто в дата-центре уровня Tier III, ЦОДы ITGLOBAL.COM.

Благодаря DRaaS бизнес может сэкономить миллионы на создании собственного резервного дата-центра и освободить время штатных специалистов для реализации новых проектов, которые в перспективе принесут компании лояльных клиентов и партнеров.

Disaster Recovery: как обеспечить устойчивость ИТ-инфраструктуры к сбоям и катастрофам

Disaster Recovery — это восстановление после катастроф

Основные параметры Disaster Recovery

Варианты DR-площадки: резервный дата-центр или облако

Физическое оборудование

Облачное решение

Аварийное восстановление как сервис (DRaaS)