Как проверить обоснованность SLA провайдера не выходя из дома

Авторы:

CIO группы компаний ActiveCloud, Руслан Райкевич;

Генеральный директор ActiveCloud Россия, Дмитрий Яшин.

На рынке облачных услуг многие провайдеры в числе преимуществ указывают высокий уровень доступности приобретаемой клиентом услуги. Как правило именно этот параметр в первую очередь подразумевают и клиенты, спрашивая про предоставляемый поставщиком SLA. Кто-то говорит про 99,9%, другие про 99,95, а некоторые обещают и все 100. Но стоит ли склоняться в пользу того или иного провайдера, опираясь на эти цифры, и как оценить, насколько высоки шансы, что обещанный уровень доступности будет соблюдаться?

Планируем, но не гарантируем

В первую очередь заказчику нужно смириться с тем, что заявленный поставщиком уровень доступности не может являться гарантией бесперебойной работы предоставляемого сервиса. Его нужно воспринимать как гарантию того, что провайдер приложит максимум усилий для обеспечения стабильности своей инфраструктуры, а основными мотиваторами для него будет желание сохранить клиентов, избежать репутационных потерь, а также, не в последнюю очередь, желание избежать штрафных санкций со стороны заказчиков, которые могут потребовать выплаты компенсации, если обещанный уровень доступности будет нарушен.

Бизнес облачных провайдеров устроен таким образом, что поддержание долгосрочных отношений со своими заказчиками достаточно важно для каждого. Значительная часть затрат на серверы, программное обеспечение и разработку продуктов осуществляется единовременно, в то время как клиенты оплачивают услугу помесячно. Соответственно поставщики заинтересованы, чтобы заказчики пользовались их сервисами как можно дальше вместе с эволюцией самих сервисов. Поэтому мы рискнем предположить, что намеренно обманывающие своих клиентов в части уровня доступности провайдеры на современном достаточно зрелом рынке облачных сервисов практически не встречаются, и подавляющее большинство действительно рассчитывает соответствовать тому уровню доступности, который обещает. Однако применяемые для этого подходы могут быть как более, так и менее успешными, и некоторые красные флаги возможно в том числе разглядеть со стороны.

Излишняя самоуверенность

Любая рыночная услуга является компромиссом между ее качеством и стоимостью. На большинстве рынков заметная часть клиентов готова платить за качество, но не готова за него переплачивать. Это прекрасно понимают и провайдеры облачных услуг. Они разрабатывают и внедряют компромиссные варианты обеспечения максимально возможного уровня доступности в рамках выбранного решения с одной стороны и допустимого снижения затрат на обеспечение стабильности инфраструктуры с другой, приходя к некой “золотой середине”, лавируя между обещаниями производителей оборудования и программного обеспечения и личным опытом его использования.

Поэтому показатель SLA в облачных услугах имеет больше маркетинговый, чем практический смысл. Очевидно, что подавляющее число клиентов облачных сервисов не станет платить в 10 раз больше за разницу в 40 минут допустимого даунтайма в месяц между SLA 99,9% и 99,99, потому что у них на самом деле нет таких потребностей.

Для подобного роста затрат нужна веская причина, и клиенты, бизнесу которых каждая минута простоя действительно приносит значительные убытки, как правило используют облачные сервисы по модели “частного” облака с персонализированным решением по доступности. И даже в этом случае уровень доступности 100% не может считаться гарантированным.

Однако рынок диктует свои правила, порой вынуждая сервис-провайдеров заявлять уровни SLA, сравнимые с конкурентами. Ведь если при прочих равных один поставщик обещает уровень доступности 99,98% (<9 минут/мес.), а другой - 99,95 (<23 минут/мес.), то кажется логичным выбрать предложение первого провайдера. При этом уровень мероприятий, направленных на обеспечение доступности у обоих провайдеров, может быть абсолютно одинаковым – отличается только текущее восприятие собственных возможностей и рисков в головах инженеров и менеджеров.

За 15 лет нам в ActiveCloud приходилось сталкиваться с некоторыми, казалось бы совершенно невозможными случаями: одновременный выход двух коммутаторов в стеке, одновременный выход из строя двух дисков в RAID1-группе, полное обесточивание серверной стойки в ЦОД, несмотря на наличие двух независимых лучей питания - абсолютно отказоустойчивых систем не бывает.

Другими словами, стоит критически воспринимать обещания провайдеров, гарантирующих соблюдение в публичном облаке трудно достижимых на практике уровней доступности, близких к 100%. Неверная оценка поставщиком своих рисков приводит к неверной оценке собственных рисков его клиентами.

Отсутствие открытости

Все заказчики хотят, чтобы инфраструктура провайдера работала без сбоев, а если вдруг что-то сломается – чтобы поломку максимально быстро нашли и устранили, своевременно информируя о сроках восстановления. Причем важность быстрого и оперативного информирования в аварийных ситуациях нельзя недооценивать, поскольку зачастую для пострадавшего клиента непонимание того, что происходит внутри провайдера, страшнее самого факта простоя.

Именно поэтому у многих поставщиков в процессы эксплуатации инфраструктуры и технической поддержки клиентов встроены процедуры активного уведомления заказчиков как о плановых, так и о внеплановых работах через SMS-рассылки, каналы в популярных мессенджерах или хотя бы электронную почту. Хорошо, если применяемые для оповещения инструменты позволяют в том числе просмотреть историю работ, оценить реальные сроки устранения неисправностей и информативность оповещений. Наличие такого функционала демонстрирует открытость провайдера в сторону клиентов и с большой долей вероятности свидетельствует о качественно выстроенных процессах обнаружения и устранения неисправностей в целом.

Несущественные штрафные санкции

Косвенно обоснованность SLA сервис-провайдера можно оценить по заявляемому им размеру компенсаций в случае нарушения обещанного уровня доступности, потому что эти два показателя находятся в противофазе. Если уровень доступности поставщику хочется завысить, чтобы лучше выглядеть в глазах потенциального заказчика на конкурентном поле, то размер штрафных санкций наоборот велик соблазн свести к минимуму и спрятать на дальней странице соглашения об уровне сервиса.

Поэтому на российском рынке информационных сервисов нередко можно встретить компенсации вида 1/720 ежемесячной цены контракта за каждый час недоступности услуг сверх оговоренного в договоре уровня. Очевидно, такие условия нельзя считать штрафными санкциями – это просто здравый взгляд на вещи. Например, для Заказчика с ежемесячным потреблением облачных услуг на сумму 50 000 руб. при 4-х часовом простое компенсация с SLA=99,98% составит около 268 руб., а при SLA=99,9% - около 228 руб., что вряд ли будет соразмерно урону, полученному бизнесом клиента. Подобный уровень компенсаций вряд ли способен мотивировать поставщика всерьез заботиться о высоком уровне доступности своего сервиса, ведь в случае серьезной поломки весомость потерянной провайдером суммы практически не будет зависеть ни от заявленного уровня доступности, ни от скорости устранения причин аварии.

Поэтому всегда имеет смысл обращать внимание на предполагаемый размер компенсаций и его корреляцию с обещанным уровнем доступности. К примеру, на российском рынке можно встретить поставщиков, обещающих компенсацию около 50% ежемесячной цены контракта при 10-кратном превышении провайдером заявленного SLA по доступности. Таким образом, для услуги с SLA=99,9% вы смогли бы наложить подобный штраф при простое немногим более 7 часов, а для услуги с SLA=99,98% для этого потребовалось бы всего полтора часа даунтайма.

Конечно, штрафная система может быть организована и по-другому, однако она вряд ли будет эффективно работать на практике без соблюдения принципов весомости размера компенсации и зависимости строгости применения штрафов от обещанного уровня доступности. Подобные системы наказаний за нарушение оговоренного уровня доступности побуждают сервис-провайдеров трезво оценивать свои риски, избегать необоснованного завышения SLA, а также критично относиться как к мерам, обеспечивающим стабильность инфраструктуры, так и процессам оперативного реагирования на сбои и восстановления работоспособности предоставляемых сервисов.

Проверяем то, что проще проверить

Перечисленные выше красные флаги определенно стоят того, чтобы включить их в чек-лист при выборе поставщика облачных услуг наряду с традиционным опытом работы на рынке, репутацией, спектром предлагаемых услуг и другими важными для вас факторами. Поскольку таким нехитрым способом вы сможете буквально не выходя из дома оценить, имеет ли смысл всерьез рассматривать того или иного поставщика для решения вашей задачи, вести переговоры с его представителями, осматривать датацентры, глубоко прорабатывать нестандартные требования и совершать прочие затратные по времени действия.

22
Начать дискуссию