Чек-лист для облака: что нужно знать про ЦОД вашей платформы

Полезный рассказ о том, почему так важно знать, где «живет» ваше облако, и на какие параметры ЦОД стоит обращать внимание. Внутри красивая 360-градусная экскурсия по одному из дата-центров Yandex.Cloud.

Экскурсия 360˚по дата-центру Яндекса во Владимирской области

Компании и люди по всему миру каждый день генерируют терабайты данных, которые как минимум нужно хранить, а как максимум — обрабатывать и анализировать. Для этого по всему миру строятся дата-центры — огромные, специально спроектированные, сложные инженерные сооружение, которые способны обеспечивать непрерывную работу мощных серверов.

Облака Yandex.Cloud, как и другие сервисы Яндекса, «живут» в дата-центрах. Надежность облачной платформы зависит в том числе от надежности самого дата-центра. Георгий Гургенидзе, технический руководитель ЦОД «Владимир» Яндекса, рассказал о том, на какие особенности ЦОД нужно обратить внимание при выборе облака.

Главный показатель любого дата-центра — его доступность. Опираясь на эту концепцию, в мире используется международный стандарт TIA-942 и система классификации института Uptime. Согласно нему, все ЦОД характеризуется уровнем Tier и оцениваются по 4-балльной системе:

Tier 1 — начальный уровень. В таких ЦОД нет запасных ресурсов и резервирования критически важных элементов. Допустимое время простоя в год — 28,8 часа, и, соответственно, показатель доступности и устойчивости к отказам в процентном соотношении — 99,671%. Выход из строя любой системы приводит к остановке и нарушениям работы всего дата-центра.
Tier 2 — закладывается резервирование и запасные ресурсы. Устанавливаются современные системы охлаждения и энергосбережения. Ежегодный простой — 22 часа, доступность — 99,7%. При замене неисправного оборудования или во время плановых работ полностью или частично останавливается работа ЦОД.
Tier 3 — можно ремонтировать и обновлять дата-центр без остановки и прекращения работы. В течение одного года простой ЦОД третьего уровня составляет всего 1,6 часа, а устойчивость к отказу — 99,9%.
Tier 4 — сохранность данных и бесперебойная работа даже при поломке конкретного элемента и при возникновении системных сбоев. Полное резервирование всех компонентов. В течение 12 месяцев ЦОД четвёртого уровня может останавливаться только на 0,4 часа, а уровень устойчивости к отказам таких объектов составляет практически 100 процентов.

Организация надежного и стабильного дата-центра для коммерческих целей — это достаточно дорогое предприятие, и владельцы ЦОД ищут пути инвестировать не более того, что нужно для минимального соответствия требованиям заказчика. Именно поэтому появились несколько категорий, отличающих надежные дата-центры от не очень надежных. В тематических журналах даже можно найти оценки, во сколько обходится строительство ЦОДа того или иного Tier в долларах за МВт. Таким образом, оценка по Tier чаще используется в коммерческих расчетах.

Лучше выбирать дата-центр по тому, как его строят и эксплуатируют, как выстраивают в нем процессы, потому что даже самый дорогой ЦОД можно «убить» неграмотной эксплуатацией. Именно эксплуатация — залог отказоустойчивости дата-центра.

Качественное железо, уникальные сервисы — всё это может пропасть в один момент, если правильно не спроектировать бесперебойное электроснабжение. Дата-центр может быть автономной структурой, но он всегда подключен к внешней электрической сети, а значит, не застрахован от форс мажоров. Однако, в зависимости от типа подключений и возраста оборудования можно достаточно достоверно прогнозировать частоту проблем с электропитанием. Поэтому наш подход — подключение по линиям высокого напряжения (110 кВ и выше) непосредственно к сетям национальных операторов со строительством собственных кабельных линий и подстанций.

Чек-лист для облака: что нужно знать про ЦОД вашей платформы

Мы решили попробовать напряжение классом выше, когда дата-центры начали расти. Первый эксперимент мы поставили в Финляндии, позже реализовали опыт во Владимире.При строительстве ЦОДа в Финляндии мы запросили реальные данные по отключениям и авариям. Местная обслуживающая компания предоставила нам статистику за последние десять лет. Что мы выяснили: на линиях высокого напряжения продолжительные отказы случаются крайне редко (раз в десятилетие), гораздо чаще случаются отказы меньше 0,5 секунды. Эти данные помогли нам определиться с видом источника бесперебойного питания и общей схемой электроснабжения.

Бесперебойность электропитания обычно обеспечивает классической схемой — комплексом «ИБП + дизель-генераторная установка (ДГУ)». Это классическая и отработанная годами схема работы для обеспечения бесперебойного питания в дата-центров. Она имеет массу плюсов — относительная простота, высокая надежность, практически неограниченное время работы на дизелях. Но и свои минусы: как технические — необходимы достаточно большие площади для размещения оборудования, которые нужно обязательно оборудовать системами поддержания заданных климатических параметров, так и финансовые — при больших мощностях это решение получается достаточно дорогим.

В настоящее время Яндекс использует технологию ДИБП — Динамических Источников Бесперебойного Питания. Динамический ИБП запасает не химическую энергию в аккумуляторных батареях, а накапливает кинетическую в виде вращающейся массы, как волчок. В некоторых случаях, когда требуется большое время автономии, такие машины не подходят, а для нас они идеальны. С одной стороны, не занимают много места, а с другой, запасают достаточно энергии, чтобы обеспечить компенсацию кратковременных перебоев в питающей сети или перейти на резервный источник питания.

Одна из важнейших задач любого ЦОД — отвод тепла от стоек. Однако мы не называем это «охлаждением».Традиционная схема охлаждения дата-центров подразумевает достаточно сложную систему.

Иногда операторы ЦОД говорят, что используют фрикулинг, но посмотрите на реализацию, что мы имеем по факту. В ней появляются дополнительные теплообменники, трубопроводы, запорная арматура и так далее. Делается это для того, чтобы экономить потребляемые ресурсы для владельца ЦОД, но к сожалению, это приводит к удорожанию строительства и эксплуатации.

Для конечного потребителя разница в работе с традиционной системой охлаждения и подобной формой фрикулинга есть — надежность ЦОД с увеличением количества единиц оборудования на самом деле снижается.

Для нас важно в первую очередь важно снабдить стойки достаточным количеством воздуха. Это концепция фрикулинга в самом прямом смысле этого слова.Она заключается в том, что разработанное серверное оборудование способно работать при достаточно высоких температурах входящего воздуха. Поэтому охлаждать серверные стойки можно самым обычным уличным воздухом и зимой, и летом.

В нашей концепции мы забираем уличный воздух, фильтруем его и подаем в “холодный коридор”, к стойкам. Серверы в стойках забирают из холодного коридора необходимое им количество воздуха (когда холодно меньше, когда жарко - больше) и выбрасывают нагретый ими воздух в “горячий коридор” отсюда горячий воздух удаляется при помощи вытяжных вентиляторов. Когда на улице холодает (температура ниже +20 градусов цельсия) часть горячего воздуха забирается на приток для подогрева. Таким образом температура в серверной всегда +20 и выше.

Главное достоинство такой системы — сравнительно низкое потребление энергии, которая нужна только для работы вентиляторов, и простота — здесь нет громоздкого и сложного холодильного оборудования, которое может сломаться и нарушить стабильность работы.

Говорят, что при нашей концепции фрикулинга мы не можем контролировать влажность — это так. Не контролируя влажность, увеличиваются риски отказов ИТ-оборудования из-за статического электричества и возможности образования конденсата. Однако за всю историю эксплуатации у нас не было зафиксировано ни одного случая, когда статическое электричество вывело бы из строя оборудование.

Что же касается конденсата, то давайте рассмотрим механизм его появления. Влага выпадает на поверхности холодного предмета, когда он помещается в теплый влажный воздух. Если проследить путь воздуха с улицы через конструкции воздуховодов, сервера и снова наружу — таких мест в ЦОД просто нет. Поэтому, хотя мы и делаем гидроизоляцию пространств с возможностью выделения влаги — там всегда сухо.

Мы построили и используем три основных дата-центра: Сасово, Владимир и Мытищи, соединённых между собой оптической кабельной сетью с очень высокой пропускной способностью — несколько терабит в секунду. Они образуют распределенную систему, которая позволяет балансировать нагрузку и резервировать не только отдельные инженерные системы на уровне каждого ЦОД, но и сами ЦОД.

Мы не только строим свои дата-центры, но создаем свои инструменты эксплуатации для эффективной работы. Мы провели анализ рынка и пришли к выводу, что почти ни одна система не обеспечивает точное решение наших задач.

Они либо трудны в настройке и доработке, либо не обеспечивают выполнения наших требований.

Какие инструменты собственного производства мы используем:

светофор событий
база данных для исторического анализа оборудования
план-график и журнал ТО и прочих работ (cmms)
инструмент анализа загрузки мощностей

Все эти инструменты агрегированы между собой и работают в плотной связке. Данные не дублируются а дополняют друг друга. Они написаны по техническому заданию службы эксплуатации ЦОД, а потому содержат в себе только необходимую и достаточную информацию, не перегружая людей данными. При необходимости, любое пожелание по доработке реализуется в короткие сроки. И техподдержка всегда рядом.

Благодаря использованию указанного ПО мы автоматизировали большую часть процессов в ЦОД, что помогает нам каждый день добиваться максимально качественного выполнения нашей задачи - безотказной работы ЦОД.

В создании надежного облачного решения важную роль играет не только дата-центр, но и серверное оборудование, сетевая инфраструктура и, собственно, архитектура облачных приложений;
Лучше выбирать дата-центр не по Tier, а по тому, как его строят и эксплуатируют, и как выстраивают в нем процессы;
Обращайте внимание, какой ИБП использует дата-центр. Именно от него зависит бесперебойность электросети;
Помните, что важен не только термин "фрикулинг", а то, как его реализовали. Проследите, не получилось ли так, что правильную идею, призванную сберечь ваши ресурсы, при реализации превратили во что-то ненадежное и чрезмерно дорогое в угоду маркетингу и красивым словам;
Не менее важно учитывать, сколько дата-центров обслуживает облако, и как оно умеет поддерживать уровень сервиса при отключении одного или нескольких из них.

Подписывайтесь на блог Яндекс.Облака, чтобы узнавать еще больше новостей и историй об IT и бизнесе.

Другие истории нашей команды, которые активно читают подписчики:

#яндексоблако #облачныетехнологии #дата_центры #технологии #облака

Чек-лист для облака: что нужно знать про ЦОД вашей платформы

Tier 1, Tier 2, Tier 3, Tier 4: так ли важен сертификат?

Как дата-центры избегают проблемы с электропитанием: наш опыт

Почему важно обращать внимание на источник бесперебойного питания?

Почему в дата-центрах важно количество воздуха?

Нельзя контролировать влажность из-за фрикулинга?

Зачем мы создаем собственные дата-центры и инструменты для эксплуатации?

Подытожим: