Как сделать IT-инфраструктуру готовой к любым форс-мажорам

Главные правила, которые помогут сделать инфраструктуру надёжнее.

В СМИ постоянно появляются сообщения об очередных кибератаках, сливах данных, масштабных сбоях. Количество угроз для веб-ресурсов постоянно растёт. При этом пользователи становятся требовательнее к скорости работы сервисов. И если ресурсы компании недоступны (да ещё и надолго), это влечёт за собой и финансовые потери, и огромные репутационные риски.

Как построить безопасную и надёжную инфраструктуру, которой не страшны никакие атаки и сбои, – очень обширная тема. И в одной статье мы не сможем охватить её целиком. В этом материале поделимся самыми главными правилами, которых должен придерживаться любой онлайн-бизнес.

Содержание:

Готовность к высоким нагрузкам
Стресс-тестирование
Дополнительные вычислительные мощности
Балансировщики нагрузки
Сеть доставки контента (CDN)
Профессиональный DNS-хостинг
Защита от кибератак
Защита приложений и инфраструктуры от DDoS-атак
Защита от ботов
WAF
Сохранность данных и непрерывность бизнеса
Резервное копирование
Снапшоты
Подведём итоги

Представьте, вы запланировали масштабную акцию в Чёрную пятницу. Провели рекламную кампанию, подготовили сайт и рассчитываете на большую прибыль. Но в день начала распродажи ваш ресурс внезапно становится недоступен. Пользователи уходят к конкурентам, а бизнес теряет потенциальную прибыль.

Почему так произошло? Возможно, это была DDoS-атака, организованная конкурентами. Но довольно часто ресурсы во время подобных событий «ложатся» не из-за хакеров, а из-за того, что инфраструктура оказалась не готова к таким высоким нагрузкам и не выдержала наплыва легитимного трафика.

Давайте разбираться, что поможет этого избежать.

Для начала нужно проверить, к каким нагрузкам готова инфраструктура. Для этого производится стресс-тест.

Что он позволяет понять:

Какую максимальную нагрузку системы способны выдержать.
Как сервисы работают в условиях экстремально высокой нагрузки.
Насколько устойчивы ресурсы к разным типам атак.
Какие узкие места есть в системах.

Стресс-тест может показать, что системы способны выдержать меньшее количество трафика, чем ожидается, и выявить слабые места в инфраструктуре.

Провести такое тестирование можно с помощью разных инструментов или заказать у нас.

Итак, мы проверили инфраструктуру на готовность к большим нагрузкам и выявили слабые места. Теперь нужно понять, как увеличить отказоустойчивость инфраструктуры.

Одна из причин, почему инфраструктура может не справляться с нагрузками — недостаточно вычислительных мощностей. Ресурсов ваших серверов может не хватать для того, чтобы обработать большие объёмы трафика. Самый очевидный совет в этом случае — переходить на более мощные конфигурации.

Но если высокая нагрузка на ваши ресурсы — это временная ситуация, которая происходит, например, во время распродаж, в остальное время ваши дополнительные мощные серверы будут простаивать. А это лишние расходы.

В таких ситуациях лучше использовать облачную инфраструктуру. Вы можете подключить дополнительные виртуальные машины в облаке буквально за несколько кликов, а когда пиковая нагрузка спадёт, их можно будет так же быстро отключить. При этом большинство облачных провайдеров (в том числе и EdgeЦентр) используют модель PAYG — поминутная оплата только за фактически используемые ресурсы.

Таким образом, в облаке вы не переплачиваете за простои.

Кроме этого, мы советуем проверить, где хранятся данные. Если важна высокая скорость их отдачи, лучше использовать S3-хранилище.

Может быть так, что вычислительных мощностей у вас достаточно. Но вся нагрузка приходится на один сервер, а остальные простаивают.

В этой ситуации поможет балансировщик нагрузки.

Они бывают разных видов. Мы в EdgeЦентр, например, предоставляем 2 типа балансировщиков:

1. На уровне приложений L7 (HTTP/HTTPS). Поддерживает маршрутизацию на основе URL-путей. Запросы могут перенаправляться на 1 или несколько портов каждого сервера в кластере. Балансировка определяется содержанием сообщений.

Такой балансировщик необходим, когда критичен вид контента: например, если нужно направить пользователей на правильную языковую версию или тип ресурса.

2. На сетевом и транспортном уровне L3, L4 (TCP/UDP). Может обрабатывать тысячи запросов в секунду. Не считывает содержимое и более эффективен для простой балансировки на уровне пакетов, быстрой и безопасной передачи сообщений.

CDN — это множество распределённых серверов, которые кешируют контент с источника и доставляют пользователям кратчайшим маршрутом.

Основная функция CDN — ускорять ресурсы и делать их более отказоустойчивыми.

При использовании CDN запросы пользователей идут не к серверу-источнику, а к кеширующим CDN-серверам. Таким образом, нагрузка на источник резко снижается.

А при пиковых нагрузках трафик равномерно распределяется между узлами. Это позволяет сети обрабатывать терабайты трафика.

Например, общая ёмкость нашей CDN — 110+ Тбит/с (включая ресурсы партнёрских сетей). И она отлично справляется с самыми высокими нагрузками.

Еще один инструмент, который поможет вам избежать проблем с нагрузками — надёжный и быстрый DNS-хостинг.

Он позволяет разместить информацию о ваших доменах на DNS-серверах. Чем больше у хостинга этих серверов и чем ближе они расположены к вашим пользователям, тем выше будет скорость и отказоустойчивость ваших ресурсов.

Например, DNS-хостинг EdgeЦентр использует балансировку Anycast. Запросы к DNS распределяются по серверам и отправляются кратчайшим маршрутом. А если один из серверов выйдет из строя, ваш ресурс останется доступным.

Кроме этого, у нашего DNS-хостинга есть функция DNS Failover. Она проверяет доступность вашего сайта или сервера. Если система обнаружит неработающий IP-адрес, она выведет его из ответов DNS. Таким образом, ваш ресурс останется доступен при сбоях.

<p><i> Без использования DNS Failover</i></p>

<p><i> С использованием DNS Failover</i></p>

Любые ресурсы могут быть уязвимы к кибератакам.

Это могут быть DDoS-атаки, организованные недобросовестными конкурентами, взломы с целью украсть персональные данные или вредоносные боты, которые собирают данные в пользу конкурентов, замедляют сайт и искажают аналитику.

Количество киберпреступлений растет с каждым годом. Только по итогам первого полугодия 2022 года число кибератак в России выросло в 15 раз.

Отчет о стоимости услуг DDoS-атак в Dark Web от сервиса Privacy Affairs privacyaffairs.com показывает, что в сравнении с прошлым годом эти атаки стали для злоумышленников еще дешевле.

Рассказываем, какие инструменты защиты можно использовать для разных типов угроз.

Сейчас большинство DDoS-атак сложные: злоумышленники одновременно используют разные методы, чтобы «положить» сервер. Но глобально все атаки можно разделить на три типа:

Volumetric-атаки (объёмные атаки или флуд). Направляют на сервер большое количество сообщений.;
Protocol-атаки используют уязвимости сетевых протоколов и могут вывести ресурс из строя точечными действиями.;
Application-атаки — на уровне приложения, которые направлены непосредственно на веб-сервис.;

Наилучшую защиту от DDoS-атак обеспечивает комплексный подход:

Защита работает на всех уровнях модели OSI.
Трафик проходит через центры фильтрации, которые анализируют каждый запрос и блокируют вредоносные.
Все запросы анализируются с помощью комплекса методов: технического, поведенческого, сигнатурного и статистического анализа.

Такой подход позволяет останавливать любые DDoS-атаки. А доступ к вашим ресурсам получают только настоящие пользователи.

Боты могут серьёзно навредить вашему бизнесу:

Парсить данные в пользу конкурентов
Искажать аналитику на ваших ресурсах
Взламывать аккаунты пользователей
Скликивать платную рекламу
Мешать пользователям делать покупки (например, добавив все товары в корзину)

Чтобы эффективно защититься от них, нужны современные решения, которые умеют распознавать и блокировать ботов без капчи и редиректов.

Приведём для примера, как работает наша защита от ботов:

С помощью комплексного анализа трафика определяет ботов с первого запроса.
Производит блокировку по сессиям, а не по IP-адресам.
Поддерживает белые и чёрные списки IP-адресов.

В основе нашего решения лежат алгоритмы машинного обучения. Это позволяет нам определять ботов с точностью 99,99%, работать на опережение и блокировать даже неизвестные ранее атаки.

WAF (Web Application Firewall) — защитный экран для веб-приложений от взлома. Он не позволяет злоумышленникам находить уязвимости в сервисах и использовать их.

Многие межсетевые экраны работают достаточно грубо — тотально блокируют порты, адреса и протоколы, чтобы остановить вредоносный трафик. Из-за этого под раздачу могут попасть важные легитимные сервисы.

Чтобы избежать таких ситуаций, мы советуем использовать более современные файрволы, которые умеют анализировать содержимое пакетов.

Есть экраны, которые используют алгоритмы машинного обучения. Они могут точно определять вредоносный трафик и блокировать неизвестные ранее атаки. При этом у них очень низкий коэффициент ложных срабатываний.

Так, например, работает наш WAF. Коэффициент ложных срабатываний у него не больше 0,01%. При этом он умеет не только блокировать попытки атак, но и находить уязвимости в коде и давать рекомендации по их устранению.

Даже если вы смогли защититься от кибератак, могут возникнуть и другие непредвиденные обстоятельства. Отключение электроэнергии, сбои на магистральных сетях провайдеров и многое другое — все эти события невозможно предсказать, поэтому нужно быть к ним готовыми. А значит, должна быть настроена надежная система резервного копирования данных.

Расскажем о ключевых параметрах, рассчитываемых при планировании и настройке системы бэкапов.

Чтобы в случае сбоя данные можно было легко восстановить, обязательно нужны бэкапы.

Здесь очень важно составить план аварийного восстановления (ещё его называют BCDR — план обеспечения непрерывности бизнеса). Для каждой компании правила составления этого плана будут индивидуальны. Всё зависит от специфики вашего проекта.

Два важных параметра, которые обязательно нужно учесть, — целевая точка восстановления (recovery point objective, RPO) и целевое время восстановления (recovery time objective, RTO).

RPO определяет, какие максимальные потери данных (в единицах времени) допустимы. Грубо говоря, он отвечает на вопрос, когда должно быть последнее сохранение, через какие промежутки времени делаются бэкапы;
RTO определяет время простоя и показывает, сколько времени займет восстановление работы с момента аварии.

Кроме этого важно определить, что именно будет копироваться. Какие данные обязательно нужно сохранить, а что не так страшно потерять.

А ещё понять, где эти бэкапы будут храниться. Разумнее всего их будет хранить отдельно от основных данных, в надёжном хранилище, расположенном в дата-центре не ниже уровня Tier III.

Снапшот — это снимок состояния всей системы целиком. Если в качестве бэкапа вы можете сохранить какую-то важную информацию, то снапшот фиксирует полную конфигурацию всего сервера: ОС, все файлы и их расположение.

От бэкапов прежде всего они отличаются целью. Бэкапы создаются, чтобы данные можно было восстановить в случае потери. А снапшоты позволяют быстро откатиться к предыдущему состоянию системы, если что-то пошло не так.

Снапшоты делают перед обновлениями или любыми изменениями в сервисах.

Некоторые облачные провайдеры (в том числе и EdgeЦент) предлагают снапшоты по расписанию. Это удобно — если какое-то изменение в системе неожиданно вызовет сбой, у вас всегда будет версия, к которой можно откатиться.

Как сделать инфраструктуру и сервисы готовыми к любым форс-мажора:

1. Проверьте, насколько ваша система готова к высоким нагрузкам.

2. Чтобы сделать сервисы более отказоустойчивыми, размещайте их на мощных серверах, используйте балансировщики, чтобы грамотно распределять нагрузку. А ещё можно подключить CDN.

3. Позаботьтесь о защите системы от кибератак. Очень важно обеспечить комплексную защиту от DDoS-атак на всех уровнях модели OSI, а ещё использовать защиту от ботов и современный WAF от взломов.

4. Обязательно составьте план аварийного восстановления. Продумайте, как часто нужно делать бэкапы, что сохранять и где хранить. А для быстрого отката системы к исходному состоянию можно использовать снапшоты.

Построить действительно надёжную и отказоустойчивую инфраструктуру — сложная задача. Но вы можете доверить её профессионалам. Все сервисы, которые мы упоминали в этой статье, вы можете заказать у единого провайдера. EdgeЦентр готов закрыть все ваши потребности, связанные с инфраструктурой. А вы сможете сосредоточиться на развитии ваших проектов.

Подробнее о наших сервисах

Как сделать IT-инфраструктуру готовой к любым форс-мажорам

Готовность к высоким нагрузкам

Стресс-тестирование

Дополнительные вычислительные мощности

Балансировщики нагрузки

Сеть доставки контента (CDN)

Профессиональный DNS-хостинг

Защита от кибератак

Защита приложений и инфраструктуры от DDoS-атак

Защита от ботов

WAF

Сохранность данных и непрерывность бизнеса

Резервное копирование

Снапшоты

Подведём итоги