5 главных трендов в хранении данных

Прогноз на 2021 год от Seagate Technology

Мысль о том, что жизнь постоянно ускоряется, а с ней и информация всё быстрее обесценивается, можно прочитать в разных подборках каждый год. Компании хотят «быстрее, выше, сильнее» и в стремлении обогнать конкурентов, показать лучшую производительность, часто не оглядываются назад. Мы создаем решения для работы с данными, рассчитанные на долгосрочное применение, и видим, как архивная информация сейчас становится золотым фондом для компаний. На них учат искусственный интеллект лучше ориентироваться в отрасли и точнее строить прогнозы, их защищают и шифруют, дольше хранят и упрощают к ним доступ для новых программ и приложений.

В этой подборке все тренды так или иначе связаны с использованием не только новой, но и накопленной информации. И эти тренды не просто на отдельно взятый 2021 год, а вполне себе «долгосрочного применения».

Сегодня многие компании сотрудничают в форме программных экосистем. Это форма взаимодействия нескольких предприятий, которые действуют как единое целое при работе над продуктом и при общении с общим рынком программного обеспечения и услуг.

Для отдельной компании — это возможность создавать свои решения и обрабатывать большие массивы информации, не имея достаточных вычислительных мощностей или специализированных сотрудников. Также можно использовать преимущества коллокации, когда оборудование компании размещается в другом регионе или даже стране с более дешевой электроэнергией и стоимостью работы людей.

Но есть и большой минус: внутренней информацией компании приходится делиться с внешними партнерами и подрядчиками, что открывает вопрос безопасности. Часто это пользовательские данные, которые ни при каких условиях не должны попадать куда-либо вовне. Когда программная экосистема разрастается до огромных масштабов, контролировать каждого контрагента становится сложно.

Решение проблемы защиты информации при совместном использовании ресурсов — системы безопасности с шифрованием неактивных данных. С каждым годом этой теме будет уделяться всё большее значение не только на уровне компаний, но и в государственном регулировании. Чем дальше, тем больше отраслей будут затрагивать требования об обязательном шифровании информации.

Когда подобные требования вводят для целых отраслей, как мы это видели неоднократно, спрос на накопители с аппаратным шифрованием многократно возрастает. Предложение первое время не успевает за перегретым спросом, взлетает стоимость обязательного для компаний оборудования. Чтобы избежать лишних трат или приостановки работы в будущем, есть смысл задуматься о переходе на накопители с шифрованием, пока на рынке нет дефицита на такое оборудование.

Немного матчасти. Существуют три типа хранилищ: блочные, файловые и объектные:

Блочные хранилища. В них файлы разбиваются на «кусочки» одного размера, каждому присваивается адрес. Такой формат хорош для критически важных приложений, потому что обеспечивает повышенную производительность. Блочные хранилища используют для виртуализации и баз данных. Минус — высокая стоимость и ограниченный объем метаданных.
Файловые хранилища имеют иерархическую структуру, в которой есть файлы и папки. Такие хранилища дешевле блочных, но подходят только для обработки небольших массивов данных, так что используются чаще для старых приложений. Ведь чем больше файлов и папок, тем длиннее путь, и медленнее скорость. Это не вариант для дата-центров и всего, где есть искусственный интеллект.
Объектные хранилища не используют иерархическую структуру. Вместо неё здесь плоская организация хранения, где каждому новому файлу присваивается свой уникальный адрес (идентификатор). Поэтому приложение напрямую обращается к нужным данным, находя их по идентификатору, а не продирается сквозь длинный ветвистый путь. Объектные хранилища легко масштабируются и при этом не теряют в скорости, что сделало их отраслевым стандартом для современных приложений, баз данных и дата-центров.

Сегодня мы создаем больше данных за час, чем двадцать лет назад создавали за целый год.
Дейв Мосли

По мере обновления приложений и увеличения числа обрабатываемых данных файловые хранилища вытисняются объектными. Нынешние выпускники-программисты выстраивают рабочие процессы с расчетом на использование интерфейсов объектного хранения. За таким типом хранения данных будущее, поэтому лучше переводить свои компании к этому стандарту и забирать с рынка труда специалистов, работающих с объектными хранилищами. Сейчас самое время.

Ещё 10 лет назад 98% предприятий использовали в своей работе программное обеспечение с открытым кодом. Даже те, кто раньше выступал против этого и считал использование такого подхода угрозой самой идее интеллектуальной собственности (мы про Microsoft), сегодня присоединился к мейнстриму. За открытым кодом — будущее разработки приложений, поскольку многие компании из разных отраслей могут объединяться и использовать наработки друг друга для создания своих узкоспециализированных решений, не занимаясь изобретением велосипеда там, где уже построен спорткар.

Программное обеспечение с открытым кодом работает и для эффективного использования ресурсов оборудования компании. В центре этой тенденции система Kubernetes, которая предназначена для автоматизации развертывания, масштабирования контейнированных приложений и управления ими.

Что значит «контейнированные приложения» и вообще контейнеры? Сегодня это наиболее эффективный способ использования ресурсов сервера компании, к которому пришли через три этапа:

Традиционное развертывание. Когда организации запускали на своих физических серверах несколько приложений сразу, одно из них часто забирало большую часть ресурсов «железа». Оно работало хорошо, а вот другие от такого распределения страдали. Да и данные между ними не изолировались, что не очень хорошо с точки зрения безопасности. Чтобы решить проблему приходилось запускать каждое приложение на своём сервере. Ресурсы каждого сервера использовались неэффективно, а поддерживать их было довольно накладно.
Виртуальное развертывание, когда контейнеры были похожи на отдельные виртуальные машины, но размещались физически на одном сервере. У каждой такой «машины» — своя операционная система и все присущие ей атрибуты. Решение позволяло эффективнее использовать ресурсы и обеспечивать базовые потребности в безопасности, но из-за надстроек над каждой виртуальной машиной всё это было достаточно тяжелым и недостаточно гибким в оперативном управлении.
Контейнирование похоже на использование виртуальных машин, с той лишь разницей, что всеми контейнерами используется одна общая операционная система, поэтому контейнеры получаются лёгкими и более гибкими. Поскольку они не связаны с базовой инфраструктурой, их можно переносить между облаками, проще внедрять и перераспределять ресурсы. В автоматическом управлении контейнерами как раз помогает система Kubernetes. Такой способ развертывания приложений сегодня наиболее популярен для центров обработки информаций.

В идеальном мире, где наши ресурсы безграничны, было бы логично перевести все данные на флеш-накопители с высокой производительностью. Но в реальной жизни это решение слишком затратно. Обратный вариант — желание сэкономить и использовать только жёсткие диски, которые довольно медлительны и ограничат скорость работы приложений.

Оптимальное решение с точки зрения производительности и затрат на оборудование находится посредине, в области уровней хранения данных. Часто используемую информацию и приложения логично расположить на флеш-накопителях, а лежащие практически мертвым грузом базы необработанных данных — на жёстких дисках. Тем более что большая часть такой информации пока не может быть полезна. Но это только пока.

Преимущество использования уровней для хранения данных усиливает современное программное обеспечение, которое сегодня в состоянии эффективно определять «горячие» и «холодные» данные и автоматически переносить их на соответствующий уровень в иерархии.

В Seagate ожидают, что к 2025 году 44% всех данных, созданных в центре и на периферии, будет использоваться для аналитики, искусственного интеллекта и глубокого обучения, а данные с растущего числа умных устройств будут передаваться на периферию корпоративной сети. Эта цифра всё ещё далека от идеальных 100%, но лучше обозначенных в предыдущем пункте 32%.

Сегодня мы видим, как объем накопления новых данных всё ещё превышает количество обрабатываемой информации, но эти два графика скоро сравняются, а искусственный интеллект позволит старые данные эффективно использовать для построения прогностических моделей на будущее. Пригодятся эти массивы данных и для обучения ИИ.

Руководителям предприятий нужно быть готовыми к следующему:

«Срок годности» старых данных за счет использования искусственного интеллекта увеличивается, значит их нужно будет где-то хранить — вырастут размеры архивов.
Увеличится количество получаемой с периферии информации за счет использования умных устройств — размеры архивов вырастут ещё сильнее.

Для таких данных «до востребования» можно использовать недорогие диски большого объема без каких-то требований к производительности. Поскольку до конца неясно, какие из сегодня сохраняемых данных будут полезны для обучения новых систем искусственного интеллекта в дальнейшем, сохранять желательно всю доступную информацию для обеспечения в будущем лучших учебных выборок.

#seagate #данные #тренды2021

5 главных трендов в хранении данных

Накопители с шифрованием данных

Объектные хранилища данных становятся стандартом

Программы на открытом коде управляют контейнерами

Использование уровней хранения данных

Искусственный интеллект повысит значимость старых данных