5 главных трендов в хранении данных
Прогноз на 2021 год от Seagate Technology
Мысль о том, что жизнь постоянно ускоряется, а с ней и информация всё быстрее обесценивается, можно прочитать в разных подборках каждый год. Компании хотят «быстрее, выше, сильнее» и в стремлении обогнать конкурентов, показать лучшую производительность, часто не оглядываются назад. Мы создаем решения для работы с данными, рассчитанные на долгосрочное применение, и видим, как архивная информация сейчас становится золотым фондом для компаний. На них учат искусственный интеллект лучше ориентироваться в отрасли и точнее строить прогнозы, их защищают и шифруют, дольше хранят и упрощают к ним доступ для новых программ и приложений.
В этой подборке все тренды так или иначе связаны с использованием не только новой, но и накопленной информации. И эти тренды не просто на отдельно взятый 2021 год, а вполне себе «долгосрочного применения».
Накопители с шифрованием данных
Сегодня многие компании сотрудничают в форме программных экосистем. Это форма взаимодействия нескольких предприятий, которые действуют как единое целое при работе над продуктом и при общении с общим рынком программного обеспечения и услуг.
Для отдельной компании — это возможность создавать свои решения и обрабатывать большие массивы информации, не имея достаточных вычислительных мощностей или специализированных сотрудников. Также можно использовать преимущества коллокации, когда оборудование компании размещается в другом регионе или даже стране с более дешевой электроэнергией и стоимостью работы людей.
Но есть и большой минус: внутренней информацией компании приходится делиться с внешними партнерами и подрядчиками, что открывает вопрос безопасности. Часто это пользовательские данные, которые ни при каких условиях не должны попадать куда-либо вовне. Когда программная экосистема разрастается до огромных масштабов, контролировать каждого контрагента становится сложно.
Решение проблемы защиты информации при совместном использовании ресурсов — системы безопасности с шифрованием неактивных данных. С каждым годом этой теме будет уделяться всё большее значение не только на уровне компаний, но и в государственном регулировании. Чем дальше, тем больше отраслей будут затрагивать требования об обязательном шифровании информации.
Когда подобные требования вводят для целых отраслей, как мы это видели неоднократно, спрос на накопители с аппаратным шифрованием многократно возрастает. Предложение первое время не успевает за перегретым спросом, взлетает стоимость обязательного для компаний оборудования. Чтобы избежать лишних трат или приостановки работы в будущем, есть смысл задуматься о переходе на накопители с шифрованием, пока на рынке нет дефицита на такое оборудование.
Объектные хранилища данных становятся стандартом
Немного матчасти. Существуют три типа хранилищ: блочные, файловые и объектные:
Блочные хранилища. В них файлы разбиваются на «кусочки» одного размера, каждому присваивается адрес. Такой формат хорош для критически важных приложений, потому что обеспечивает повышенную производительность. Блочные хранилища используют для виртуализации и баз данных. Минус — высокая стоимость и ограниченный объем метаданных.
- Файловые хранилища имеют иерархическую структуру, в которой есть файлы и папки. Такие хранилища дешевле блочных, но подходят только для обработки небольших массивов данных, так что используются чаще для старых приложений. Ведь чем больше файлов и папок, тем длиннее путь, и медленнее скорость. Это не вариант для дата-центров и всего, где есть искусственный интеллект.
- Объектные хранилища не используют иерархическую структуру. Вместо неё здесь плоская организация хранения, где каждому новому файлу присваивается свой уникальный адрес (идентификатор). Поэтому приложение напрямую обращается к нужным данным, находя их по идентификатору, а не продирается сквозь длинный ветвистый путь. Объектные хранилища легко масштабируются и при этом не теряют в скорости, что сделало их отраслевым стандартом для современных приложений, баз данных и дата-центров.
Сегодня мы создаем больше данных за час, чем двадцать лет назад создавали за целый год.
По мере обновления приложений и увеличения числа обрабатываемых данных файловые хранилища вытисняются объектными. Нынешние выпускники-программисты выстраивают рабочие процессы с расчетом на использование интерфейсов объектного хранения. За таким типом хранения данных будущее, поэтому лучше переводить свои компании к этому стандарту и забирать с рынка труда специалистов, работающих с объектными хранилищами. Сейчас самое время.
Программы на открытом коде управляют контейнерами
Ещё 10 лет назад 98% предприятий использовали в своей работе программное обеспечение с открытым кодом. Даже те, кто раньше выступал против этого и считал использование такого подхода угрозой самой идее интеллектуальной собственности (мы про Microsoft), сегодня присоединился к мейнстриму. За открытым кодом — будущее разработки приложений, поскольку многие компании из разных отраслей могут объединяться и использовать наработки друг друга для создания своих узкоспециализированных решений, не занимаясь изобретением велосипеда там, где уже построен спорткар.
Программное обеспечение с открытым кодом работает и для эффективного использования ресурсов оборудования компании. В центре этой тенденции система Kubernetes, которая предназначена для автоматизации развертывания, масштабирования контейнированных приложений и управления ими.
Что значит «контейнированные приложения» и вообще контейнеры? Сегодня это наиболее эффективный способ использования ресурсов сервера компании, к которому пришли через три этапа:
- Традиционное развертывание. Когда организации запускали на своих физических серверах несколько приложений сразу, одно из них часто забирало большую часть ресурсов «железа». Оно работало хорошо, а вот другие от такого распределения страдали. Да и данные между ними не изолировались, что не очень хорошо с точки зрения безопасности. Чтобы решить проблему приходилось запускать каждое приложение на своём сервере. Ресурсы каждого сервера использовались неэффективно, а поддерживать их было довольно накладно.
- Виртуальное развертывание, когда контейнеры были похожи на отдельные виртуальные машины, но размещались физически на одном сервере. У каждой такой «машины» — своя операционная система и все присущие ей атрибуты. Решение позволяло эффективнее использовать ресурсы и обеспечивать базовые потребности в безопасности, но из-за надстроек над каждой виртуальной машиной всё это было достаточно тяжелым и недостаточно гибким в оперативном управлении.
- Контейнирование похоже на использование виртуальных машин, с той лишь разницей, что всеми контейнерами используется одна общая операционная система, поэтому контейнеры получаются лёгкими и более гибкими. Поскольку они не связаны с базовой инфраструктурой, их можно переносить между облаками, проще внедрять и перераспределять ресурсы. В автоматическом управлении контейнерами как раз помогает система Kubernetes. Такой способ развертывания приложений сегодня наиболее популярен для центров обработки информаций.
Использование уровней хранения данных
В идеальном мире, где наши ресурсы безграничны, было бы логично перевести все данные на флеш-накопители с высокой производительностью. Но в реальной жизни это решение слишком затратно. Обратный вариант — желание сэкономить и использовать только жёсткие диски, которые довольно медлительны и ограничат скорость работы приложений.
Оптимальное решение с точки зрения производительности и затрат на оборудование находится посредине, в области уровней хранения данных. Часто используемую информацию и приложения логично расположить на флеш-накопителях, а лежащие практически мертвым грузом базы необработанных данных — на жёстких дисках. Тем более что большая часть такой информации пока не может быть полезна. Но это только пока.
Преимущество использования уровней для хранения данных усиливает современное программное обеспечение, которое сегодня в состоянии эффективно определять «горячие» и «холодные» данные и автоматически переносить их на соответствующий уровень в иерархии.
Искусственный интеллект повысит значимость старых данных
В Seagate ожидают, что к 2025 году 44% всех данных, созданных в центре и на периферии, будет использоваться для аналитики, искусственного интеллекта и глубокого обучения, а данные с растущего числа умных устройств будут передаваться на периферию корпоративной сети. Эта цифра всё ещё далека от идеальных 100%, но лучше обозначенных в предыдущем пункте 32%.
Сегодня мы видим, как объем накопления новых данных всё ещё превышает количество обрабатываемой информации, но эти два графика скоро сравняются, а искусственный интеллект позволит старые данные эффективно использовать для построения прогностических моделей на будущее. Пригодятся эти массивы данных и для обучения ИИ.
Руководителям предприятий нужно быть готовыми к следующему:
«Срок годности» старых данных за счет использования искусственного интеллекта увеличивается, значит их нужно будет где-то хранить — вырастут размеры архивов.
- Увеличится количество получаемой с периферии информации за счет использования умных устройств — размеры архивов вырастут ещё сильнее.
Для таких данных «до востребования» можно использовать недорогие диски большого объема без каких-то требований к производительности. Поскольку до конца неясно, какие из сегодня сохраняемых данных будут полезны для обучения новых систем искусственного интеллекта в дальнейшем, сохранять желательно всю доступную информацию для обеспечения в будущем лучших учебных выборок.
Основные работы планируют завершить до конца 2025 года.
Какие ловушки подстерегают компании при внедрении ИИ? И как избежать того, чтобы полезная технология превратилась в модную игрушку?
Биткоин и эфир после вчерашнего пампа вернулись к падению, что указывает на довольно шаткое положение развития бычьего рынка и на что в последнее время рассчитывают многие трейдеры при приближении биткоина к отметке $90 000
Требования к изготовителям установят федеральными правилами.