Компании эффективно используют только 32% данных

Опрос 1500 сотрудников ИТ-компаний о том, как они используют и хранят данные.

Консалтинговая компания IDC провела исследование Rethink Data по использованию облачных хранилищ при поддержке Seagate Technology — компании, специализирующейся на хранении данных и управлении ими. В нём приняло участие 1500 респондентов, занимающих руководящие должности в ИТ-отделах компаний из США, Канады, Великобритании, Франции, Германии, России, Китая, Тайваня, Японии, Южной Кореи и Австралии.

Опрос ИТ-специалистов показал, что в основном бизнес сталкивается с пятью большими проблемами использования собранных данных (можно было выбрать несколько вариантов ответа):

1. Неспособность использовать полученные данные (39% опрошенных).

2. Неэффективное управление хранимыми данными (37%).

3. Сбор лишь части необходимых данных (36%).

4. Недостаточная безопасность собранных данных (35%).

5. Неравномерная доступность разрозненных баз данных (30%).

Эти проблемы остаются общими для ИТ-инфраструктуры во всём мире, хотя конкретные процентные показатели разнятся в зависимости от страны и региона. Две трети респондентов отмечают недостаточную безопасность данных: её повышение является ключевым вопросом совершенствования систем управления.

Объёмы данных растут огромными темпами: по прогнозам аналитиков, в ближайшие пару лет прирост будет составлять 42,2% в год. Это легко объяснить ростом населения планеты, стремительной цифровизацией, всё большей популярностью дистанционной работы сотрудников и удалённого управления бизнес-процессами.

32%
всего объёма данных организации активно используют в повседневной работе — остальная информация остаётся без внимания

Во многом это происходит потому, что данные не хранятся централизованно, а распределены между облачными хранилищами и периферийными средами. Соответственно, ими становится сложнее управлять.

С внедрением нейросетей, систем машинного обучения и интернета вещей в разных сферах человеческой жизни и бизнеса, развитием сетей 5G и пользовательских устройств именно на периферии, а не в центре обработки данных, часто происходит принятие рабочих решений в реальном времени. Периферийные компоненты сети могут быть удалены от центра на десятки, а то и сотни километров.

Примеров можно привести множество: это и беспилотная доставка, и платформы по добыче полезных ископаемых, и устройства «умного дома» и «умного офиса», управляемые со смартфона, и производственные площадки на промышленных предприятиях, и многое другое.

По данным опроса Seagate Technology, 30% данных хранится во внутренних центрах обработки, ещё 20% — в сторонних, 19% — в периферийных или удалённых.

На облачные хранилища приходится 22% объёма данных, и лишь 9% хранится в других местах. По прогнозам экспертов, в краткосрочной перспективе это распределение существенно не изменится, и в ближайшие год-два корпоративные среды хранения будут отличаться такой же разрозненностью, как и сейчас.

Объем данных на периферийных объектах растет быстрее: около 36% этой информации после обработки перемещается с периферии в центр, из них порядка 8% — в режиме реального времени. По прогнозам аналитиков Seagate, через два года эти цифры составят 57% и 16% соответственно. Соответственно, возникнет необходимость в централизованном управлении распределенными данными. Более узкие задачи зависят от конкретного типа облаков.

Многие организации хранят данные в общедоступных облачных хранилищах, доступных через интернет (платно или бесплатно) всем желающим. Среди преимуществ этого типа облаков можно отметить:

Быстрый рост и масштабирование.
Доступность с любого устройства в ИТ-инфраструктуре.
Доступ к обширному каталогу служб.

Однако с ростом и развитием деятельности компании такое решение зачастую оказывается недостаточно гибким. Наиболее подходящим вариантом для бизнеса становится использование многооблачных экосистем и комбинированных решений для хранения и управления данными.

Многооблачные системы сочетают общедоступные облака от разных поставщиков с частными, доступными только определённым пользователям. Преимуществами частных облаков являются:

Экономия на масштабе под контролем организации.
Право собственности на IP-адреса хранилищ для защиты и контроля систем хранения данных.
Возможность частого обращения к большим наборам данных.
Большая конфиденциальность (что важно, например, для медицинских либо юридических документов).

Также широко применяются так называемые гибридные облака, объединяющие ресурсы частного и общедоступного облака в рамках единой интегрированной инфраструктуры. Это помогает наладить взаимодействие между отдельными хранилищами данных и управлять ими централизованно через единый портал управления. Главную сложность здесь вызывает подключение устаревших систем к общедоступным облакам: в многооблачной среде реализовать эту задачу проще.

Эксперты говорят, что главной сложностью в кратко- и среднесрочной перспективе станет управление корпоративными данными в многооблачных экосистемах и гибридных облаках. И многие управленческие проблемы можно решить благодаря внедрению методологии DataOps, объединяющей создателей и потребителей данных с соответствующими процессами.

DataOps — это методология, ускоряющая модернизацию системы хранения данных и основанная на взаимодействии между их создателями и потребителями. Последними выступают сотрудники компании, отвечающие за организационные вопросы: как правило, это высшее руководство и помогающий ему персонал. Им нужна не исходная информация, а результаты её анализа, которые служат основой для принятия решений.

В качестве создателей данных могут выступать как люди (менеджеры, аналитики, ИТ-специалисты и другие), так и цифровые устройства. При анализе информации нередко возникает вопрос, какие сведения нужно использовать немедленно, а какие отправить на хранение.

Например, если речь идёт об устройстве в ИТ-инфраструктуре, то его технические характеристики могут требовать моментального анализа для координации работы и прогнозов на ближайшее будущее, а сведения о его активности уже передаются в хранилище.

В рамках DataOps широко применяются искусственный интеллект (ИИ) и машинное обучение (МО): эти технологии позволяют устанавливать взаимосвязи между данными из центра, периферии и облачных хранилищ.

Для получения массивов данных используется процесс, в основе которого лежит принцип ELT (Extract, Load, Transform — «извлечение, загрузка, преобразование»). В ходе его работы разрозненные данные из нескольких источников загружаются в единую структуру, которая структурируется и превращается в четкую информацию с помощью ИИ: с ней уже могут работать потребители и принимать решения на её основе.

Главное конкурентное преимущество DataOps — возможность легко устанавливать взаимосвязи между разрозненными данными с помощью единого инструмента. Без DataOps для решения таких задач нужно сразу несколько инструментов, что усложняет и замедляет управление.

Применение DataOps может заметно улучшить бизнес-показатели организаций (прибыль, лояльность клиентов, производительность персонала), что, в свою очередь, приводит к росту конкурентоспособности.

По данным Seagate, лишь 10% опрошенных компаний полностью внедрили у себя DataOps. Наибольший процент (12%) наблюдается в сфере масс-медиа, наименьший (5%) — на производстве. Эффективному использованию методологии препятствуют и технические проблемы, и человеческий фактор (конкуренция между сотрудниками и командами: неготовность персонала к нововведениям). В то же время, большинство опрошенных (89%) считает DataOps важной для развития бизнеса. Лишь 1% опрошенных не придаёт значения методологии.

Самой большой популярностью DataOps пользуется в Китае (процент китайских специалистов, не берущих методологию во внимание, оказывается равен нулю) и Северной Америке (США и Канаде). Особенно высока потребность в ней в транспортной сфере.

Так как опрос проводился ещё в начале 2020 года, до пандемии COVID-19, то можно сделать вывод, что в настоящее время необходимость внедрения DataOps оказывается ещё выше в связи с переходом сотрудников компаний по всему миру на удалённый режим работы (что уже привело к миграции в облачные сервисы). Для России это актуально в первую очередь для крупных городов, характеризующихся развитой ИТ-инфраструктурой и широким распространением «‎облаков».

Грамотное внедрение DataOps способствует созданию и развитию моделей искусственного интеллекта и повсеместного внедрения аналитики данных. Благодаря структурированной аналитической информации компании получают конкурентные преимущества на рынке, наращивают прибыль и делают более эффективным взаимодействие между сотрудниками в разных подразделениях, в том числе географически удалённых друг от друга.

Перейти к исследованию

Компании эффективно используют только 32% данных

Проблемы работы с данными: на что жалуются руководители

Из центра — на периферию

Многооблачная среда, частные и общедоступные облака: достоинства и недостатки

Что такое методология DataOps и какую пользу можно из неё извлечь?