Большие и неуправляемые: как бизнесу решать проблемы с данными

Бизнесу будет полезно держать под рукой памятку о том, как работать с данными из разных источников, управлять их объемом и преодолевать другие трудности. Мы в Platforma увидели интересный материал по теме от компании Digiteum, которая помогает бизнесу строить стратегии по работе с данными, и делимся с вами его переводом. Всего в материале 10 проблем, в первой части текста рассказываем о пяти из них.

97% организаций инвестируют в инициативы, связанные с данными, но только четверть из них используют их для принятия управленческих решений, следует из опроса NewVantage за 2022 год. По данным исследования BCG 2022 года, только 17% руководителей признают, что их усилия по анализу данных приносят пользу.

Содержание:

Что такое большие данные и почему они имеют значение?
5 проблем больших данных и стратегии их решения: Неуправляемый объем
Плохие данные, которые приводят к некачественным результатам
Работайте с несколькими форматами
Множественные источники и проблемы с интеграцией
Высокая стоимость проектов и инфраструктуры данных

Большие и неуправляемые: как бизнесу решать проблемы с данными

Большой экспоненциально растущий объем данных, который часто существует в различных форматах внутри организации и поступает из различных источников — это и есть «большие данные». Другими словами, они массивны, многообразны и повсюду.

Данные управления складом, включающие в себя инвентаризационные файлы, записи о работе сотрудников, данные об использовании объекта от интеллектуальной системы освещения и управления электропитанием — это все большие данные. Они играют огромную роль в том, как организации принимают решения, разрабатывают свои продукты и ведут бизнес практически в каждой отрасли.

Крупные розничные бренды вроде Nike используют технологии больших данных для отслеживания потребительских тенденций и изменения стратегии производства продукции и маркетинговых кампаний. А Tesla разрушает монополию, строя весь свой бизнес на основе данных. Продукция Tesla — от самоуправляемых автомобилей до солнечной черепицы — в значительной степени опирается на данные в масштабе.

Этим занимаются и другие бренды: от Maersk в судоходстве до стримингового сервиса Netflix. Они используют данные для улучшения сервиса, рекомендаций, эффективности бизнес-процессов. Однако, несмотря на инвестиции и изобилие инструментов на рынке, лишь малой части компаний удается извлечь пользу из своих данных.

Основные проблемы, связанные с большими данными, приходятся на технологические, организационные и операционные ограничения, такие как отсутствие навыков или адекватной инфраструктуры. Однако мы знаем, как их решить, и об этом расскажем далее.

Компании работают с терабайтами и даже эксабайтами данных, которые постоянно растут и могут легко выйти из-под контроля, если ими не управлять должным образом. Без соответствующей архитектуры, вычислительных мощностей и инфраструктуры предприятия не могут угнаться за ростом и, как следствие, упускают возможность извлечь выгоду из своих информационных активов.

По данным Dell, 43% руководителей считают, что их инфраструктура не сможет в будущем справиться с растущими требованиями к данным.

Решение:

Выбирая облачный, локальный хостинг или гибридный подход, убедитесь, что выбор соответствует бизнес-целям и организационным потребностям. Например, локальный хостинг не будет масштабироваться мгновенно. Потребуется физическое увеличение инфраструктуры и команды администраторов, но это хороший выбор, если вы хотите держать все свои данные при себе. Напротив, облачные решения (публичные, частные или гибридные) обеспечивают гибкость и ресурсы для управления практически любыми объемами данных, особенно если у вас недостаточно вычислительных мощностей, чтобы справиться с ними собственными силами.
Создайте масштабируемую архитектуру и инструменты, которые смогут подстроиться под растущий объем данных, не нарушая их целостности. Мы использовали Azure Cosmos DB для создания масштабируемой системы обработки данных для Oxford University Press.

Пример: Издательство Оксфордского университета столкнулось с проблемой больших данных для обработки огромного объема лексических статей с целью эффективного создания корпуса английского языка для научных исследований лексики и грамматики. Как технический партнер университета с 2015 года, наша команда объединила усилия с OUP и командой MS Azure для разработки модульной системы сбора, очистки, фильтрации и обработки данных на базе Cosmos DB и инструментария NLP. Эта облачная система обладает неограниченной масштабируемостью и эластичностью, способной обрабатывать все новостные статьи на английском языке, ежедневно публикуемые во всем интернете, всего за три часа. Система выдерживает 10-кратную нагрузку. Теперь OUP может обрабатывать данные в пять раз эффективнее, чем раньше, и способна неограниченно масштабироваться.

Низкое качество — серьезная проблема больших данных, которая ежегодно обходится только США более чем в $3 трлн. Низкое качество данных приводит к ошибкам, снижению эффективности и неверным выводам, которые в итоге превращаются в издержки бизнеса.

Они могут быть небольшими, например, когда компания не может сопоставить одного клиента с нужным заказом из-за неправильной записи. Могут быть и болезненными и стоить миллионы, как финансовый кризис 2008 года, который был прямым результатом низкокачественных данных.

Плохие данные — это дубликаты, устаревшие, отсутствующие, неправильные, нечитаемые и непоследовательные сведения. Они могут поставить под угрозу эффективность всего набора. Поэтому важно следить за их качеством.

Решение

Первым шагом на пути к хорошей гигиене данных является найм людей, которые будут заботиться о данных в организации. Чтобы установить адекватное управление данными, нужно определить инструменты, порядок действий, перечень процедур и обеспечить контроль доступа.
Настройте эффективный процесс очистки, фильтрации, сортировки, обогащения и другого управления данными с помощью современных инструментов.
Важно понимать, как сортировать и обогащать данные в соответствии с конкретными бизнес-целями. Для определения требований к качеству данных может потребоваться привлечение бизнесменов, которые будут реально использовать эти данные.

Это может шокировать, но 80-90% данных являются неструктурированными, оценивает cio.com. Если они не хранятся в таблице базы данных (электронные письма, отзывы клиентов, видео и так далее), то они, скорее всего, неструктурированные или полуструктурированные. Отсюда еще одна проблема: приведение разнородных по формату данных к единообразию и потребностям бизнес-аналитики и используемых инструментов визуализации, прогнозирования и так далее.

Решение

Выясните, как использовать современные технологии и инструменты обработки данных для переформатирования неструктурированных данных и извлечения из них информации. Если вы имеете дело с несколькими форматами, возможно, придется комбинировать различные инструменты для разбора данных (например, механизмы распознавания текста, изображений на основе машинного обучения) и извлечения нужной информации.
Примите или создайте собственные приложения, которые помогут ускорить и автоматизировать процесс преобразования необработанных данных в ценные сведения. Выбор зависит от источника и характера данных, а также от уникальных требований конкретного бизнеса.

Пример: Глобальная аналитическая компания в области агротехнологий боролась с неэффективной ручной обработкой счетов-фактур, которые приходили в различных форматах, включая бумажные, текстовые и нестандартизированные PDF-файлы. Они попросили Digiteum разработать MVP для автоматизированной обработки документов, которая обеспечит быстрое и экономически-эффективное управление счетами-фактурами. После анализа нескольких инструментов для распознавания текста команда разработала инструмент на базе AWS с пользовательскими алгоритмами извлечения данных и OCR с открытым исходным кодом, который использует глубокое обучение и компьютерное зрение для высокоточной обработки счетов-фактур.

MVP превзошел первоначальные цели по качеству распознавания текста, что позволило автоматизировать процесс управления счетами и сократить ручной труд на 80%.

Во многих случаях больше данных не равнозначно большей ценности, пока вы не знаете, как собрать их для совместного анализа. Одна из самых сложных задач для проектов больших данных — интегрировать разнообразные данные и найти или создать точки соприкосновения.

Для этого, во-первых, необходимо определить, когда имеет смысл объединять данные из разных источников. Например, если вы хотите получить полное представление о клиентском опыте, вам нужно собрать данные об отзывах, производительности, продажах и другие. Во-вторых, необходимо создать пространство и инструментарий для интеграции и подготовки этих данных к анализу.

Решение

Проведите инвентаризацию, чтобы понять, из каких источников поступают данные и имеет ли смысл интегрировать их для совместного анализа. В значительной степени это задача бизнес-аналитики, поскольку именно предприниматели понимают контекст и решают, какие данные им нужны для успешного достижения целей в первую очередь.
Применяйте инструменты интеграции, которые помогут соединить данные из различных ресурсов, файлов, приложений, баз и хранилищ данных, а также подготовить их к анализу. В зависимости от технологий, которые вы уже используете в компании, вы можете взять на вооружение Microsoft, SAP, Oracle или специализированные инструменты, ориентированные на интеграцию данных, такие как Precisely или Qlik [перечисленные в оригинальном тексте инструменты не работают в РФ].

50% руководителей в США и 39% руководителей в Европе признают, что ограниченный ИТ-бюджет мешает извлечь выгоду из данных. Внедрение больших данных требует больших затрат, тщательного планирования и вложений, которые не окупятся быстро.

Более того, когда объем данных растет экспоненциально, увеличивается и инфраструктура. В какой-то момент шанс утратить контроль над своими активами и стоимостью управления ими возрастает. По данным компании Flexera, до 30% денег, потраченных на облако, расходуется впустую.

Решение

Большинство проблем, связанных с ростом затрат на большие данные, можно решить путем постоянного мониторинга инфраструктуры. Эффективные практики DevOps и DataOps помогают следить за сервисами и ресурсами, которые используются для хранения и управления данными. Они помогут выявлять возможности экономии и балансировать расходы на масштабирование.
Учитывайте затраты на ранних этапах создания конвейера обработки данных. Есть ли дублирующиеся данные в различных хранилищах, что удваивает расходы? Можете ли вы разделить данные на уровни в зависимости от их ценности для бизнеса, чтобы оптимизировать расходы на управление ими? Есть ли у вас практика архивирования и забывания данных? Ответы на эти вопросы помогут создать разумную стратегию и сэкономить кучу денег.
Выбирайте экономичные инструменты, которые соответствуют вашему бюджету. Большинство облачных сервисов предоставляются на основе оплаты по факту — то есть, расходы будут напрямую зависеть от используемых услуг и вычислительных мощностей. А ландшафт решений для работы с большими данными постоянно расширяется, позволяя вам выбирать и комбинировать различные инструменты в соответствии с вашим бюджетом и потребностями.

Пример: Переход от складских сервисов AWS к экономически-эффективным Databricks помог нашему клиенту — одному из ведущих игроков на мировом рынке точной медицины — в 50 раз сократить расходы на управление медицинскими данными, оптимизировав стоимость инфраструктуры для масштабного проекта больших данных.