Неуправляемые, дорогие, разноформатные — и другие проблемы больших данных

В первой части статьи мы уже рассказывали о том, что такое большие данные в бизнесе, и описали пять распространенных проблем в этой сфере, среди которых — большой объем, низкое качество, высокая стоимость и другие. Во второй части мы осветили еще пять трудностей, которые касаются специалистов, инсайтов, скорости и других любопытных нюансах. Об этом — в продолжении перевода подборки Digiteum.

Содержание:

Неуправляемые, дорогие, разноформатные — и другие проблемы больших данных

Дефицит талантов в области больших данных — в компании и на рынке

Нехватка талантов — одна из самых трудноразрешимых и дорогостоящих проблем, связанных с большими данными. Это происходит из-за того, что становится все труднее найти квалифицированных технических специалистов для проекта.

Спрос на дата-сайентистов, инженеров и аналитиков уже превышает предложение. И в ближайшем будущем потребность в специалистах резко возрастет, поскольку все больше компаний инвестируют в проекты по работе с большими данными и конкурируют за лучшие кадры на рынке.

Решение

  • Самый простой и, вероятно, самый быстрый способ решения проблемы нехватки кадров — это сотрудничество с надежным поставщиком технологий, который может легко восполнить пробел в ваших потребностях в больших данных и BI. Аутсорсинг проекта может также сэкономить вам деньги, если найм штатных сотрудников выходит за рамки бюджета.
  • Никто не знает ваши данные лучше, чем вы и ваша команда. Рассмотрите возможность повышения квалификации ваших нынешних инженеров, чтобы получить необходимую компетенцию, а затем — сохраните таланты в штате.
  • Создайте инструменты аналитики и визуализации, доступные для нетехнических специалистов в вашей организации. Сделайте так, чтобы большинство ваших сотрудников могли легко получать информацию и использовать ее в процессе принятия решений.

Пример: В 2020 году британская компания, специализирующаяся на анализе данных, заключила партнерство с Digiteum, чтобы ускорить разработку решения на основе больших данных для диагностического тестирования. Задача заключалась в том, чтобы быстро собрать специальную команду старших инженеров по данным, разработчиков, DevOps и QA для создания масштабируемой системы менее чем за год, уложившись при этом в бюджет. Команда запустила первую версию системы через 8 месяцев благодаря быстрому увеличению численности команды.

Замедленное время реакции

Время реакции означает, как быстро вы сможете получить информацию из ваших данных, прежде чем они устареют и потеряют актуальность. Последнее может случиться из-за громоздких конвейеров данных и неэффективных стратегий управления данными.

При этом в одних случаях параметр время реакции более важен, чем в других. Сравните, например, анализ потребительского поведения на основе квартальных данных и анализ данных IoT в режиме реального времени для мониторинга оборудования.

В первом случае можно мириться с задержкой в несколько дней или даже недель, а во втором случае даже небольшой лаг может обернуться серьезными проблемами.

Решение

  • Если вы работаете над проектами в области больших данных и IoT, где низкий уровень задержек является одним из ключевых требований для автоматизации и дистанционного управления, рассмотрите возможность использования технологий edge и fog, чтобы максимально приблизить аналитику к действию. Это позволит свести время реакции к минимуму и быстро реагировать на данные в реальном времени.

  • Стратегию работы с данными можно и нужно менять. Используйте гибкий подход при проектировании и создании конвейера данных и часто пересматривайте его, чтобы выявить неэффективные моменты, которые провоцируют замедление.
  • Используйте современные технологии искусственного интеллекта, а также методы и инструменты визуализации больших данных для более быстрого получения и передачи информации.

Отсутствие четкого понимания того, как получать и использовать инсайты

Извлекать информацию — это одно дело. Применять их на практике — совсем другое. Если второе не работает, вся ваша стратегия работы с большими данными может пойти прахом, потому что она не будет приносить никакой отдачи.

Решение

  • Создайте жизнеспособное экономическое обоснование проекта и привлеките бизнесменов, чтобы лучше понять, что им нужно получить от данных и как они могут действовать, основываясь на них.
  • Используйте передовую аналитику, которая поможет открыть новые способы чтения и понимания данных и сделать их легкодоступными для любого сотрудника организации.
  • Предоставьте современные инструменты визуализации, приборные панели, интерактивные возможности и интуитивно понятные интерфейсы для «бурения» данных, изучения идей, создания отчетов и передачи данных в организации.

Пример: при работе с B2B платформой потокового вещания музыки feed.fm мы использовали сочетание Elastic Stack, Apache Spark и инструментов ML для создания мощных, но простых для восприятия и изучения визуализаций, а также для аналитики потоковых данных в реальном времени. С помощью этих инструментов руководители feed.fm и клиенты платформы могли легко получить доступ к информации о вовлеченности и конверсии потребителей в любое время и в любом месте и затем использовать ее для более быстрого принятия важных тактических решений.

Безопасность и соблюдение нормативных требований

По данным исследования NewVantage, более трети бюджета на большие данные расходуется на комплаенс и защиту. Это неудивительно, учитывая растущее давление, которое исходит от строгих норм конфиденциальности и рисков больших данных, связанных с нарушениями безопасности. И эти риски становятся только больше по мере роста объема данных.

Решение

  • Включите безопасность больших данных в первоначальное планирование, стратегию и дизайн. Относиться к ней как к чему-то второстепенному — худшая идея, которая впоследствии может привести к серьезным проблемам с большими данными и многомиллионным штрафам.

  • Проверьте данные и их источники на соответствие требованиям, применимым к вашей нише и вашему местоположению, например, GDPR в ЕС, HIPAA и HITECH Act для данных здравоохранения в США и так далее.

Отсутствие универсального решения для всех потребностей в данных

Последняя, но не менее важная проблема больших данных — отсутствие универсального решения для всех перечисленных выше проблем. Конечно, существует большой рынок платформ, облачных пакетов, сервисов искусственного интеллекта, инструментов аналитики, визуализации и создания информационных панелей, которые могут покрыть все ваши потребности.

Однако каждый проект в сфере больших данных, над которым мы когда-либо работали, требовал индивидуального подхода к выбору услуг и стратегий для получения действенных результатов в рамках указанного срока и бюджета.

Решение

  • Проведите анализ технологий, чтобы проверить имеющиеся решения и инструменты на предмет соответствия вашим бизнес-задачам, целям, инфраструктуре, собственным навыкам, бюджету и требованиям к масштабируемости.
  • Привлеките опытного поставщика услуг в области больших данных, который обладает как техническим опытом, так и ресурсами для разработки. Это поможет подобрать правильный набор инструментов для вашего проекта, внедрить его, а в дальнейшем — поддерживать и оптимизировать в соответствии с вашими меняющимися потребностями.

На этом все. Расскажите, сталкивались ли вы с перечисленными Digiteum проблемами больших данных? Как вам удалось с ними справиться и насколько эффективными вам кажутся решения из подборки?

99
4 комментария

Да вроде обрушилась же гонка за кадрами в IT, или нет?)

Сейчас есть локальный кризис в индустрии, но в будущем-то это никуда не денется. Только если AI системы внезапно всех заменят, что невозможно

Создайте жизнеспособное экономическое обоснование проекта и привлеките бизнесменов, чтобы лучше понять, что им нужно получить от данных и как они могут действовать, основываясь на них.

Ага, техотдел наобосновывает всякого, потом только денежки заноси))

А что делать тем компаниям, которые не имеют инженеров в штате? Более того, если финансов на аутсорс нет, то что делать в этом случае? )