7 главных тенденций в области анализа данных в 2023 году

Перевод. Оригинал здесь.

За последнее десятилетие данные стали преобразующей силой.
Предприятия, которые предоставляют своим руководителям инструменты, необходимые для анализа данных, и платформы, необходимые для принятия решений на основе данных, могут по-настоящему использовать силу данных. Компании, которые этого не делают, теряют важное конкурентное преимущество.
В этой статье вы узнаете о семи основных тенденциях в области анализа данных, включая искусственный интеллект, периферийные вычисления, сетку данных и многое другое.

1. Внедрение ИИ в аналитику данных

Развитие искусственного интеллекта (ИИ), в частности машинного обучения (ML), увеличивает скорость и масштаб операций по анализу данных.

Объем поисковых запросов по запросу «ИИ-аналитика» растет: за последние пять лет он вырос уже на 222%.
Объем поисковых запросов по запросу «ИИ-аналитика» растет: за последние пять лет он вырос уже на 222%.

Традиционная аналитика требует, чтобы команда аналитиков тщательно анализировала данные, теоретизировала потенциальные идеи, проверяла эти идеи и сообщала о своих выводах.

Традиционная бизнес-аналитика в значительной степени зависит от ИТ, но аналитика на основе машинного обучения передает данные в руки бизнес-пользователей.
Традиционная бизнес-аналитика в значительной степени зависит от ИТ, но аналитика на основе машинного обучения передает данные в руки бизнес-пользователей.

Однако модели на основе машинного обучения могут непрерывно отслеживать данные, выявлять аномалии и предупреждать соответствующие команды в режиме реального времени — без необходимости участия человека.
Модели машинного обучения могут анализировать любые подмножества данных и давать ценную информацию. Они могут искать корреляции между миллионами точек данных.
Эти системы также невероятно точны.
Когда платформы анализа данных используют машинное обучение и автоматизируют многие традиционные задачи, связанные с аналитикой, это называется расширенной аналитикой .

Qlik, популярная платформа анализа данных, предлагает расширенную аналитику, которую могут использовать как обычные бизнес-пользователи, так и специалисты по обработке данных.
Qlik, популярная платформа анализа данных, предлагает расширенную аналитику, которую могут использовать как обычные бизнес-пользователи, так и специалисты по обработке данных.

Благодаря расширенной аналитике сотрудники могут использовать естественный язык для изучения данных компании. Им не нужно иметь в виду гипотезу, поскольку алгоритмы ML раскрывают необходимую пользователям информацию.

Это можно использовать для бесчисленных бизнес-процессов, таких как прогнозирование, прогнозная аналитика, моделирование и визуализация.

Одним из важных преимуществ расширенной аналитики является то, что платформы AI/ML могут анализировать неструктурированные данные.

В том числе телефонные звонки.

Например, университетские больницы в Кливленде, штат Огайо, принимают более 400 000 телефонных звонков в месяц.

До того, как они начали использовать платформу анализа данных искусственного интеллекта, прослушивание этих телефонных звонков и документирование происходящего было задачей нескольких сотрудников.

После того, как университетские больницы внедрили платформу расширенной аналитики от Invoca , они смогли начать автоматически отслеживать звонки через платформу искусственного интеллекта.

Они сэкономили как минимум 40 часов в неделю на труде сотрудников.

Платформа Invoca определяет конверсии и результаты звонков.
Платформа Invoca определяет конверсии и результаты звонков.

Расширенная аналитика также может помочь предприятиям оптимизировать стратегии ценообразования и прогнозировать спрос .
Например, ИИ-модель может анализировать данные о клиентах, чтобы выявить закономерности в покупательском поведении, и использовать динамическое ценообразование для увеличения доходов.
Расширенная аналитика также может отслеживать данные конкурентов, чтобы организации могли соответствующим образом оптимизировать свои цены.
Рынок дополненной аналитики быстро растет.
По оценкам Research and Markets, среднегодовой темп роста компании составит почти 26% до 2027 года, достигнув в этом году оценки более чем в 32 миллиарда долларов.

2. Использование бизнес-аналитики для сбора информации

Проще говоря, инструменты бизнес-аналитики используют необработанные данные для извлечения значимых закономерностей и практических идей.

За последние пять лет поисковый интерес к «бизнес-аналитике» вырос почти на 100%.
За последние пять лет поисковый интерес к «бизнес-аналитике» вырос почти на 100%.

Многие популярные сегодня платформы бизнес-аналитики используют возможности искусственного интеллекта и машинного обучения для предоставления аналитической информации бизнес-пользователям.
Эта информация может привести к выявлению проблем, выявлению тенденций или поиску новых источников дохода.
Интеллектуальный анализ данных, запросы, отчеты и визуализация — все это части системы BI .

Пример визуальной аналитики с BI-платформы.
Пример визуальной аналитики с BI-платформы.

Многие бизнес-лидеры считают BI обязательным условием выживания и успеха организации.
По данным опроса, около четверти организаций в настоящее время используют BI. Но это число возрастает до 80%, если принять во внимание организации со штатом более 5000 сотрудников.
Возьмем, к примеру, Delta Airlines, работодатель почти 90 000 человек .
Компания инвестировала более 100 миллионов долларов в платформу BI, которая отслеживает обработку багажа.
Аналитические данные, полученные с помощью этой платформы, помогают командам Delta выявлять проблемы и задержки, связанные с багажом, который является огромным источником стресса для клиентов.
Однако применение BI может оказаться полезным практически на каждом этапе пути клиента.

Компании могут повысить эффективность своих маркетинговых кампаний за счет интеграции анализа с платформ BI.
Компании могут повысить эффективность своих маркетинговых кампаний за счет интеграции анализа с платформ BI.

Организации могут использовать BI для создания профилей покупателей и сегментирования групп клиентов.
Имея все эти данные, предприятия могут создавать персонализированные кампании продаж и маркетинга.
Другой пример: платформы BI являются важной частью цифровизации обрабатывающей промышленности.

Платформы BI могут помочь производственным организациям улучшить цепочки поставок, избежать задержек и повысить прибыльность.
Платформы BI могут помочь производственным организациям улучшить цепочки поставок, избежать задержек и повысить прибыльность.

Эти инструменты дают производителям основанный на данных метод оптимизации производства при сохранении высокого качества.

BI может даже сыграть важную роль в устранении сбоев и расходов в цепочке поставок.

Когда организации хотят представить свои данные в доступной для понимания форме, они обращаются к своим платформам BI для создания визуализации данных.

Объем поисковых запросов по запросу «визуализация данных» подскочил в конце 2022 года и остается высоким.
Объем поисковых запросов по запросу «визуализация данных» подскочил в конце 2022 года и остается высоким.

Эти визуализации представляют собой диаграммы, графики, карты и тому подобное.
Одна из самых популярных BI-систем Tableau предлагает пользователям множество возможностей визуализации данных.
Кроме того, компания предоставляет бесплатную платформу под названием Tableau Public , где пользователи могут черпать вдохновение для собственной визуализации данных.
Пользователи могут создавать диаграммы «ящик с усами», которые позволяют быстро увидеть распределение данных, тепловые карты, на которых определенные данные отображаются определенными цветами, и древовидные карты, на которых прямоугольники вставляются вместе для отображения иерархических данных.

Тепловые карты присваивают цвета наборам данных, чтобы зрители могли быстро оценить влияние данных.
Тепловые карты присваивают цвета наборам данных, чтобы зрители могли быстро оценить влияние данных.

Благодаря такому разнообразию приложений BI становится универсальным стандартом для предприятий.
По данным Fortune Business Insights, к 2030 году рынок бизнес-аналитики может достичь $54,27 млрд , что на $27 млрд больше, чем в 2022 году.

3. Больше Вариантов Использования Периферийных Вычислений

В связи с резким ростом объема данных в последние годы и потребностью в аналитике в реальном времени многие предприятия переносят анализ данных на периферию, обрабатывая данные на устройстве, которое их генерирует.
По прогнозам Gartner, к 2025 году более 50% критически важных данных будут создаваться и обрабатываться за пределами центра обработки данных и облака предприятия.
Вместо этого он будет обрабатываться в среде периферийных вычислений.

За последние 10 лет количество запросов по запросу «периферийные вычисления» выросло более чем на 6000%.
За последние 10 лет количество запросов по запросу «периферийные вычисления» выросло более чем на 6000%.

Согласно анализу IDC, к концу этого года глобальные расходы на периферийные вычисления достигнут 208 миллиардов долларов . Это на 13,1% больше, чем в 2022 году.

Периферийные вычисления уменьшают задержку и повышают эффективность анализа данных.
Периферийные вычисления уменьшают задержку и повышают эффективность анализа данных.

Почему такой быстрый переход к периферийным вычислениям?
Сегодня мир генерирует более 64 зеттабайт данных в год — это 64 триллиона гигабайт данных от 23,8 миллиардов подключенных устройств .
К 2025 году объем мировых данных превысит 180 зеттабайт с более чем 41 миллиарда подключенных устройств.
По мере роста объема данных многие организации перешли на хранение данных в облаке.
Однако даже традиционные облачные вычисления недостаточно оснащены для обработки огромного, постоянно растущего океана реальных данных, генерируемых каждый день.
Ограничения пропускной способности, задержки в ретрансляции данных и сбои в работе сети могут нанести вред критически важным процессам обработки промышленных и коммерческих данных.
Это, в свою очередь, увеличивает эксплуатационные расходы и риски.
Лучшей альтернативой, по мнению экспертов отрасли данных, являются периферийные вычисления .
Периферийные вычисления включают в себя ресурсоемкий, часто повторяющийся анализ критически важных данных на устройствах на внешней границе сети.
На «туманные» узлы отправляются только сводные данные, которые затем передаются в облачное хранилище для обработки более высокого уровня.

Edge Analytics оптимизирует анализ данных и предоставляет ценную информацию в режиме реального времени.
Edge Analytics оптимизирует анализ данных и предоставляет ценную информацию в режиме реального времени.

Использование периферийных вычислений означает, что аналитика предоставляется в режиме реального времени. Это критически важно для предприятий, которые зависят от быстрого реагирования, таких как здравоохранение и производство.
Но он также может отфильтровывать ненужную информацию — оценки показывают, что до 90% развернутых данных бесполезны.
Эти данные не передаются в облако, что экономит полосу пропускания и бюджет.
Периферийные вычисления также обеспечивают повышенную конфиденциальность и защиту данных. Поскольку данные никогда не отправляются в облако, они более безопасны.
Периферийная аналитика — важная часть революции Индустрии 4.0.
В промышленных условиях имеется огромное количество устройств Интернета вещей, которые ежедневно генерируют большие объемы данных.
Чтобы быть полезными, эти данные должны обрабатываться за миллисекунды.
Маршрутизация данных в облако и обратно в этом случае не имеет смысла, а периферийные вычисления — имеют смысл.
Такие данные, как температура, влажность, вибрации и т.п., можно анализировать немедленно и отбрасывать, если они не нужны для долгосрочного анализа.
Даже Почтовая служба США пользуется преимуществами периферийной аналитики .

Edge Analytics помогает USPS находить недостающие посылки.
Edge Analytics помогает USPS находить недостающие посылки.

Организация использует периферийную аналитику для обработки миллионов образов пакетов (каждый пограничный сервер обрабатывает 20 терабайт изображений в день) с целью поиска недостающих пакетов.
Представители USPS говорят, что раньше эта задача требовала работы 8-10 человек в течение нескольких дней, чтобы найти пропавшие посылки. При использовании периферийной аналитики для этого требуется всего один человек и несколько часов.

4. Растущая зависимость от данных как услуги

Поскольку каждый день генерируется все больше данных, становится очевидным, что каждый бизнес должен использовать данные, чтобы оставаться конкурентоспособным.
Тем не менее, не каждая компания имеет возможность получать, хранить и анализировать данные так же легко, как крупнейшие технологические компании.
Именно здесь на помощь приходят данные как услуга (DaaS).

За последние пять лет количество поисковых запросов по запросу «Данные как услуга» выросло на 350%.
За последние пять лет количество поисковых запросов по запросу «Данные как услуга» выросло на 350%.

Компании DaaS обычно предлагают услуги по сбору, хранению и анализу данных на основе подписки.
Он работает через облачные вычисления и предоставляет услуги конечным пользователям по сети вместо анализа или хранения данных локально.
В зависимости от клиента поставщик DaaS может собирать и использовать внутренние данные, которые являются собственными для клиента, или предоставлять клиенту наборы данных, к которым он может не иметь доступа самостоятельно.
Поскольку все больше представителей делового мира переходят на облачные технологии, вполне вероятно, что переход на DaaS также будет быстрым.
Фактически, по оценкам Technavio, к 2027 году стоимость рынка DaaS увеличится на 56,85 миллиарда долларов .

Ожидается, что рынок DaaS будет расти в среднем на 40% до 2027 года.
Ожидается, что рынок DaaS будет расти в среднем на 40% до 2027 года.

В 2023 году годовой темп роста рынка уже составил 28,64%.
Snowflake – одна из крупнейших и самых популярных компаний на этом рынке.
Компания известна своими услугами по хранению данных, но она также может выступать в качестве чистого поставщика DaaS.
Snowflake позволяет клиентам хранить и анализировать данные на своей платформе, а также обслуживает поставщиков, продающих информационные продукты конечным пользователям через свою платформу.
На своей платформе компания предлагает более 600 активных наборов данных.

На примере торговой площадки Snowflake показано 154 доступных информационных продукта в категории прогнозирования спроса.
На примере торговой площадки Snowflake показано 154 доступных информационных продукта в категории прогнозирования спроса.

Snowlake также недавно инвестировала в нью-йоркскую компанию Cybersyn во время раунда финансирования серии A на сумму 62,9 миллиона долларов в апреле 2023 года.
Компания сосредоточена на объединении общедоступных и частных экономических данных для создания наборов данных и продажи их третьим лицам.

Cybersyn предлагает наборы данных, связанные со здравоохранением, ипотекой, розничной торговлей и другими отраслями.
Cybersyn предлагает наборы данных, связанные со здравоохранением, ипотекой, розничной торговлей и другими отраслями.

5. Демократизация систем данных

На современном предприятии данные часто разрознены.
Они застряли в одном отделе, и другие бизнес-пользователи упускают ценность этих данных.
Вот почему демократизация данных является такой важной тенденцией для бизнеса. Это предполагает открытие информации, чтобы она была доступна всем на предприятии, независимо от их технических знаний.

Демократизация данных позволяет конечным пользователям получать доступ к необходимой им информации, не дожидаясь, пока ИТ-отдел предоставит доступ.
Демократизация данных позволяет конечным пользователям получать доступ к необходимой им информации, не дожидаясь, пока ИТ-отдел предоставит доступ.

По данным одного опроса, 80% бизнес-лидеров утверждают, что доступ к данным улучшает процесс принятия решений.
Опрос Harvard Business Review показал, что 97% бизнес-лидеров считают, что демократизация данных важна для успеха их бизнеса.
Но впереди еще долгий путь. Только 60% из них утверждают, что их организации эффективно предоставляют сотрудникам доступ к данным и инструментам, необходимым для их анализа.

Почти все респонденты заявили, что демократизация данных имеет решающее значение для успеха бизнеса.
Почти все респонденты заявили, что демократизация данных имеет решающее значение для успеха бизнеса.

Передача данных в руки лиц, принимающих решения, означает, что многие сотрудники компании становятся гражданскими специалистами по данным , людьми, которые могут анализировать данные, но не берут на себя эту задачу в качестве своей основной роли.
Coca-Cola инвестировала в повышение квалификации менеджеров , чтобы привлечь в свою организацию больше специалистов по обработке данных.
За первый год программы они обучили более 500 человек цифровым навыкам, таким как анализ данных. В ближайшие годы они планируют распространить программу на более чем 4000 сотрудников.
Помимо реализации новых программ обучения, предприятия также выбирают инструменты самообслуживания для анализа данных , которые позволяют сотрудникам запрашивать и анализировать данные без какого-либо предварительного обучения.
Alteryx предлагает различные варианты программного обеспечения для анализа данных, доступные обычным конечным пользователям.
Их платформа предлагает интуитивно понятный способ анализа данных без использования кода. Платформа использует ML и NLP, но Alteryx также недавно выпустила функции генеративного искусственного интеллекта .

Количество запросов по слову «генеративный ИИ» стремительно растет.
Количество запросов по слову «генеративный ИИ» стремительно растет.

Эти функции реализуются как «Волшебные документы», которые автоматизируют обобщение аналитических данных, и «Сводка рабочих процессов», которая использует ChatGPT для документирования рабочих процессов.

Платформа также получит разъем OpenAI, который будет служить открытым генеративным решением искусственного интеллекта для бизнеса.

Новые  функции генеративного искусственного интеллекта от Alteryx ориентированы на повышение эффективности анализа данных и создания отчетов.
Новые функции генеративного искусственного интеллекта от Alteryx ориентированы на повышение эффективности анализа данных и создания отчетов.

Alteryx стала публичной в 2017 году и с тех пор увеличила свою стоимость до $2,74 млрд .

6. Реализация архитектуры сетки данных

Сетка данных — это архитектура, поддерживающая аналитику самообслуживания.

За последние пять лет объем поисковых запросов по запросу «сетка данных» увеличился почти на 400%.
За последние пять лет объем поисковых запросов по запросу «сетка данных» увеличился почти на 400%.

Это подход, который выступает за децентрализацию владения и управления данными, рассмотрение данных как продукта и создание групп, ориентированных на предметную область.

Основная идея сетки данных — распределить ответственность за данные между различными командами внутри предприятия. Это позволяет командам брать на себя ответственность за свои собственные области данных и самостоятельно принимать решения на основе данных.

Управление также встроено в отраслевые команды, а не навязывается сверху вниз. Каждая команда имеет автономию в управлении своими продуктами данных в соответствии с конкретными требованиями своей предметной области.

За последние годы объем поисковых запросов по запросу «управление данными» увеличился более чем на 100%.
За последние годы объем поисковых запросов по запросу «управление данными» увеличился более чем на 100%.

Поскольку данные распределены, каждая корпоративная команда может использовать инструменты и технологии, которые подходят для их конкретной области .
Команда управления запасами может использовать одну систему, а команды маркетинга и продаж — другой инструмент.
Конечным результатом является то, что у команд есть необходимые данные и инструменты, необходимые для инноваций, экспериментов и эффективного принятия решений.

Сеть данных предлагает масштабируемое и гибкое решение для предприятий, обрабатывающих большие объемы данных.
Сеть данных предлагает масштабируемое и гибкое решение для предприятий, обрабатывающих большие объемы данных.

Подход к ячейке данных имеет несколько преимуществ для бизнеса: он более экономичен, поскольку снижает нагрузку на систему хранения; это облегчает взаимодействие; это повышает безопасность и соответствие нормативным требованиям.
Жамак Дегани, впервые представившая миру концепцию сетки данных, в январе 2023 года объявила о создании собственной компании по обработке данных — Nextdata.
Цель Nextdata – помочь предприятиям децентрализовать данные, используя ячеистую архитектуру данных и контейнеры продуктов данных.

Nextdata предлагает предприятиям способ внедрения решений для сетей данных.
Nextdata предлагает предприятиям способ внедрения решений для сетей данных.

Продукт Nextdata все еще находится на стадии проектирования и тестирования.
Одним из примеров архитектуры сетки данных в действии является финансовая индустрия, где данные невероятно ценны, но их совместное использование сопряжено с неизбежными рисками безопасности и конфиденциальности.
Банк JPMorgan Chase Bank в 2022 году создал решение для сетки данных с помощью AWS.
Прежде чем интегрировать сетку данных, командам необходимо будет извлекать и объединять данные из нескольких систем в нескольких доменах данных для создания отчетов.
Но благодаря сетке данных команды, владеющие данными, делают их доступными в озерах данных. Другие команды могут найти эти данные через корпоративный каталог данных и запросить их.
Данные передаются напрямую из приложения одной команды в приложение другой команды.

С помощью сетки данных команды могут обмениваться данными и отслеживать их происхождение.
С помощью сетки данных команды могут обмениваться данными и отслеживать их происхождение.

7. Использование синтетических данных для предоставления высококачественных данных при обеспечении конфиденциальности

Синтетические данные являются поддельными и созданы компьютерной программой. Он не основан на каком-либо реальном человеке или событии. Но это становится невероятно ценным для области анализа данных.

Объем поиска «синтетических данных» вырос более чем на 600% с 2019 года.
Объем поиска «синтетических данных» вырос более чем на 600% с 2019 года.

Поскольку все больше и больше предприятий начинают внедрять системы аналитики AI/ML, им нужны данные для использования при обучении этих систем.
Некоторым компаниям сложно собрать большие объемы данных высокого качества, необходимые для обучения.
Вот тут-то и приходят на помощь синтетические данные.

Синтетические данные могут быть полностью синтетическими или частично синтетическими.
Синтетические данные могут быть полностью синтетическими или частично синтетическими.

Эти данные создаются путем взятия базы данных, создания для нее модели машинного обучения и генерации из нее второго набора данных.
Синтетические данные имеют те же шаблоны и свойства, что и реальные данные, но они не привязаны к каким-либо реальным идентификаторам данных.
Большой объем синтетических данных может быть создан за короткий период времени. И он автоматически помечается по мере создания.
Это также лучший способ получить высококачественные данные о событиях, которые нечасто происходят в реальном мире.
Еще один большой камень преткновения — безопасность и конфиденциальность.
Синтетические данные идеально подходят для предприятий, которым необходимо обеспечить конфиденциальность данных . Анонимизация данных может быть неэффективной, но с синтетическими данными это не проблема, поскольку они никогда не были реальными.
Например, синтетические данные используются в медицинской сфере.
Калифорнийский университет в Дэвисе в Сакраменто, штат Калифорния, в апреле 2022 года выиграл грант в размере 1,2 миллиона долларов на разработку новых способов получения синтетических данных для прогнозирования заболеваемости.

Исследователи Массачусетского технологического института разработали Synthetic Data Vault — инструмент с открытым исходным кодом для создания синтетических наборов данных.
Исследователи Массачусетского технологического института разработали Synthetic Data Vault — инструмент с открытым исходным кодом для создания синтетических наборов данных.

Немецкая группа медицинского страхования Provinzial использует синтетические данные для прогнозной аналитики .
Они использовали эти данные для создания аналитической системы рекомендаций, которая прогнозирует, какие услуги и продукты понадобятся их клиентам в следующий раз.
Предприятие сэкономило три месяца, поскольку им не нужно было проходить оценку конфиденциальности.
Они также сократили время получения данных на 4 недели.
В качестве примера из государственного сектора можно привести город Вена, который использовал синтетические данные при разработке более 300 программных приложений для города.
Городу нужны были демографические данные, но они защищены GDPR.
Таким образом, они использовали существующие наборы данных для создания синтетических данных, которые соответствовали реальному населению и количеству домохозяйств, но не включали никаких идентификаторов, связанных с личными данными.
Они проанализировали синтетические данные, чтобы создать инструменты для туристов, приложения для людей, пользующихся общественным транспортом, и другие решения, связанные с географическими данными.
Gartner прогнозирует, что к 2024 году 60% данных, используемых решениями искусственного интеллекта и аналитики, будут синтетическими.

По прогнозам, модели ИИ будут использовать больше <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fblogs.nvidia.com%2Fblog%2F2021%2F06%2F08%2Fwhat-is-synthetic-data%2F&postId=825862" rel="nofollow noreferrer noopener" target="_blank">синтетических данных</a> по мере приближения к 2030 году.
По прогнозам, модели ИИ будут использовать больше синтетических данных по мере приближения к 2030 году.

Заключение

Поскольку организации по всему миру стремятся оставаться впереди конкурентов, анализ данных, вероятно, продолжит оставаться отличительным фактором. Способность генерировать и использовать бизнес-аналитику является важнейшим фактором роста предприятия.

Первые пользователи начинают осознавать мощь периферийных вычислений и возможность превращать свои данные в ценную информацию в режиме реального времени. Но некоторые идут еще дальше и внедряют платформы машинного обучения, которые могут давать ценную информацию без вмешательства человека. Другие видят, что благодаря демократизации данных на предприятии становится все больше решений, основанных на данных.

Короче говоря, в сфере анализа данных, похоже, есть много возможностей для будущего роста.

22
Начать дискуссию