Как работает с данными self-service BI. Рассказываем по-простому

Тренды работы с данными 2023

Умение работать с данными — кросс-функциональный «жесткий» навык, который необходим специалистам разных уровней и областей бизнеса. Он одинаково важен и для руководителей среднего звена, и для совета директоров для принятия управленческих решений. Однако далеко не каждый топ-менеджер владеет языками программирования и опытом самостоятельного использования современных инструментов бизнес-аналитики (BI-систем). Собирать информацию вручную затруднительно, а порой и невозможно — слишком большие объемы данных, которые к тому же могут быть неполными или быстро устаревающими.

Бизнес-аналитика, BI (Business intelligence) — это набор методов и инструментов для работы с данными, их обработки и визуализации.

Развитие этого направления сегодня связано с несколькими набирающими силу трендами:

  • Оцифровка архива данных компаний для анализа прошедших событий и их интерпретации;
  • Стремление BI-систем к универсальности и интеграции с новыми, постоянно появляющимися сферами деятельности человека;
  • Взаимодействие с большими данными;
  • Внедрение нейросетей и машинного обучения для предсказательной аналитики и принятия управленческих решений.

Пример применения BI-системы №1: Страховая компания

Данные для сбора и анализа: количество застрахованных, доходы по страховым взносам, количество страховых случаев за период и выплаты по ним;

Выводы: прибыль или убыток компании в разрезе различных страховых случаев;

Управленческое решение: пересмотр страховых пакетов и тарификации для максимизации прибыли компании.

Пример применения BI-системы №2: Медицинское учреждение

Данные для сбора и анализа:результаты работы отделений, загрузка участков и врачей, количество больных и очагов заболевания по участкам за период;

Выводы:объем загрузки участков и врачей;

Управленческое решение:перераспределение штата врачей по участкам, изменение бюджета или состава рабочей группы.

Что такое Self-service, кому и зачем он нужен в BI?

С увеличением объема данных, источников, пользователей и разнообразных кейсов, функциональность BI-систем также расширяется. Однако по мере роста сложности инструмента возникают определенные проблемы. Сложные процессы могут создать зависимость от ИТ-специалистов для решения задач, а пользователи-аналитики больше предпочитают самостоятельно выполнять необходимые действия. Это и подталкивает к созданию продуктов формата self-service: компании переосмысляют свои организационные модели и навыки, а индустрия отвечает на этот запрос, снижая порог вхождения в отрасль.

Self-service — это low-code или no-code подход работы, сводящий к минимуму участие IT-отдела в процессе обработки данных внутри компании. Он подходит для быстрой проверки гипотез, экономит ресурсы и время.

Однако self-service подход, то есть путь упрощения, на первый взгляд, вступает в противоречие собственно с необходимостью глубокой аналитики больших данных. Дело в том, что работа с большими данными - это технологически сложная штука: для решения практических задач зачастую приходится привлекать целую команду специалистов с различными квалификациями: инженеры данных, разработчики, аналитики данных, девопсы.

Сталкиваться с большими данными в BI-задачах в 2023 приходится часто, например:

  • В решаемой задаче много строк с фактами (от 1 миллиона и больше);
  • Скорость прироста данных превышает возможности по их своевременной обработке;
  • Данные располагаются в нескольких разнородных источниках, что требует их предварительного объединения в общую таблицу.

Как работает BI-система?

Работа по внедрению бизнес-аналитики начинается с добавления технологии в существующую экосистему приложений, которыми пользуется компания. BI-система подключается к внешним и внутренним источникам данных как спрут, информация из них объединяется, очищается, обогащается и выгружается. В результате пользователь видит готовый отчет с информацией, интерактивными графиками и диаграммами. Однако красивая картинка (собственно, визуализация данных) составляет не более 40% от всех процессов BI — большая часть работы скрывается “под капотом”.

Над получением и обработкой данных работают специалисты со знаниями DML/DDL операций и разных языков запросов, над созданием условий хранения — те, кто разбирается в архитектуре хранилищ и формировании их слоев. Главный навык для работы с BI-продуктами — желание заглянуть в будущее. Предиктивная аналитика обязывает знать принципы ML, Data Mining и математических моделей.

Основной структурой данных в BI-платформах является базовая аналитическая таблица (Analytical Base Table, ABT). Базовая аналитическая таблица представляет собой простую, плоскую табличную структуру данных, состоящую из строк и столбцов. Зачастую ABT называют витринами, ведь в них находятся очищенные и подготовленные к представлению пользователям данные. В первом приближении аналитическую таблицу можно рассматривать как лист Excel, только без ограничений на количество строк, столбцов и общего количества ячеек.

Для построения ABT применяется набор механизмов, которые, обычно, называются ETL (Extract-Transform-Load). Стадия Extract обеспечивает выгрузку данных из всех необходимых источников. На стадии Transform происходит объединение выгруженных данных в единую модель данных, их очистка и обогащение. Стадия Load выполняет загрузку полученной ABT в постоянное производительное хранилище аналитических данных.

И, наконец, подсистема визуализации обеспечивает представление данных и агрегатов в виде диаграмм, кросс-таблиц, отчетов, информационных панелей (дашбордов) на основе загруженной в аналитическое хранилище таблицы. ABT также используется для подсистемы интеллектуального прогнозирования.

<i>Процесс обработки данных в BI-системе Analytic Workspace (AW BI)</i>
Процесс обработки данных в BI-системе Analytic Workspace (AW BI)

Технологические вызовы при работе с большими данными

Почему обработка больших данных является технологически сложной операцией?

Раскроем основные технологические вызовы и покажем, как они решаются на примере self-service BI-системы AW BI:

  • Большое разнообразие источников и форматов данных. BI-платформа должна поддерживать возможность обработки не только стандартных реляционных СУБД, но и файлов во всевозможных форматах, а также получение данных из web-сервисов;
  • Для построения витрины может потребоваться такое количество ресурсов, что один сервер не сможет с этим справиться. Это обстоятельство резко усложняет всем жизнь, т.к. настройка “синхронной” работы нескольких серверов для решения одной задачи - это как раз то, для чего и нужны технические специалисты;
  • Большой размер итоговой ABT требует производительного хранилища, т.к. эффективная работа подсистемы визуализации возможна только при наличии особого рода баз данных, умеющих быстро доставать не только строки самой таблицы, но и любые разумные агрегаты над ней.
<i>Работа с моделями в AW BI в режиме self-service</i>
Работа с моделями в AW BI в режиме self-service

В AW BI собраны актуальные технологии, которые позволяют решать данные задачи эффективным образом: полноценный ETL-модуль на базе связки open-source сервисов Apache Airflow, Apache Spark и Apache Drill для обработки данных в режиме self-service и внутреннее хранилище данных на базе Clickhouse.

Пользователям Analytic Workspace не требуется обучаться работать с этими сервисами - все внутреннее взаимодействие выполняется автоматически исходя из потребностей текущей решаемой прикладной задачи. Пользователь лишь указывает параметры подключения к источникам данных и указывает, в каком виде должна быть собрана итоговая витрина с данными, все остальные операции в рамках процесса обработки данных Analytic Workspace настраивает и выполняет самостоятельно.

Аналогично происходит построение визуализации в виде виджетов и дашбордов - пользователь указывает, в каком виде должны быть представлены данные (в том числе, из нескольких витрин на одном дашборде). А Analytic Workspace настраивает порядок получения данных для визуализации с наилучшим временным откликом в интерфейсе.

<i>Вид информационных панелей Analytic Workspace (AW BI)</i>
Вид информационных панелей Analytic Workspace (AW BI)

Большое разнообразие источников

Среднестатистическая BI-система должна уметь подключаться к очень большому количеству источников: разнообразные базы данных, файлы всех мыслимых и немыслимых форматов (как локальные, так и удаленные, доступные по FTP-подобным протоколам), web-сервисы, неструктурированные данные в картинках/текстах/видео-потоках.

На сегодняшний день наша индустрия предлагает широкий круг open-source инструментов для доступа к данным из перечисленных выше источников:

  • JDBC-драйвера для SQL-подобных СУБД;
  • Библиотеки типа pandas для получения данных из структурированных файлов;
  • Предобученные модели машинного обучения, способные извлекать данные из неструктурированных форматов.

Таким образом, если ранее для получения данных из некоторого среднестатистического источника приходилось привлекать технически подготовленных специалистов, то теперь само подключение к источнику сводится к набору достаточно простых операций:

  • Выбор необходимого коннектора из довольно широкого списка доступных к использованию;
  • Ввод параметров подключения;
  • При необходимости - передача дополнительных параметров (например, указание на распознавание столбца csv-файла в формате даты).

Обработка данных, которые не помещаются на одном физическом сервере

Это действительно технологический вызов, поскольку, как только объем данных, необходимых для построения отдельно взятой витрины, начинает превышать объем доступной оперативной памяти или возможности одного сервера по процессорным мощностям, - сложность процесса сразу возрастает в разы.

Ранее с задачами обработки больших данных могли справиться лишь команды специально подготовленных инженеров данных, которые занимались распределением нагрузки на кластер серверов для каждой отдельно взятой витрины.

Сейчас жег в open-source доступны целые мощные системы для массивно параллельной обработки данных, которые «из коробки» могут масштабироваться на несколько серверов и единообразно выполнять задачи по обработке данных, пришедших из любого источника для получения любой витрины.

Ярким примером такой платформы является Apache Spark, в основе которого лежит реализация map-reduce подхода к массивно-параллельной обработке огромного массива данных на основе распределенных data-frame.

Обработка данных при таком подходе представляет собой несколько частично зависимых между собой этапов (некоторые операции могут выполняться параллельно, некоторые - должны дождаться результатов с предыдущих этапов). Для оркестрации такого процесса в Analytic Workspace используется Apache Airflow - признанный лидер в индустрии для создания, выполнения, мониторинга и оркестровки потоков операций по обработке данных.

<i>Самостоятельный просмотр Airflow-оркестровки работы Analytic Workspace</i>
Самостоятельный просмотр Airflow-оркестровки работы Analytic Workspace

Эффективное хранение и доступ к данным витрины

В практических задачах требуется не только решение технологической проблемы построения витрины на десятки и сотни миллионов записей, такого размера витрину требуется ещё и хранить таким образом, чтобы из нее можно было выполнять аналитические запросы в режиме реального времени.

В Analytic Workspace в качестве такой аналитической базы данных используется Clickhouse - решение с открытым кодом. Во многих тестах ClickHouse показывает очень высокую производительность, выигрывая по этому показателю у таких конкурентов, как Greenplum, Vertica, Amazon Redshift, Druid, InfiniDB/MariaDB ColumnStore, Presto, Elasticsearch. Достаточно сказать, что такие компании, как Яндекс, Criteo, Cloudflare, Avito, Revoult, используют в своей работе именно хранилища Clickhouse.

Для чего использовать бизнесу?

Сейчас нашим продуктом пользуются компании из разных сфер. Мы постоянно обращаемся к ним за обратной связью: какие показатели требуются сотрудникам чаще других, насколько комфортен сервис, в какой деятельности им больше всего нужен self-service BI? Сортируем полученные ответы по популярности:

Прогнозирование доходов и возможных затрат;

  • Сбор статистики и показателей эффективности подразделений;
  • Финансовое планирование и оптимизация;
  • Интеграция с медицинскими информационными системами;
  • Визуализация логистики и поиск слабых мест;
  • Сбор информации о вакансиях и сотрудниках, прослеживание динамики изменения рынка;
  • Измерение результатов маркетинговых кампаний, таргетированной рекламы, KPI отделов.

В разных отраслях преследуются разные цели, но главной задачей остается экономия времени и ресурсов в долгосрочной перспективе. Как и любое внедрение новой функциональности, self-service нужно изучить, разобраться с его работой. Но даже в перспективе года перераспределение рабочих часов и ресурсов компании будет заметным: IT-отдел сможет заниматься более сложными задачами, а бухгалтерия, управление и маркетинг станут более независимыми. Более того, использование BI-инструмента повышает общее качество работы, поскольку помогает быстро находить ошибки в процессах и менять траекторию развития компании в случае необходимости. Такой подход позволяет принимать взвешенные решения, основанные на данных.

Выводы

Каждая BI-система предоставляет разные возможности самостоятельной работы пользователей (уровень self-service) с данными. В некоторых системах самостоятельная работа ограничивается созданием визуализаций, в то время как другие, например, Analytic Workspace https://analyticworkspace.ru , позволяют пользователям самостоятельно работать с моделями данных. Это дает возможность аналитикам обнаруживать более глубокие взаимосвязи и внутренние закономерности в данных, открывая новые инсайты.

Обучиться работе в Analytic Workspace также можно самостоятельно, получив доступ к бесплатной демо-версии или пройдя бесплатный пошаговый курс «BI-аналитик» от Analytic Workspace Academy на платформе Stepic.

66
5 комментариев

Всё таки наверное ваше решение это не Self Service BI, а платформа данных, в том числе предоставляющая пользователям элементы самостоятельного анализа данных? При внедрении и эксплуатации Self Service BI наиболее важным, с моей точки зрения, является не ИТ часть, а единство НСИ, справочников, доступность метаданных, наличие владельцев сущностей, единство расчета показателей, развитие навыков бизнеса. То есть процессы и компетенции.

Несетевые небольшие аптеки abc_xyz дашборд ( или еще чего полезного ) потянут финансово или опять на коленке писать свое придется ?