Аналитику по большим данным может делать каждый менеджер. Введение в многомерный анализ

Взаимодействие с большими данными может быть простым и оперативным. Нужно только быть готовым работать в новой парадигме, когда ответ на свой вопрос ты получаешь в течение пяти минут, а не через неделю.

В настоящий момент между данными и бизнесом есть несколько промежуточных звеньев, препятствующих работе в режиме реального времени. Речь идёт о технических сложностях, связанных с «машинным» характером инструментов обработки и хранения больших объёмов информации. Чтобы получить ответ на свой вопрос нужно обратиться в ИТ-департамент или к аналитику, сформировать задание и несколько часов-дней-недель ждать результат. Такая громоздкость производит впечатление колоссального объёма работы и высокого уровня компетенции исполнителя, хотя по факту это просто выгрузка нужных данных из базы и приведение их в вид, доступный для чтения.

Такую ситуацию мы наблюдаем во многих отраслях. В одном из наших проектов изначально регулярная отчетность готовилась по две недели, а специфические запросы могли обрабатываться месяц и больше, увеличивая нагрузку на сотрудников из разных департаментов и ИТ-инфраструктуру.

А теперь представим, что технологии работы с большими данными перестали быть чем-то сакральным, к чему есть доступ только у избранных. Упрощение использования наблюдается во всех технологических областях: сейчас любой может настроить себе сайт, завести электронный ящик, сделать банковский перевод, и взаимодействие с большими данными не является исключением. Как и во всех других случаях для этого применяются специальные инструменты – программы с интуитивно-понятным интерфейсом и высоким быстродействием. Для анализа больших данных применяется специальная программная прослойка, которая аккумулирует информацию из различных источников и предоставляет возможность бизнес-пользователям самостоятельно искать ответы на свои вопросы в режиме: появилась гипотеза – проверил на данных.

С самого начала мы воспринимаем данные как плоские таблицы, например, по вертикали перечень магазинов, а по горизонтали различные показатели: выручка, количество сотрудников, затраты, прибыль. И мы привыкаем к тому, как выглядят наши стандартные двумерные отчёты, – определенная последовательность столбцов и строк позволяет быстро выхватывать глазами нужную информацию. Но сколько отчётов нужно, чтобы оценить всю картину целиком?

Когда бизнес-пользователи начитают работать с большими данными они, как правило, начитают с того, что повторяют стандартные отчёты и дэшборды, к которым привыкли. И уже здесь они чувствуют значительный качественный скачок – данные можно смотреть в динамике, использовать сортировку, фильтрацию и группировку. Если, например, в компании есть проблемы с единой точкой правды, как это было в компании Mary Kay и АСНА, то разрешить эту ситуацию можно в течение нескольких минут, рассчитав нужные показатели на всём массиве данных.

Но настоящим прорывом, позволяющим использовать данные как неиссякаемый источник улучшений для бизнеса, является переход к модели многомерного мышления.

По этому поводу вспоминается анекдот про Флатландию (от англ. flat — плоский), придуманный Карлом Саганом: «Все жители этой двумерной страны имеют ширину и длину, но не имеют высоты. Мы знаем, что такое направо и налево, вперёд и назад, но никто, кроме наших плоских математиков, не имеет ни малейшего представления о том, что есть верх и низ. Они говорят: «Послушайте, это в самом деле очень просто. Представьте себе движение влево-вправо. Теперь движение вперёд-назад. Пока всё в порядке? Теперь вообразите другое измерение, под прямым углом к нашим двум». А мы отвечаем: «Что вы несёте? Как это «Под прямым углом к нашим двум»?! Существуют только два измерения. Покажите нам третье измерение. Где оно?» И математики в унынии удаляются. Никто не слушает математиков».

Работая с большими данными, в определенный момент ты понимаешь, что привычная плоская таблица – это просто срез сложной многомерной фигуры, созданной из всего объёма собранных данных. Такие фигуры мы называем мультисферами, так как их можно вращать, объединять измерения и создавать собственные иерархии в режиме реального времени.

Помните таблицу, где по вертикали перечень магазинов, а по горизонтали различные показатели? Мы можем развернуть её и посмотреть выручку в разрезе магазинов, товарных групп, расходов. Увидев отклонение, «провалиться» на самый низкий уровень до конкретного чека или переместиться по временной шкале день-неделя-месяц-квартал-год. Строки и столбцы выбираются в любом порядке и значения будут отображаться мгновенно. Получается, что анализ данных равен скорости воображения пользователя. Главное, чтобы бизнес-пользователь обладал достаточной компетенцией, чтобы знать, какие вопросы нужно задавать.

Еще несколько лет назад Gartner отметил тренд к самообслуживанию у бизнес-пользователей. По этому поводу был предложен термин Citizen Data Scientist для обозначения людей бизнеса, которые самостоятельно закрывают каждодневные аналитические задачи. Об их роли можно прочитать в блоге Gartner. В результате: компания получает выигрыш по времени, управленческие решения принимаются быстрее, есть увеличение прибыли за счёт оптимизации затрат на управление – после внедрения новой аналитической платформы ритейлер сократил штат аналитиков в 2 раза. Но это только вершина айсберга, помимо сокращения расходов в компании отметили значительное увеличение прибыльности продуктовых категорий благодаря новой сегментации, построенной на основе математических алгоритмов и обработки реальных клиентских данных.

Происходит изменение в образе мышления самих бизнес-пользователей, так как теперь нет лага по времени между постановкой вопроса и получением ответа. Идеи можно генерировать быстрее и проверять больше гипотез. С одной стороны, это означает, что интуиция становится менее значимой – на смену ей приходят взвешенные решения, подкрепленные достоверной информацией. С другой стороны, для получения наилучшего результата бизнес-пользователю требуется взращивать нестандартный подход к аналитике.

В настоящий момент, когда с одной стороны произошло повышение пенсионного возраста, а с другой есть угроза замены части персонала роботами и/или искусственным интеллектом, имеет смысл развивать качества, отличающие нас от машин – творческий подход и гибкость мышления. Способность эффективно работать в новой парадигме взаимодействия с большими данными является одним из шагов в этом направлении.

9 комментариев

Ethnic Playmaker

26.03.2019

Странная статья. Ожидал увидеть обзор python/r, но «вдруг» внутри не оказалось никакой конкретики

Ответить

Аккаунт удален

Комментарий недоступен

Nick Chernykh

27.03.2019

Что за воронка из 20 уровней? Пришел на работу-1ый уровень достигнут?

Мария Репина

"Помните таблицу, где по вертикали перечень магазинов, а по горизонтали различные показатели? Мы можем развернуть её и посмотреть выручку в разрезе магазинов, товарных групп, расходов. Увидев отклонение, «провалиться» на самый низкий уровень до конкретного чека или переместиться по временной шкале день-неделя-месяц-квартал-год. Строки и столбцы выбираются в любом порядке и значения будут отображаться мгновенно."

подскажите, пож-та, а можно поподробнее про "развернуть" ? что конкретно имеется в виду? речь же не о фильтрации?)

Some Body

Похоже, что таблица, где по вертикали перечень магазинов, а по горизонтали различные показатели - это просто сводная таблица, где одна строка (магазин) и её показатели являются суммой целой кучи строк (например, таблицы заказов), у которых одинаковое значение в столбце "магазин". "Развернуть" в данном случае - разгруппировать и увидеть строки-заказы.
Причём таких слоёв может быть много.
Простой пример, группировка по годам, странам и городам:

Natalia Yashenkova

Работа идет с размерностями и фактами - грубо говоря с тем, что в таблице по вертикали и горизонтали. Вытягиваете из общего перечня нужные и в том числе делаете фильтрацию, выборку, группировку, кластеризацию, ассоциацию и т.д. Прекрепила видео "Как отобрать целевую аудиторию для рекламной кампании".

Ivan Odintsov

Вы пишите:
"Такую ситуацию мы наблюдаем во многих отраслях. В одном из наших проектов изначально регулярная отчетность готовилась по две недели, а специфические запросы могли обрабатываться месяц и больше, увеличивая нагрузку на сотрудников из разных департаментов и ИТ-инфраструктуру."

А как решили эту поблему ?
Если ИТ готовит две недели отчет, то я не думаю, что рядовой сотрудник за пару минут справится.