Аналитику по большим данным может делать каждый менеджер. Введение в многомерный анализ

Взаимодействие с большими данными может быть простым и оперативным. Нужно только быть готовым работать в новой парадигме, когда ответ на свой вопрос ты получаешь в течение пяти минут, а не через неделю.

В настоящий момент между данными и бизнесом есть несколько промежуточных звеньев, препятствующих работе в режиме реального времени. Речь идёт о технических сложностях, связанных с «машинным» характером инструментов обработки и хранения больших объёмов информации. Чтобы получить ответ на свой вопрос нужно обратиться в ИТ-департамент или к аналитику, сформировать задание и несколько часов-дней-недель ждать результат. Такая громоздкость производит впечатление колоссального объёма работы и высокого уровня компетенции исполнителя, хотя по факту это просто выгрузка нужных данных из базы и приведение их в вид, доступный для чтения.

Такую ситуацию мы наблюдаем во многих отраслях. В одном из наших проектов изначально регулярная отчетность готовилась по две недели, а специфические запросы могли обрабатываться месяц и больше, увеличивая нагрузку на сотрудников из разных департаментов и ИТ-инфраструктуру.

А теперь представим, что технологии работы с большими данными перестали быть чем-то сакральным, к чему есть доступ только у избранных. Упрощение использования наблюдается во всех технологических областях: сейчас любой может настроить себе сайт, завести электронный ящик, сделать банковский перевод, и взаимодействие с большими данными не является исключением. Как и во всех других случаях для этого применяются специальные инструменты – программы с интуитивно-понятным интерфейсом и высоким быстродействием. Для анализа больших данных применяется специальная программная прослойка, которая аккумулирует информацию из различных источников и предоставляет возможность бизнес-пользователям самостоятельно искать ответы на свои вопросы в режиме: появилась гипотеза – проверил на данных.

С самого начала мы воспринимаем данные как плоские таблицы, например, по вертикали перечень магазинов, а по горизонтали различные показатели: выручка, количество сотрудников, затраты, прибыль. И мы привыкаем к тому, как выглядят наши стандартные двумерные отчёты, – определенная последовательность столбцов и строк позволяет быстро выхватывать глазами нужную информацию. Но сколько отчётов нужно, чтобы оценить всю картину целиком?

Когда бизнес-пользователи начитают работать с большими данными они, как правило, начитают с того, что повторяют стандартные отчёты и дэшборды, к которым привыкли. И уже здесь они чувствуют значительный качественный скачок – данные можно смотреть в динамике, использовать сортировку, фильтрацию и группировку. Если, например, в компании есть проблемы с единой точкой правды, как это было в компании Mary Kay и АСНА, то разрешить эту ситуацию можно в течение нескольких минут, рассчитав нужные показатели на всём массиве данных.

Но настоящим прорывом, позволяющим использовать данные как неиссякаемый источник улучшений для бизнеса, является переход к модели многомерного мышления.

По этому поводу вспоминается анекдот про Флатландию (от англ. flat — плоский), придуманный Карлом Саганом: «Все жители этой двумерной страны имеют ширину и длину, но не имеют высоты. Мы знаем, что такое направо и налево, вперёд и назад, но никто, кроме наших плоских математиков, не имеет ни малейшего представления о том, что есть верх и низ. Они говорят: «Послушайте, это в самом деле очень просто. Представьте себе движение влево-вправо. Теперь движение вперёд-назад. Пока всё в порядке? Теперь вообразите другое измерение, под прямым углом к нашим двум». А мы отвечаем: «Что вы несёте? Как это «Под прямым углом к нашим двум»?! Существуют только два измерения. Покажите нам третье измерение. Где оно?» И математики в унынии удаляются. Никто не слушает математиков».

Работая с большими данными, в определенный момент ты понимаешь, что привычная плоская таблица – это просто срез сложной многомерной фигуры, созданной из всего объёма собранных данных. Такие фигуры мы называем мультисферами, так как их можно вращать, объединять измерения и создавать собственные иерархии в режиме реального времени.

Помните таблицу, где по вертикали перечень магазинов, а по горизонтали различные показатели? Мы можем развернуть её и посмотреть выручку в разрезе магазинов, товарных групп, расходов. Увидев отклонение, «провалиться» на самый низкий уровень до конкретного чека или переместиться по временной шкале день-неделя-месяц-квартал-год. Строки и столбцы выбираются в любом порядке и значения будут отображаться мгновенно. Получается, что анализ данных равен скорости воображения пользователя. Главное, чтобы бизнес-пользователь обладал достаточной компетенцией, чтобы знать, какие вопросы нужно задавать.

Еще несколько лет назад Gartner отметил тренд к самообслуживанию у бизнес-пользователей. По этому поводу был предложен термин Citizen Data Scientist для обозначения людей бизнеса, которые самостоятельно закрывают каждодневные аналитические задачи. Об их роли можно прочитать в блоге Gartner. В результате: компания получает выигрыш по времени, управленческие решения принимаются быстрее, есть увеличение прибыли за счёт оптимизации затрат на управление – после внедрения новой аналитической платформы ритейлер сократил штат аналитиков в 2 раза. Но это только вершина айсберга, помимо сокращения расходов в компании отметили значительное увеличение прибыльности продуктовых категорий благодаря новой сегментации, построенной на основе математических алгоритмов и обработки реальных клиентских данных.

Происходит изменение в образе мышления самих бизнес-пользователей, так как теперь нет лага по времени между постановкой вопроса и получением ответа. Идеи можно генерировать быстрее и проверять больше гипотез. С одной стороны, это означает, что интуиция становится менее значимой – на смену ей приходят взвешенные решения, подкрепленные достоверной информацией. С другой стороны, для получения наилучшего результата бизнес-пользователю требуется взращивать нестандартный подход к аналитике.

В настоящий момент, когда с одной стороны произошло повышение пенсионного возраста, а с другой есть угроза замены части персонала роботами и/или искусственным интеллектом, имеет смысл развивать качества, отличающие нас от машин – творческий подход и гибкость мышления. Способность эффективно работать в новой парадигме взаимодействия с большими данными является одним из шагов в этом направлении.

0
9 комментариев
Написать комментарий...
Ethnic Playmaker

Странная статья. Ожидал увидеть обзор python/r, но «вдруг» внутри не оказалось никакой конкретики

Ответить
Развернуть ветку
Айдар Зарипов
Аналитику по большим данным может делать каждый менеджер

Ой как вы ошибаетесь...не каждый менеджер. Огромное количество не то, что аналитику делать, а читать готовую воронку продаж из 20 уровней нормально не могут.

Ответить
Развернуть ветку
Nick Chernykh

Что за воронка из 20 уровней? Пришел на работу-1ый уровень достигнут?

Ответить
Развернуть ветку
Айдар Зарипов

Там же написано "воронка продаж".

Ответить
Развернуть ветку
Мария Репина

"Помните таблицу, где по вертикали перечень магазинов, а по горизонтали различные показатели? Мы можем развернуть её и посмотреть выручку в разрезе магазинов, товарных групп, расходов. Увидев отклонение, «провалиться» на самый низкий уровень до конкретного чека или переместиться по временной шкале день-неделя-месяц-квартал-год. Строки и столбцы выбираются в любом порядке и значения будут отображаться мгновенно."

подскажите, пож-та, а можно поподробнее про "развернуть" ? что конкретно имеется в виду? речь же не о фильтрации?)

Ответить
Развернуть ветку
Some Body

Похоже, что таблица, где по вертикали перечень магазинов, а по горизонтали различные показатели - это просто сводная таблица, где одна строка (магазин) и её показатели являются суммой целой кучи строк (например, таблицы заказов), у которых одинаковое значение в столбце "магазин". "Развернуть" в данном случае - разгруппировать и увидеть строки-заказы.
Причём таких слоёв может быть много.
Простой пример, группировка по годам, странам и городам:

Ответить
Развернуть ветку
Natalia Yashenkova

Работа идет с размерностями и фактами - грубо говоря с тем, что в таблице по вертикали и горизонтали. Вытягиваете из общего перечня нужные и в том числе делаете фильтрацию, выборку, группировку, кластеризацию, ассоциацию и т.д. Прекрепила видео "Как отобрать целевую аудиторию для рекламной кампании".

Ответить
Развернуть ветку
Ivan Odintsov

Вы пишите:
"Такую ситуацию мы наблюдаем во многих отраслях. В одном из наших проектов изначально регулярная отчетность готовилась по две недели, а специфические запросы могли обрабатываться месяц и больше, увеличивая нагрузку на сотрудников из разных департаментов и ИТ-инфраструктуру."

А как решили эту поблему ?
Если ИТ готовит две недели отчет, то я не думаю, что рядовой сотрудник за пару минут справится.

Ответить
Развернуть ветку
Natalia Yashenkova

Речь идет о внедрении информационной системы, которая выступает хранилищем данных с инкрементальным обновлением, из которого с помощью простого интерфейса без программирования и написания SQL-запросов аналитик или менеджер может получить необходимую для отчета информацию действительно за минуты. Прикрепляю видео, где Роман Раевский, основатель и генеральный директор компании Polymatica, и Илья Садовенко, ИТ-директор Mary Kay Europe, рассказывают о результатах внедрения.

Ответить
Развернуть ветку
Читать все 9 комментариев
null