Как контролировать воронку данных: 3 ключевых рекомендации

Аналитики данных регулярно сталкиваются с дилеммой, которую невозможно решить: либо использовать все данные для анализа и ждать вечность, пока он завершится, либо выбросить часть ненужных данных, рискуя, что их может быть недостаточно для точного анализа.

Как контролировать воронку данных: 3 ключевых рекомендации

На самом деле, сохранить баланс позволяют грамотно настроенные воронки данных. Мы в Platforma нашли и перевели небольшой, но любопытный материал, в котором автор рассказывает, что это и дает несколько советов, как правильно с ними работать.

Каждый день 2022 года генерировалось около 2,5 квинтиллионов байтов данных. Часть из них полезна для аналитики, но их сортировка может потребовать слишком много времени и усилий. А с помощью создания полезной воронки данных можно быстрее и проще фильтровать необходимую информацию.

Что такое воронка данных?

Воронка данных — это процесс уменьшения объемов данных в хранилище. Лучшей аналогией можно считать воронку найма, где рекрутеры используют специальный софт для просмотра резюме соискателей. HR-специалист просто вводит в систему требования для специалистов, которые претендуют на определенную вакансию, а утилита проверяет резюме на соответствие, чтобы сократить подборку кандидатов. Этот метод позволяет рекрутерам сосредоточиться на более важных задачах вместо просмотра множества резюме вручную.

Воронка данных работает по тому же принципу. К примеру, медико-биологический концерн изучает определенную молекулу вещества и ее лекарственный потенциал. И с самого начала они исключают все научные исследования, в которых не упоминается эта молекула. Это нужно, чтобы сохранить место и вычислительные мощности серверов, а также быстрее достичь результатов.

И пока процесс фильтрации данных в компании продолжается, управление воронками данных помогает сохранить равновесие между количеством данных, необходимым для достижения целей, и техническими возможностями, которые позволяют хранить и обрабатывать лишь определенные объемы информации.

Как определить, какие данные важны?

Высокая стоимость услуг хранения и обработки данных, независимо от того, находятся они на собственных серверах или на облачных сервисах, заставляет компании тщательно анализировать, сколько данных им нужно для бизнес-аналитики.

В некоторых случаях найти ненужные данные довольно легко — скорее всего, вам не нужна техническая и системная информация, и ее можно убрать. Но вот определить лишнее среди информации, которая прямо относится к предмету, сложнее. Существует риск, что из-за удаленных данных аналитики могут пропустить что-то важное.

К примеру, при использовании данных, которые зачастую собирают британские ритейлеры, аналитики вряд ли смогут прийти к выводам, что домохозяйки делают большинство онлайн-заказов в то время, когда их мужья уходят из дома смотреть футбол.

Подобные примеры неожиданных, но важных инсайтов — это основная причина, почему IT-компаниям и крупным концернам нужно действовать осторожно, когда они сужают воронку входящих данных.

Как контролировать воронку данных: 3 ключевых рекомендации

Три правила контроля воронок данных

Вкратце опишите все примеры использования аналитики и типы данных, которые для этого нужны

Это совместное задание для отдела аналитики данных и конечных пользователей. К примеру, важны ли вам жалобы клиентов в соцсетях, когда вы анализируете продажи и доходы компании? А если вы исследуете показатели заболеваемости в вашей клинике в Нью-Йорке, то интересно ли вам, что происходит в Калифорнии?

Определите, насколько точным должен быть анализ

Золотой стандарт для точности аналитики составляет 95% от точности, достижимой экспертом в своей области, но действительно ли во всех случаях нужны такие показатели?

Точность 95% необходима, когда вы оцениваете вероятность медицинского диагноза, основанного на определенных симптомах пациента. Но если вы прогнозируете изменение климатических условий на протяжении 20 следующих лет, то точности анализа в 70% будет вполне достаточно.

Требования к точности имеют прямое отношение к воронке данных. Вы можете исключить больше данных и сузить воронку, если ищете общие или долговременные тренды.

Проверяйте точность аналитики регулярно

Если аналитика демонстрировала точность 95%, когда только была запущена, а сейчас она снизилась до 80%, то есть смысл пересмотреть данные, которые вы используете, и перенастроить воронку данных.

Возможно, стали доступными новые источники данных, которые не использовались ранее. Их добавление расширит воронку данных, но при этом улучшит уровень точности.

Для построения точной воронки данных необходимо скрупулезно работать над ее основой — вашим запросом. Однако не нужно создавать воронку сразу идеальной, стройте ее, исходя из потребностей, обновляйте и развивайте. Она может меняться от месяца к месяцу и от года к году. Главное — стабильно работать над ее улучшением.

Приходилось ли вам работать с воронками данных? Расскажите о своем опыте или дайте свои рекомендации в комментариях.

1616
10 комментариев

При 95% от точности - погрешность получается небольшая, а какая выйдет от 70%? И можно ли как-то повысить точность получаемых данных?

Речь идёт о точности результатов использования данных, а не точности получаемых данных. Если считается, что даже получаемые данные верны только в 70%, то итоговая точность моделирования будет очень низкой. Лучший способ повысить точность получаемых данных – ввести строгие определения данных и стандартизировать механизм их получения.

Слышала только про воронку продаж и найма. У воронки данных есть какое-нибудь другое название?

Нет, «воронка» в данном случае, как с продажами или наймом – метафора, описывающая ситуацию, когда в начале процесса в нём больше элементов чем в конце, в результате график процесса напоминает воронку. Так происходит в процессе найма, продаж, и в случае с обработкой данных для конкретной цели.

Подскажите, пожалуйста, а с вашей точки зрения что эффективнее - единая воронка с широким общим потоком или разделение на несколько более мелких воронок с меньшим объемом атрибутов на каждую воронку?

Всё зависит от сложности бизнес-процессов, которые решаются с помощью данных и взаимосвязей между данными. Например, если все данные взаимосвязаны между собой или необходимы для решения одной задачи, лучше, если воронка одна. А если для поддержания разных бизнес-процессов компании необходимы несвязанные между собой данные, например, данные о клиентах, данные о сотрудниках и данные об арендуемых помещениях, то с такими данными будет проще работать с помощью нескольких воронок.

Вообще, тема достаточно непростая. В программировании надо думать итерациями (выбираем по одному то, что подходит), а в работе с базами данных надо наоборот, думать множествами (сваливаем всё в кучу, а потом выбрасываем то, что не подходит). Если этого не сделать — мозг начинает порождать сонмы сто лет ненужных коррелированных подзапросов, в которых чёрт ногу сломит.