Data drift — битч. Как перестать заливать 95-ый в дизельный двигатель бизнеса?

Прогнозирование на основе больших данных - мечта многих управленцев. Нашаманить машинку, которая будет делать прогнозы строить и просто подливай в нее данные. Такой прогноз дает возможность автоматизировать много операцонки - заказы на склад, периоды проведений и SKU для акций. Засада в том, что вместе с ростом и развитием бизнеса меняются данные, поступащие на вход машинки. ⇒ Прогноз может испортиться и серьезно навредить бизнесу, если этот момент не поймать. Давайте разберемся что такое Data drift - дрейф данных, и как их обнаружить заранее.

Что такое дрейф данных

Проблемы, возникающие в работе систем моделирования и прогнозирования, можно разделить на два типа: статистические и инфраструктурные.

С инфраструктурными проблемами все понятно — это связано с вычислительными ресурсами и памятью (хватает ли?), задержкой (быстро ли реагирует система?), пропускной способностью (успеваем ли мы обработать все входящие запросы?) и так далее.

Со статистическими проблемами все сложнее. К ним как раз относится дрейф данных. Для того, чтобы понять, что такое дрейф данных, нужно представить, как работает прогностическая модель.

Прогностическая модель строится на основе изучения закономерностей в обучающих данных. После этого модель использует полученные знания для прогнозирования значений для новых данных. Для работы модели необходимы два набора данных: данные обучения и данные вывода.

Данные обучения – это наборы данных, на основе которых строится модель. Данные вывода (Serving Data) – это новые данные, на которых модель должна прогнозировать целевые значения. Если данные обучения и данные вывода отличаются, модель может стать менее точной и давать неточные прогнозы.

Data Drift (дрейф данных) – это именно такой случай, когда данные обучения и данные вывода различаются. В таком случае распределение входных признаков, на котором обучалась модель, смещается. Если этот сдвиг достаточно сильный, то модель уже не может корректно работать и прогнозировать целевые значения.

Дрейф данных может быть вызван различными причинами, включая:

  • неисправность системы сбора данных;
  • изменения демографической картины, появление новых мод или экономических кризисов и других факторов, которые могут повлиять на качество данных.
  • Изменение предметной области или процесса, которые описывают данные.
  • Неправильная конфигурация модели, которая может привести к слишком быстрой адаптации к новым данным или недостаточной адаптации к изменениям в данных.

Как обнаружить дрейфы

Дрейф данных можно заранее заметить, наблюдая за изменением поступающими данными. Нет ничего удивительного в том, что двигатель, рассчитанный на дизельное топливо, ломается если в него залить 95-ый бензин - он просто не предназначен для работы с ним. Последствия для бизнеса могут быть не столь разрушительными, но заметными.

В зависимости от особенностей модели, вы можете достаточно долго не замечать эффекта от дрифта данных. Некоторые показатели не так важны для точности модели - вероятно рост среднего возраста клиентов повлияет на качество прогнозирования меньше, чем изменение среднего чека.

Мониторинг данных подобен постоянному контролю температуры в духовке. Если температура слишком высока - пирог подгорает, а если слишком низкая - не пропекается. Точно так же, если данные изменились, модель может перестать работать корректно.

Поскольку данные поступают в систему непрерывно, необходимо регулярно проводить мониторинг и сравнение для достижения максимальной эффективности. Важно не пренебрегать этим процессом, чтобы избежать проблем с работой модели и получить точные результаты.

Читать еще:

О Guestimate

Любим данные и знаем что с ними делать. С 2015 года внедряем data-driven, помогаем настраивать мониторинг и аналитику для поиска оптимальных решений и раскрытия потенциала продаж.

Оставляйте заявку на бесплатную консультацию, где мы ответим на все интересующие вас вопросы и подробно разберем особенности вашего проекта.

А также мы разработали бесплатный готовый шаблон, который поможет вам самостоятельно настроить управленческий учет и аналитику в компании.

33
Начать дискуссию