Потоки данных в фарм-ритейле, современные вызовы и ответы на них

25 апреля 2022 года наша IT-команда участвовала в конференции «Pharma Commercial Excellence. Стратегии совершенствования эффективности маркетинга и продаж». Мы выступали с докладом о текущей ситуации с получением, обработкой и анализом поступающих потоков данных в современном российском фарм-маркетинге.Двадцатиминутные рамки доклада - достаточно тесны. Мы решили подготовить небольшую обзорную статью о ситуации в отрасли, чтобы подробнее рассказать о том, как продвигаемые нами подходы качественно меняют фармачевтическую отрасль

В рамках предварительного анализа ретроспективных временных рядов, основная задача состоит в том, чтобы проверить их на базовую достоверность (начиная со сравнения план-факт, ретро-факт и факт-факт). Часто эта задача становится непростой по причине разных циклов поступления информации и других особенностей конкретного источника данных. Так, например, аптечные сети отчитываются в лучшем случае с лагом "минус квартал". От региональных дистрибьюторов сведения поступают с запаздыванием в "месяц и более" от актуальных данных. Консолидированные по рынку данные ОФД и аналитических агентств, как правило, отстают сильнее всего. Автоматизированный импорт из CRM, складских программ и личных кабинетов государственного документооборота укладывается в рамки отставания данных в недели и дни. Каждый источник поступающих данных классифицируется по сложности его получения и обработки. Отчёты сетей - самые сложные ввиду их разнообразия и низкой надёжности, и обычно отдаются в обработку на аутсорс. Аналитические отчёты считаются самыми надёжными и простыми, потому что обычно поступают в стандартизованном виде из единого источника. Автоматизированные выгрузки требуют существенных вложений в IT-команду, бюджетами на которую даже крупные игроки фармрынка в настоящее время не обладают.В итоге наиболее распространённой практикой в рынке стала тактика «от более надёжного к менее надежному» с предпочтением более простых и достоверных источников без оглядки на сроки их актуализации. То есть, крупные игроки, даже обладающие заметным исследовательским потенциалом, несмотря на бизнесовый запрос на скорость реакции – то есть на максимальную свежесть данных – как правило сосредотачивают свои усилия на сверку отчетов сетей с аналитическими и дистрибьюторскими данными в целом по рынку, опираясь на максимальную надёжность последних.Но даже "самые надежные" данные не стопроцентно достоверны, а "самые стандартизированные форматы" требуют для своей сверки множественные трансляции словарей мастер-данных, на которых они построены. Списки клиентов, адресов, товарных единиц, региональных атрибутов и даже единиц измерения товародвижения требуют постоянных сверок, что привносит свой вклад в снижение итоговой точности полученных данных. При этом зачастую подобная работа отдается на аутсорс, что приводит к ключевой неспособности инхаус-аналитиков оценить итоговый объем искажений, привнесенных на этапе матчинга, особенно с учётом неснижаемых ошибок в случае ручной обработки. Более того, этот процесс занимает дополнительное время (в типичном случае – порядка месяца) и еще больше отодвигает сроки принятия ключевых решений. Я расскажу о наших подходах в работе, которые помогают подобные дилеммы разрешать, оптимизируя как базовый data-flow, так и добиваясь уменьшения типичного времени реакции, повышая качество получаемых результатов за счет использования мультимодальных источников данных.

Базовый механизм любой сверки предполагает приведение данных из различных источников к единому словарю терминов с последующим сопоставлением численных данных, в котором предпочтение оказывается базово более достоверным данным.Например, розничная сеть формирует для производителя отчёт о продажах. Производитель должен принять решение о выплате сети компенсации за объем продаж. Для этого он запрашивает у дистрибьютора данные о продажах за тот же период, после чего перед ним встают несколько проблем:

1. Сети и дистрибьюторы отчитываются не одновременно

2. Они отчитываются в разных терминах в смысле адресов и списков контрагентов

3. У отчётов по продажам и закупкам разная достоверность

4. К концу квартала скапливается значительный объем необработанных данных

Если же уточнить, что данные дистрибьюторов не всегда достовернее отчётов сетей, и их средний объем ошибок меньше, чем у ритейла, они не нулевые - их также надо прибавлять к общей величине неснижаемых ошибок. В результате подобная сверка всегда делается в спешке, с большим элементом ручного труда, но главная проблема в том, что никакие справочники адресов и контрагентов ни у розницы, ни у дистрибьюторов, ни тем более у производителей не могут быть признаны обладающими нужной степенью достоверности: у них проблемы с полнотой, отсутствием дублей, достоверностью и актуальностью содержащихся в них сведений. Чтобы разрешить эту дилемму, участники рынка, как правило, опираются на сторонних вендоров, ведущих за них мастер-справочники. Однако по факту - это способ закрыть глаза на проблему и сделать вид, что вендор учтет все нюансы и его результатам можно верить больше, чем оригинальным данным. В реальности такой подход не снижает ошибку, а только ее увеличивает. Вендор вынужден проделать все то же самое и на тех же данных, но в гораздо больших масштабах, причем под давлением "горящих" сроков, заказчиков - а человеческого и технического ресурса в момент аврала больше не становится. В результате, по факту, производитель получает данные за январь в марте, а обработанными они становятся в конце апреля, когда на принятие решения о выплатах остались считанные дни. В таких условиях расхождения по сверке составляют менее 10% на всю сеть и считаются более чем удачным показателем. А поводом для углубленных разбирательств на уровне хэд-офиса становятся нестыковки в полтора раза. Каким может быть решение, позволяющее достичь более удачного результата? Тут важны четыре ключевых подхода:

1. Автоматическая интеграция экономит время для принятия решения, которое бывает критически важным

2. Принципиальный отказ от использования ручной обработки позволяет применять более сложные математические методы верификации 3. Использование динамически пополняемых справочников позволяет повысить точность

4. Данные нужно брать как можно раньше, не дожидаясь, когда придут «хорошие», а на самом деле «удобные для ручной обработки» данные

В приведенном примере, вместо ручных выгрузок из складской розничной сети, следует договариваться о получении автоматизированных данных, приближенных к режиму реального времени. Фискальные данные лучше, чем данные о закупках, а «Честный знак» – лучше отчетов дистрибьюторов. Да, они требуют продвинутых IT-решений и заметного уровня интеграции, у них разная вовлеченность ритейла в обмен данными. Однако онлайн-поток данных, при наличии полностью автоматизированных механизмов приведения данных к универсальному справочнику с автоматическим их пополнением, позволяют повысить как качество, так и скорость поступления данных, что нивелирует все усилия по реализации подобного рода интерфейсов данных. Далее мы проведём подробный обзор различных автоматизированных потоков, созданных в рамках среды Matchflow, и перейдем к детальному описанию тех механизмов, которые позволяют улучшать качественно результаты сверок так, чтобы ошибки различных источников перестали складываться, а результат получался точнее, чем самый надёжный из отдельных составляющих обмена данными.

Прежде чем приступить к стратегии обогащения данных, давайте оценим общую ситуацию по источникам данных в фармритейле на текущий момент. Обратите внимание на этот слайд:

На нем приведены в баллах от 1 до 10 качественные характеристики наиболее распространенных потоков, причем часть характеристик приведена в виде инкрементных слагаемых, а часть – декрементных. Для примера: все традиционные источники знаний о товаропроводящей цепочке имеют относительно небольшие характеристики по скорости доставки (об этом мы говорили выше), при этом у фискальных данных и отчетов дистрибьюторов точность и полнота значительно выше среднего, однако фискальных данных тяжело добиться от сетей и их же непросто обработать, тогда как аналитика по рынку имеет невысокую точность, очень низкую скорость поступления данных, зато она обладает высокой полнотой и удобством использования. По итоговому рейтингу можно смело предположить, что сегодня рынок в основном использует отчёты дистрибьюторов и аналитику по рынку в целом для верификации отчетов сетей (разной степени чистоты и удобства обработки), причем эти отчёты 50/50 обогащены фискальными данными, а данные «Честного знака» и анонимизированные отчёты тех же операторов фискальных данных пользуются объективно гораздо меньшей популярностью, и по вполне объективным причинам. Можно ли изменить эту картину существенным внедрением автоматизированной обработки данных? Взгляните на следующий слайд:

На нем, очевидно, стало намного больше «десяток» и существенно сменились лидеры. Невозможные без полной автоматизации реалтайм-отчеты на основе потока фискальных данных резко вышли на первое место, но также, за счет существенного прогресса по скорости обработки, в лидеры вышла аналитика по рынку - даже несмотря на падение по полноте, не все согласны в таких исследованиях участвовать. И только на третьем месте оказались данные дистрибьюторов, которые пока не готовы принимать участие в автоматическом обмене данными и потому не могут получить заметного импрува. В первую очередь, как мы показали, полностью автоматизированные потоки данных драматически меняют скорость их поступления и обработки, и это главный результат их внедрения. Но также существенно меняются показатели сложности интерпретации результата и их точность. Игроки рынка не только получают более актуальные сведения о товаропроводящей цепочке, но и повышают их достоверность. Человеческий фактор, изначально предполагающий возможность «ручной» обработки как более достоверной, на самом деле снижает качество результата. Аналитические способности любого специалиста при значительных (в миллионах строк) объемах данных стремятся к нулю по причине банальной ограниченности их трудовых ресурсов. Кроме того, количество неснижаемого объема ошибок при такой ручной обработке довольно велико – это первые проценты, точнее человек попросту не способен работать, тогда как автоматизированные системы при должном уровне разработки способны обрабатывать миллионы строк с точностью в доли процента ошибок, то есть на порядок точнее.Да, звонок контрагенту для уточнения сведений никто не заменит, но это очень дорого, медленно и не может составлять базовый пайплайн. Более того, на выходе он только снижает качество исходных данных, так как мы не можем предугадать количество привнесенных ручной обработкой ошибок, особенно таких, которые, в свою очередь, невозможно распознать вручную, например, дублей одних и тех же записей.Как правило, в надежде на ручной труд, компания не только не экономит средства, которые бы потребовало расширение IT-инструментария, но и тратит ограниченный ресурс своих аналитиков впустую, тогда как он мог быть востребован непосредственно в анализе результатов и планировании будущих активностей. К тому же, как мы покажем дальше, любой комплексный анализ автоматическими системами кто-то должен сперва придумать «на кончике пера», вместо того, чтобы обзванивать очередного контрагента. И на это в первую очередь должны уходить ресурсы аналитиков, а не на бесконечные проверки отчетов.

Я рассказал, как автоматизация процессов матчинга и кросс-верификации меняет приоритеты в использовании имеющихся потоков данных. Однако это не главный эффект, который производит в ритейл-аналитике подобный подход. Сопутствующая ему унификация и автоматические процессы пополнения используемых словарей позволяют анализировать данные из различных потоков по мере их поступления, формируя производные инструменты, дающие нам знания о рынке, которые не способен дать ни один из потоков данных по отдельности.Перед вами список комбинаций потоков и аналитические инструменты, которые они формируют:

Для примера покажем, как это работает. Возьмём анонимизированные отчёты, формируемые на основе данных о заказах аптек у дистрибьюторов и объединим их с региональными данными о выбытиях аптек.

Как видите, базовая неполнота анонимных данных компенсируется фактически реалтайм-поступлением аналитического отчета. При этом мы накладываем выбытия на остатки и закупки, затем в автоматическом режиме пересчитываем данные на точку с последующим масштабированием до всего региона или без. Начиная с определенного объема анонимных данных (математически достоверно – для тысячи аптек на регион достаточно наличия 10%), при этом рандомизированное усреднение качественно нивелирует локальные ошибки в данных, позволяя с хорошей точностью пользоваться не только качественными, но и количественными результатами, предсказывая дефектуру дистрибьюторов по регионам и в рынке в целом, анализируя баланс спроса и предложения, локальные дисбалансы закупочных и розничных цен в моменте и многое другое.Таким образом мы одновременно растим скорость доставки данных, их полноту, точность и главное формируем новые полезные инструменты для аналитиков. Другим примером представим инструмент композиции реал-тайм отчетов о выбытии в аптеках по ОФД с принятием на баланс по Маркировке. Совместно это позволяет производителю качественно реконструировать уход товара в out-of-stock на аптеках, фундаментально улучшить взаимодействие с сетями в условиях изменчивого спроса: при внешних шоках, во время проведения маркетинговых активностей, а также в случае локальных нарушений цепочки поставок.При таком подходе мы не занимаемся тем, что просто сверяем данные друг с другом (тем более, как легко показать математически, точность такой сверки получается не лучше минимальной точности по каждому из рядов в сверке, то есть вся суть сверки сводится к тому, какое из двух чисел нас больше устраивает), а ставим перед собой целью выход на новый уровень видения ситуации на рынке в целом, в особенности фокусируясь на тех аспектах, которые можно изменить здесь и сейчас, а не просто констатировать ошибки в прошлом и делать вид, что они не повторятся в дальнейшем. В нашем небольшом обзоре мы постарались показать, что подобные подходы невозможны с традиционными ручными манипуляциями с данными и лагом в несколько месяцев, полагаясь на них, рынок лишает себя настоящих инструментов маркетинговых исследований. Будущее ритейла – за высокопроизводительными автоматизированными системами по обработке и анализу сырых данных в реальном времени, использование которых позволяет достигать результатов, еще вчера казавшихся невозможными.

На фоне турбулентности на фармрынке, вызванной как внешними, так и внутренними факторами, крупные игроки отрасли вынужденно переориентируются с долгоиграющих бизнес-стратегий на локальные усилия, призванные решить ad-hoc возникающие сбои в цепочках поставок и оптимизировать взаимодействие с партнерами по продвижению препаратов на рынке.В нынешних реалиях скорость получения и анализа статистических данных о продажах в конкурентных группах становится ключевым фактором в ситуативном маркетинге. Однако не всегда самые быстрые данные являются самыми полными, источники статистической информации – будь то отчёты сетей, дистрибьюторов, данные о товародвижении «Честного знака» или же аналитические отчёты операторов фискальных данных или цеховых аналитических агентств – обладают различной скоростью поступления, достоверностью и полнотой.В подобных условиях единственным подходом, дающим фарме достоверную информацию, является мультимодальный подход, в котором единому источнику знаний о реалиях рынка в моменте или в ретроспективе отдаётся предпочтение композиции из разнообразных потоков данных.Matchflow представляет агрегированный инструмент об онлайн-сведениях по динамике выбытия товаров в рознице, динамике цен и остатков у поставщиков, при этом фактологические сведения из отчетов контрагентов микшируются с глобальным мониторингом состояния товарных остатков и их движения по регионам, ценовой политике как крупных игроков, так и рынка в целом, которые кросс-валидируются по мере поступления дополнительных сведений от самых ранних оценок до полноценной и сквозной информации о всей цепочке поставок.Критическое снижение или чрезмерное накопление товарных остатков в конкурентных группах по регионам, скачки цен и резкое изменение спроса на кассах, снижение конкуренции в отдельных категориях фармацевтических препаратов и сопутствующей товарной матрице. Всё это сведено в единый аналитический инструмент и доступно для выгрузки в BI-системы наших партнёров.

Автор: Роман Корнеев, CTO Matchflow

Потоки данных в фарм-ритейле, современные вызовы и ответы на них

Проблемы кросс-верификации

Тактика матчинга и сверки

Источники данных в фарме

Аналитика на производных и композитных данных

Как работает алгоритм Matchflow

О команде Matchflow