Почему нельзя просто так взять и сделать свою аналитику на больших данных

Мало просто начать собирать данные, чтобы делать аналитику. Если вы отслеживаете пользовательские пути и совершаете касания в разных каналах, нужна надежная система сбора и хранения статистики, нужны витрины данных и ресурсы на поддержку и развитие всей инфраструктуры. Не говорю уже о том, что к любой системе аналитики нужно добавить самого аналитика, чтобы появились выводы, гипотезы и решения.

А если вы хотите делать машинное обучение, то еще и команду ML-специалистов, которые будут писать статистические модели для обработки ваших данных.... и это только начало пути :)

Почему нельзя просто так взять и сделать свою аналитику на больших данных

Собрать команду и технологии в отлаженную систему поставки бизнес-решений дорого и не быстро. Бизнес запускает рекламу, анализирует результаты, понимает, сколько денег потратил, но не знает досконально, откуда именно пришли клиенты, что повлияло на привлечение, что на удержание, что на средний чек, а где всех потеряли.

Наша платформа закрывает эти задачи целиком: снимает с вас ИТ-нагрузку, предоставляет отраслевую экспертизу и лучшие практики, доступные на рынке в области построения предиктивных моделей.

AnData — это десятки решений, 6 языков разработки, 5 типов баз данных и настроенные ETL-процессы. Решение расположено на нашем оборудовании в РФ и не зависит от санкций.

Внутри AnData: что мы делаем со всеми данными

Технологии, которые мы используем в AnData, позволяют собирать, хранить и обогащать сырые данные о ваших пользователях из из следующих источников:

  • Сайт;
  • Мобильное приложение;
  • CRM/ERP;
  • Логи любых систем (wifi,телефония, почта);
  • Рекламные расходы;
  • Статистика.

На основе этих данных мы можем настроить любую аналитику, предоставить инструменты для управления маркетингом, рекламой и бизнесом в целом.

Почему нельзя просто так взять и сделать свою аналитику на больших данных

Разберу подробнее каждый этап и постараюсь накидать побольше примеров.

1. Сбор данных

Первый шаг — загрузка данных по расписанию из любых источников через коннекторы данных:

  • трекинг;
  • передача по API;
  • из логов.

Почему важно иметь собственный трекинг, я подробно рассказал в прошлой статье. Сейчас коротко повторю, что мы загружаем любой объем данных из любых источников — CRM-системы, колл-трекинг, оффлайн-сценарии, данные из систем Google и Яндекс, собираем с сайтов кликстрим, любые действия и просмотры страниц.

Почему нельзя просто так взять и сделать свою аналитику на больших данных

Но мы не просто шина данных, мы отлично умеем эти данные обрабатывать «на лету». А это очень важно для Realtime-аналитики.

2. Хранение данных

Данные хранятся в высоконагруженном кластере (data lake). В быстром доступе, на SSD-дисках, лежат данные за последние 12 месяцев, а на более медленных и емких дисках — остальные периоды.

Поскольку кластер хранит данные в нескольких параллельных нодах, запрос и запись происходит очень быстро и асинхронно.

AnData обрабатывает данные в высокопроизводительных кластерах Elasticsearch. Можно работать через прямой API-доступ к данным, а также обрабатывать данные в параллельных средах. Например, использовать дополнительные вспомогательные базы для роста производительности, или делать сложные Realtime-вычисления в пайплайне Spark.

Безопасность

Мы собираем данные в собственные высоконагруженные коллекторы, наши ЦОДы класса TIER3 находятся в России.

Под капотом платформы — системы виртуализации, бэкапирования, маршрутизации, шифрования, защиты от удаленного проникновения. Сетевая топология уровня L3.

Почему нельзя просто так взять и сделать свою аналитику на больших данных

Мы поддерживаем гибридные облака в инфраструктуре заказчика или разворачиваем свое. Можем работать как с персональными данными, так и без них. AnData оператор персональных данных и может работать с любыми данными на территории РФ по 152 ФЗ.

Доступность

У наших клиентов всегда остается доступ к исходным данным, которые они нам отдают. Есть два способа, как вы можете работать:

1. Мы предоставим доступ на чтение в изолированной области, чтобы вы могли сами их читать и строить отчеты.

2. Мы подготовим для вас готовую витрину данных, с преднастроенными аналитическими отчетами в нашей системе.

Данные в AnData более управляемы и точны, чем во многих системах аналитики. Например:

  • Мы сами рассчитываем цифровой профиль пользователя, и принимаем его за базовую единицу. Это дает более надежную идентификацию, чем стандартные куки, телефоны, имейлы и прочие айдишнки, которые теряются или, наоборот, дублируют пользователей в системе.
  • Мы сами рассчитываем сессию пользователя.
  • Сами определяем, что такое конверсия.
  • Сами рассчитываем стоимость каждого клика или модель атрибуции.

С нами вы всегда будете знать, как ваши данные обработаны и почему именно так, с какой степенью точности. Это недоступно в системах Google или Яндекс — они обрабатывают ряд данных понятными только им алгоритмами и не делятся с вами своей логикой.

Сохранность

  • Ваши данные никуда не денутся и не заблокируются. Мы устойчивы к кризисам: работаем на собственных серверах, полностью контролируем свой софт, и у нас нет лимитов на объемы.
  • Гибкая система резервирования данных. Каждый день мы делаем один полный срез и сохраняем отдельную копию данных за 90 дней. То есть, при необходимости, мы можем точечно восстановить данные за конкретный день этого периода. Более старые данные резервируем в полном объеме каждый месяц с глубиной хранения 2 года.
  • Гранулярное восстановление данных. Мы можем выполнить построчное восстановление любой части массива без прекращения доступа к данным.
  • Данные хранятся в разных контурах. Для сохранности и безопасности у нас есть контуры, которые только принимают данные, к ним нет доступа извне, они хранят только максимально подробные сырые данные. Из таких контуров данные передаются в изолированную зону каждого клиента, и уже там клиент получает к ним доступ и может работать — обрабатывать, трансформировать, визуализировать, считать модели и так далее. Даже если вы случайно что-то удалите, вы сможете это сделать только в вашей копии, а мы легко восстановим все убитые бизнес-данные из базового слоя.

С нами выгодно — вы можете бесплатно загрузить к нам любой объем данных, хранить и обращаться за ними, столько раз и так часто, сколько вам нужно. Мы берем деньги только за количество новых записанных строк за месяц.

3. Обработка данных

Теперь о том, как работают наши технологии обработки данных. Тут можно говорить долго, и я сделаю это в одном из следующих постов. Сейчас опишу картину в общем.

  • Целостность. У нас есть система мониторинга, которая контролирует, что данные собираются из всех источников в полном объеме, складываются в хранилище AnData и полностью соответствуют источнику, откуда они поступили. Если что-то идет не так, система повторяет забор данных до тех пор, пока они не будут перенесены к нам полностью.
  • Дедупликация. У нас быстрая технология дедупликации, которая гарантирует, что данные записаны в хранилище ровно столько раз, сколько и должны, без дублей, даже если дубли есть в источнике.
  • AnData не семплирует данные в процессе дедупликации и вообще никогда по умолчанию. Данные могут семплироваться только в аналитическом слое и только тогда, когда это необходимо заказчику, чтобы ускорить работу, для которой не нужен доступ ко всему массиву данных, а только к его расчетным результатам.
<p><i>В РФ доля мобильного трафика занимает практически 60% по отношению к десктопам за 2021 год. <span>Эту статистику мы бегло глянули на 5.5 млрд просмотрах страниц веб-сайтов, где мы стоим.</span></i></p>

В РФ доля мобильного трафика занимает практически 60% по отношению к десктопам за 2021 год. Эту статистику мы бегло глянули на 5.5 млрд просмотрах страниц веб-сайтов, где мы стоим.

4. Обогащение данных

Самый частый вопрос от наших клиентов: «А вы делитесь моими данными с другими, обогащаете их данные моими?» Ответ — нет!

Мы работаем по 152-ФЗ, поэтому прямое обогащение данных внутри платформы невозможно. AnData работает с данными, которые предоставляют клиенты, но данные каждого бизнеса принадлежат только ему и обрабатываются нашей платформой только в его интересах.

Как я сказал выше, физической передачи данных от одного клиента к другому нет, данные каждого клиента расположены в его выделенной рабочей области.

Однако — у нас есть ML-платформа, и мы применяем математические модели, чтобы рассчитывать разные вероятностные сценарии, присваивать пользователю расчетную категорию. Благодаря этому, AnData может отнести обезличенную группу пользователей к конкретной когорте.

Пример использования: мы можем взять всех пользователей, которые нам известны, рассчитать по ним вероятность совершения целевого действия по дням недели утром, днем, вечером и ночью. И просто добавить эту строчку в цифровой профиль. Мы можем сказать: по нашему мнению, этот пользователь относится к тем, кто лучше конвертируется утром.

Данные, рассчитанные на предиктивных обобщенных моделях, нельзя просто так получить в интернете. Такие решения мы проектируем индивидуально для каждого заказчика.

5. Цифровой профиль

По моему опыту, у бизнеса почти всегда есть проблемы в настройке сценариев от закупки трафика до выплат в сделках, потому что бизнес не рассчитывает цифровой профиль из всех систем. А мы такое считаем, и это одна из наших патентованных технологий — «Цифровой паспорт клиента».

Почему нельзя просто так взять и сделать свою аналитику на больших данных

ML-платформа связывает все обезличенные идентификаторы в целостный «отпечаток» пользователя. Так разрозненные cookie с сайта, номера телефонов из CRM-систем, email-адреса из мобильных приложений и данные рекламных кабинетов складываются в единую картину — динамически обогащенный цифровой профиль.

Пример использования: мы можем посчитать когорты и точно ответить на вопрос, через сколько дней привлеченный трафик совершит 80% конверсий? В каждом бизнесе это свой срок — 3, 5, 10 дней — цикл рассчитывается индивидуально и влияет на оптимизацию.

Цифровой профиль помогает строить любые отчеты и визуализировать данные с учетом специфики вашей работы. Мы внимательно относимся к тому, как вы смотрите на данные и ведете свой бизнес.

Как работает цифровой профиль

Есть два уровня обработки данных:

  • Глобальный, с которым работает только AnData, чтобы лучше обеспечить мэтчинг пользователей в разных системах и точках коммуникации. У клиентов нет доступа к этим данным.
  • Локальный — цифровой паспорт, который строится на данных, собранных только у одного клиента.

Вся технология работает по модели векторов. Система строит векторную модель, учится по ней и обеспечивает более точную идентификацию пользователя. При этом в векторной модели AnData отсутствуют вероятностные сценарии, то есть мы не предполагаем на основе статистики, что эти пользователи как-то связаны. Мы используем только точно выявленные связи, которые собрали в данных.

Эти идентификаторы соотносятся с конкретным профилем, и все исходные данные маркируются как относящиеся к нему. Благодаря маркировке, можно проводить сегментацию, кластеризацию и бизнес-анализ паспортов любой сложности.

Мы насквозь видим, откуда пришел клиент, сколько он стоил и как был привлечен — до его финальных действий, которые привели к конверсии, даже в офлайне.

Пример использования: В понедельник утром человек пришел к вам на сайт по клику из платного объявления с мобильного устройства. Побродил по сайту и ушел. Этот же человек вечером возвращается со своего компьютера, с прямого входа попадает к вам на сайт и оставляет заявку. Благодаря тому, что мы знаем пересечения по вектору между идентификаторами профилей в первом и втором браузере, мы перекладываем заслугу этой конверсии в РК, которая утром привела человека.

Цифровой профиль мы поддерживаем бессрочно. Мы не привязаны к сроку жизни кук, мы бесконечно долго готовы ждать поступления новых данных. Как только новая строчка информации поступает из цифровой системы, она провоцирует пересчет цифрового паспорта — поиск новых пересечений. Профиль будет жить и развиваться, пока работает AnData.

Зачем все это?

В наших облаках на инфраструктуре AnData и собранных данных мы строим все сервисы и продукты платформы. Чтобы не растягивать статью до бесконечности, расскажу верхнеуровнево об основных направлениях, которые мы развиваем:

  1. Аналитика.
  2. Машинное обучение.
  3. Автоматизация маркетинга.
  4. RPA — роботизированные процессы (подробнее в другой раз).

Сквозная аналитика

Что мы делаем:

  • Веб-аналитика → анализ трафика, анализ посетителей, конверсии, расходы, затрат на маркетинг, LTV, ROMI, ROI.
  • Мобильные приложения → скачивания, регистрации пользователей, потребление внутри приложения (внутренние переходы, действия, внимание к контенту).
  • Бизнес-аналитика → общие аналитические отчеты по затратам и результатам бизнеса на данных из всех источников в разных срезах: сколько потратили на привлечение клиентов в разных рекламных каналах (онлайн и офлайн), загрузка данных из CRM, общие расходы и доходы.
  • Продуктовая аналитика → какие пользователи каким продуктом интересуются, клиентский цикл, последовательности шагов, которые приводят к позитивным или отрицательным сценариям.

Мы можем визуализировать данные сами, а можем предоставить готовые витринные данные, чтобы ваши аналитики строили любые необходимые срезы в инструментах Kibana. Если вы работаете с другими визуализаторами, мы поможем настроить коннекторы, чтобы вы оставались в привычных инструментах.

Вы сами отдаете нам данные и можете в любой момент прочитать их, удостовериться, что они предаются в полном объеме, проконтролировать целостность.

МL — машинное обучение

На основании всех доступных данных мы считаем цифровую модель атрибуции и предиктивную модель, как изменить настройки рекламной кампании, чтобы вы достигали своих KPI.

Что мы делаем:

  • Автоматические модели оптимизации контекстной рекламы → готовые автостратегии. Например, «максимум конверсий за текущий бюджет», «удержание средней стоимости конверсии», «масштабирование кампаний».
  • Индивидуальные модели оптимизации маркетинговых кампаний под бизнес-цели заказчиков. Например, управление достижением бизнес-показателей в разных регионах РФ.
  • Поведение пользователей → ML подсказывает наилучшие или наихудшие цепочки привлечения и удержания клиентов.
Почему нельзя просто так взять и сделать свою аналитику на больших данных

У нас написаны автоматизированные биддеры, которые действуют по предиктивным сценариям и в автоматическом режиме оптимизируют рекламу в Яндексе и Google.

Автоматизация маркетинга

Что мы делаем:

1. Сегментация → разрабатываем индивидуальные триггерные сценарии по взаимодействию с базой: сегментируем и назначаем свои целевые действия на каждый сегмент. Загружаем узкие ретаргетинговые сегменты, чтобы очень точечно закупать конверсии в контексте, автоматически обновляем сегменты.

Пример использования: мы можем исключить из показа рекламы тех, кто купил у нас неделю назад, если знаем, что средний срок повторной покупки в нашем магазине — месяц.

2. Триггерные сценарии → персональные предложения по событиям, например, действию или бездействию, сроку.

3. Пуши и имейл-кампании → каскадные рассылки для оптимизации бюджетов на доставку сообщений (имейл, мессенджер, пуш или смс, звонок оператора).

4. Гиперперсонализация → управление сегментами и каналами коммуникации на основе тысячи факторов.

AnData восстанавливает весь путь пользователя, подсказывает идеальным момент и канал для оффера 
AnData восстанавливает весь путь пользователя, подсказывает идеальным момент и канал для оффера 

Пример использования: у вас есть в CRM-системе пользователь, который год назад что-то купил. Он снова заходит на сайт, но не авторизуется, для вас он анонимный, вы не знаете, кто он. Зато AnData знает — через поиск по профилю выявляет, что вам этот пользователь уже знаком, и предлагает следующее действие: позвонить, отправить имейл или пуш. Вы можете с ним прокоммуницировать органическими методами, не закупая платное размещение в рекламных аккаунтах.

То есть, во-первых, мы восстанавливаем весь путь пользователя и фиксируем интерес. Во-вторых, ML высчитает идеальный момент для коммуникации, идеальный оффер и вероятность конверсии.

Аналитика от рекламных систем не скажет вам, кто именно произвел конверсию и сколько он стоил на входе

Яндекс может показать расход по ключевой фразе за день, отдельно — что был клик по объявлению и стоил столько-то, но вместе этой информации нет. Яндекс не предоставляет развернутую детальную информацию о проданных кликах, ее нужно восстанавливать.

А мы делаем это. AnData заберет по API данные из рекламных аккаунтов и проанализирует ответы по фразе, по гео и по объявлениям, чтобы восстановить как стоимость клика, так и алгоритмы работы аукционов.

Статистика по фразам в наших клиентских отчетах
Статистика по фразам в наших клиентских отчетах

Подписывайтесь на наш канал в Telegram, где я отвечаю на вопросы об автоматизации, оптимизации и аналитике.

Но рекомендуем сразу попробовать нас в деле ;)

88
4 комментария

А как у вас с атрибуцией в app? Хотя может это уже и не актуально для РФ 🤔

В апп с атрибуцией все в порядке, если клиент установил приложение. Скачивания мы пока никак не атрибуцируем.

1

Благодаря тому, что мы знаем пересечения по вектору между идентификаторами профилей в первом и втором браузере, мы перекладываем заслугу этой конверсии в РК, которая утром привела человека.

Всё равно не понял принцип векторного совмещения.
Можно подробнее именно про это?

Объясню! Хочу нарисовать с дизайнером понятную картинку про это. Как будет готово — добавлю в статью и скину в личку.

1