Почему нельзя просто так взять и сделать свою аналитику на больших данных

Мало просто начать собирать данные, чтобы делать аналитику. Если вы отслеживаете пользовательские пути и совершаете касания в разных каналах, нужна надежная система сбора и хранения статистики, нужны витрины данных и ресурсы на поддержку и развитие всей инфраструктуры. Не говорю уже о том, что к любой системе аналитики нужно добавить самого аналитика, чтобы появились выводы, гипотезы и решения.

А если вы хотите делать машинное обучение, то еще и команду ML-специалистов, которые будут писать статистические модели для обработки ваших данных.... и это только начало пути :)

Почему нельзя просто так взять и сделать свою аналитику на больших данных

Собрать команду и технологии в отлаженную систему поставки бизнес-решений дорого и не быстро. Бизнес запускает рекламу, анализирует результаты, понимает, сколько денег потратил, но не знает досконально, откуда именно пришли клиенты, что повлияло на привлечение, что на удержание, что на средний чек, а где всех потеряли.

Наша платформа закрывает эти задачи целиком: снимает с вас ИТ-нагрузку, предоставляет отраслевую экспертизу и лучшие практики, доступные на рынке в области построения предиктивных моделей.

AnData — это десятки решений, 6 языков разработки, 5 типов баз данных и настроенные ETL-процессы. Решение расположено на нашем оборудовании в РФ и не зависит от санкций.

Технологии, которые мы используем в AnData, позволяют собирать, хранить и обогащать сырые данные о ваших пользователях из из следующих источников:

Сайт;
Мобильное приложение;
CRM/ERP;
Логи любых систем (wifi,телефония, почта);
Рекламные расходы;
Статистика.

На основе этих данных мы можем настроить любую аналитику, предоставить инструменты для управления маркетингом, рекламой и бизнесом в целом.

Разберу подробнее каждый этап и постараюсь накидать побольше примеров.

Первый шаг — загрузка данных по расписанию из любых источников через коннекторы данных:

трекинг;
передача по API;
из логов.

Почему важно иметь собственный трекинг, я подробно рассказал в прошлой статье. Сейчас коротко повторю, что мы загружаем любой объем данных из любых источников — CRM-системы, колл-трекинг, оффлайн-сценарии, данные из систем Google и Яндекс, собираем с сайтов кликстрим, любые действия и просмотры страниц.

Но мы не просто шина данных, мы отлично умеем эти данные обрабатывать «на лету». А это очень важно для Realtime-аналитики.

Данные хранятся в высоконагруженном кластере (data lake). В быстром доступе, на SSD-дисках, лежат данные за последние 12 месяцев, а на более медленных и емких дисках — остальные периоды.

Поскольку кластер хранит данные в нескольких параллельных нодах, запрос и запись происходит очень быстро и асинхронно.

AnData обрабатывает данные в высокопроизводительных кластерах Elasticsearch. Можно работать через прямой API-доступ к данным, а также обрабатывать данные в параллельных средах. Например, использовать дополнительные вспомогательные базы для роста производительности, или делать сложные Realtime-вычисления в пайплайне Spark.

Безопасность

Мы собираем данные в собственные высоконагруженные коллекторы, наши ЦОДы класса TIER3 находятся в России.

Под капотом платформы — системы виртуализации, бэкапирования, маршрутизации, шифрования, защиты от удаленного проникновения. Сетевая топология уровня L3.

Мы поддерживаем гибридные облака в инфраструктуре заказчика или разворачиваем свое. Можем работать как с персональными данными, так и без них. AnData оператор персональных данных и может работать с любыми данными на территории РФ по 152 ФЗ.

Доступность

У наших клиентов всегда остается доступ к исходным данным, которые они нам отдают. Есть два способа, как вы можете работать:

1. Мы предоставим доступ на чтение в изолированной области, чтобы вы могли сами их читать и строить отчеты.
2. Мы подготовим для вас готовую витрину данных, с преднастроенными аналитическими отчетами в нашей системе.

Данные в AnData более управляемы и точны, чем во многих системах аналитики. Например:

Мы сами рассчитываем цифровой профиль пользователя, и принимаем его за базовую единицу. Это дает более надежную идентификацию, чем стандартные куки, телефоны, имейлы и прочие айдишнки, которые теряются или, наоборот, дублируют пользователей в системе.
Мы сами рассчитываем сессию пользователя.
Сами определяем, что такое конверсия.
Сами рассчитываем стоимость каждого клика или модель атрибуции.

С нами вы всегда будете знать, как ваши данные обработаны и почему именно так, с какой степенью точности. Это недоступно в системах Google или Яндекс — они обрабатывают ряд данных понятными только им алгоритмами и не делятся с вами своей логикой.

Сохранность

Ваши данные никуда не денутся и не заблокируются. Мы устойчивы к кризисам: работаем на собственных серверах, полностью контролируем свой софт, и у нас нет лимитов на объемы.
Гибкая система резервирования данных. Каждый день мы делаем один полный срез и сохраняем отдельную копию данных за 90 дней. То есть, при необходимости, мы можем точечно восстановить данные за конкретный день этого периода. Более старые данные резервируем в полном объеме каждый месяц с глубиной хранения 2 года.
Гранулярное восстановление данных. Мы можем выполнить построчное восстановление любой части массива без прекращения доступа к данным.
Данные хранятся в разных контурах. Для сохранности и безопасности у нас есть контуры, которые только принимают данные, к ним нет доступа извне, они хранят только максимально подробные сырые данные. Из таких контуров данные передаются в изолированную зону каждого клиента, и уже там клиент получает к ним доступ и может работать — обрабатывать, трансформировать, визуализировать, считать модели и так далее. Даже если вы случайно что-то удалите, вы сможете это сделать только в вашей копии, а мы легко восстановим все убитые бизнес-данные из базового слоя.

С нами выгодно — вы можете бесплатно загрузить к нам любой объем данных, хранить и обращаться за ними, столько раз и так часто, сколько вам нужно. Мы берем деньги только за количество новых записанных строк за месяц.

Теперь о том, как работают наши технологии обработки данных. Тут можно говорить долго, и я сделаю это в одном из следующих постов. Сейчас опишу картину в общем.

Целостность. У нас есть система мониторинга, которая контролирует, что данные собираются из всех источников в полном объеме, складываются в хранилище AnData и полностью соответствуют источнику, откуда они поступили. Если что-то идет не так, система повторяет забор данных до тех пор, пока они не будут перенесены к нам полностью.
Дедупликация. У нас быстрая технология дедупликации, которая гарантирует, что данные записаны в хранилище ровно столько раз, сколько и должны, без дублей, даже если дубли есть в источнике.
AnData не семплирует данные в процессе дедупликации и вообще никогда по умолчанию. Данные могут семплироваться только в аналитическом слое и только тогда, когда это необходимо заказчику, чтобы ускорить работу, для которой не нужен доступ ко всему массиву данных, а только к его расчетным результатам.

<p><i>В РФ доля мобильного трафика занимает практически 60% по отношению к десктопам за 2021 год. <span>Эту статистику мы бегло глянули на 5.5 млрд просмотрах страниц веб-сайтов, где мы стоим.</span></i></p>

Самый частый вопрос от наших клиентов: «А вы делитесь моими данными с другими, обогащаете их данные моими?» Ответ — нет!

Мы работаем по 152-ФЗ, поэтому прямое обогащение данных внутри платформы невозможно. AnData работает с данными, которые предоставляют клиенты, но данные каждого бизнеса принадлежат только ему и обрабатываются нашей платформой только в его интересах.

Как я сказал выше, физической передачи данных от одного клиента к другому нет, данные каждого клиента расположены в его выделенной рабочей области.

Однако — у нас есть ML-платформа, и мы применяем математические модели, чтобы рассчитывать разные вероятностные сценарии, присваивать пользователю расчетную категорию. Благодаря этому, AnData может отнести обезличенную группу пользователей к конкретной когорте.

Пример использования: мы можем взять всех пользователей, которые нам известны, рассчитать по ним вероятность совершения целевого действия по дням недели утром, днем, вечером и ночью. И просто добавить эту строчку в цифровой профиль. Мы можем сказать: по нашему мнению, этот пользователь относится к тем, кто лучше конвертируется утром.

Данные, рассчитанные на предиктивных обобщенных моделях, нельзя просто так получить в интернете. Такие решения мы проектируем индивидуально для каждого заказчика.

По моему опыту, у бизнеса почти всегда есть проблемы в настройке сценариев от закупки трафика до выплат в сделках, потому что бизнес не рассчитывает цифровой профиль из всех систем. А мы такое считаем, и это одна из наших патентованных технологий — «Цифровой паспорт клиента».

ML-платформа связывает все обезличенные идентификаторы в целостный «отпечаток» пользователя. Так разрозненные cookie с сайта, номера телефонов из CRM-систем, email-адреса из мобильных приложений и данные рекламных кабинетов складываются в единую картину — динамически обогащенный цифровой профиль.

Пример использования: мы можем посчитать когорты и точно ответить на вопрос, через сколько дней привлеченный трафик совершит 80% конверсий? В каждом бизнесе это свой срок — 3, 5, 10 дней — цикл рассчитывается индивидуально и влияет на оптимизацию.

Цифровой профиль помогает строить любые отчеты и визуализировать данные с учетом специфики вашей работы. Мы внимательно относимся к тому, как вы смотрите на данные и ведете свой бизнес.

Есть два уровня обработки данных:

Глобальный, с которым работает только AnData, чтобы лучше обеспечить мэтчинг пользователей в разных системах и точках коммуникации. У клиентов нет доступа к этим данным.
Локальный — цифровой паспорт, который строится на данных, собранных только у одного клиента.

Вся технология работает по модели векторов. Система строит векторную модель, учится по ней и обеспечивает более точную идентификацию пользователя. При этом в векторной модели AnData отсутствуют вероятностные сценарии, то есть мы не предполагаем на основе статистики, что эти пользователи как-то связаны. Мы используем только точно выявленные связи, которые собрали в данных.

Эти идентификаторы соотносятся с конкретным профилем, и все исходные данные маркируются как относящиеся к нему. Благодаря маркировке, можно проводить сегментацию, кластеризацию и бизнес-анализ паспортов любой сложности.

Мы насквозь видим, откуда пришел клиент, сколько он стоил и как был привлечен — до его финальных действий, которые привели к конверсии, даже в офлайне.

Пример использования: В понедельник утром человек пришел к вам на сайт по клику из платного объявления с мобильного устройства. Побродил по сайту и ушел. Этот же человек вечером возвращается со своего компьютера, с прямого входа попадает к вам на сайт и оставляет заявку. Благодаря тому, что мы знаем пересечения по вектору между идентификаторами профилей в первом и втором браузере, мы перекладываем заслугу этой конверсии в РК, которая утром привела человека.

Цифровой профиль мы поддерживаем бессрочно. Мы не привязаны к сроку жизни кук, мы бесконечно долго готовы ждать поступления новых данных. Как только новая строчка информации поступает из цифровой системы, она провоцирует пересчет цифрового паспорта — поиск новых пересечений. Профиль будет жить и развиваться, пока работает AnData.

В наших облаках на инфраструктуре AnData и собранных данных мы строим все сервисы и продукты платформы. Чтобы не растягивать статью до бесконечности, расскажу верхнеуровнево об основных направлениях, которые мы развиваем:

Аналитика.
Машинное обучение.
Автоматизация маркетинга.
RPA — роботизированные процессы (подробнее в другой раз).

Что мы делаем:

Веб-аналитика → анализ трафика, анализ посетителей, конверсии, расходы, затрат на маркетинг, LTV, ROMI, ROI.
Мобильные приложения → скачивания, регистрации пользователей, потребление внутри приложения (внутренние переходы, действия, внимание к контенту).
Бизнес-аналитика → общие аналитические отчеты по затратам и результатам бизнеса на данных из всех источников в разных срезах: сколько потратили на привлечение клиентов в разных рекламных каналах (онлайн и офлайн), загрузка данных из CRM, общие расходы и доходы.
Продуктовая аналитика → какие пользователи каким продуктом интересуются, клиентский цикл, последовательности шагов, которые приводят к позитивным или отрицательным сценариям.

Можете тоже покликать наш тестовый отчет :)

Мы можем визуализировать данные сами, а можем предоставить готовые витринные данные, чтобы ваши аналитики строили любые необходимые срезы в инструментах Kibana. Если вы работаете с другими визуализаторами, мы поможем настроить коннекторы, чтобы вы оставались в привычных инструментах.

Вы сами отдаете нам данные и можете в любой момент прочитать их, удостовериться, что они предаются в полном объеме, проконтролировать целостность.

На основании всех доступных данных мы считаем цифровую модель атрибуции и предиктивную модель, как изменить настройки рекламной кампании, чтобы вы достигали своих KPI.

Что мы делаем:

Автоматические модели оптимизации контекстной рекламы → готовые автостратегии. Например, «максимум конверсий за текущий бюджет», «удержание средней стоимости конверсии», «масштабирование кампаний».

Индивидуальные модели оптимизации маркетинговых кампаний под бизнес-цели заказчиков. Например, управление достижением бизнес-показателей в разных регионах РФ.

Поведение пользователей → ML подсказывает наилучшие или наихудшие цепочки привлечения и удержания клиентов.

У нас написаны автоматизированные биддеры, которые действуют по предиктивным сценариям и в автоматическом режиме оптимизируют рекламу в Яндексе и Google.

Что мы делаем:

1. Сегментация → разрабатываем индивидуальные триггерные сценарии по взаимодействию с базой: сегментируем и назначаем свои целевые действия на каждый сегмент. Загружаем узкие ретаргетинговые сегменты, чтобы очень точечно закупать конверсии в контексте, автоматически обновляем сегменты.

Пример использования: мы можем исключить из показа рекламы тех, кто купил у нас неделю назад, если знаем, что средний срок повторной покупки в нашем магазине — месяц.

2. Триггерные сценарии → персональные предложения по событиям, например, действию или бездействию, сроку.

3. Пуши и имейл-кампании → каскадные рассылки для оптимизации бюджетов на доставку сообщений (имейл, мессенджер, пуш или смс, звонок оператора).

4. Гиперперсонализация → управление сегментами и каналами коммуникации на основе тысячи факторов.

AnData восстанавливает весь путь пользователя, подсказывает идеальным момент и канал для оффера

Пример использования: у вас есть в CRM-системе пользователь, который год назад что-то купил. Он снова заходит на сайт, но не авторизуется, для вас он анонимный, вы не знаете, кто он. Зато AnData знает — через поиск по профилю выявляет, что вам этот пользователь уже знаком, и предлагает следующее действие: позвонить, отправить имейл или пуш. Вы можете с ним прокоммуницировать органическими методами, не закупая платное размещение в рекламных аккаунтах.

То есть, во-первых, мы восстанавливаем весь путь пользователя и фиксируем интерес. Во-вторых, ML высчитает идеальный момент для коммуникации, идеальный оффер и вероятность конверсии.

Яндекс может показать расход по ключевой фразе за день, отдельно — что был клик по объявлению и стоил столько-то, но вместе этой информации нет. Яндекс не предоставляет развернутую детальную информацию о проданных кликах, ее нужно восстанавливать.

А мы делаем это. AnData заберет по API данные из рекламных аккаунтов и проанализирует ответы по фразе, по гео и по объявлениям, чтобы восстановить как стоимость клика, так и алгоритмы работы аукционов.

Статистика по фразам в наших клиентских отчетах

Подписывайтесь на наш канал в Telegram, где я отвечаю на вопросы об автоматизации, оптимизации и аналитике.

Обсудить ваши задачи предметно готовы на демо.

Но рекомендуем сразу попробовать нас в деле ;)

4 комментария

Konstantin Semenov

28.04.2022

А как у вас с атрибуцией в app? Хотя может это уже и не актуально для РФ 🤔

Ответить

Алексей Бирюков

29.04.2022

Автор

В апп с атрибуцией все в порядке, если клиент установил приложение. Скачивания мы пока никак не атрибуцируем.

BayunCat

Благодаря тому, что мы знаем пересечения по вектору между идентификаторами профилей в первом и втором браузере, мы перекладываем заслугу этой конверсии в РК, которая утром привела человека.

Всё равно не понял принцип векторного совмещения.
Можно подробнее именно про это?

Объясню! Хочу нарисовать с дизайнером понятную картинку про это. Как будет готово — добавлю в статью и скину в личку.

Почему нельзя просто так взять и сделать свою аналитику на больших данных

Внутри AnData: что мы делаем со всеми данными

1. Сбор данных

2. Хранение данных

3. Обработка данных

4. Обогащение данных

5. Цифровой профиль

Как работает цифровой профиль

Зачем все это?

Сквозная аналитика

МL — машинное обучение

Автоматизация маркетинга

Аналитика от рекламных систем не скажет вам, кто именно произвел конверсию и сколько он стоил на входе