Почему нельзя просто так взять и сделать свою аналитику на больших данных
Мало просто начать собирать данные, чтобы делать аналитику. Если вы отслеживаете пользовательские пути и совершаете касания в разных каналах, нужна надежная система сбора и хранения статистики, нужны витрины данных и ресурсы на поддержку и развитие всей инфраструктуры. Не говорю уже о том, что к любой системе аналитики нужно добавить самого аналитика, чтобы появились выводы, гипотезы и решения.
А если вы хотите делать машинное обучение, то еще и команду ML-специалистов, которые будут писать статистические модели для обработки ваших данных.... и это только начало пути :)
Собрать команду и технологии в отлаженную систему поставки бизнес-решений дорого и не быстро. Бизнес запускает рекламу, анализирует результаты, понимает, сколько денег потратил, но не знает досконально, откуда именно пришли клиенты, что повлияло на привлечение, что на удержание, что на средний чек, а где всех потеряли.
Наша платформа закрывает эти задачи целиком: снимает с вас ИТ-нагрузку, предоставляет отраслевую экспертизу и лучшие практики, доступные на рынке в области построения предиктивных моделей.
AnData — это десятки решений, 6 языков разработки, 5 типов баз данных и настроенные ETL-процессы. Решение расположено на нашем оборудовании в РФ и не зависит от санкций.
Внутри AnData: что мы делаем со всеми данными
Технологии, которые мы используем в AnData, позволяют собирать, хранить и обогащать сырые данные о ваших пользователях из из следующих источников:
- Сайт;
- Мобильное приложение;
- CRM/ERP;
- Логи любых систем (wifi,телефония, почта);
- Рекламные расходы;
- Статистика.
На основе этих данных мы можем настроить любую аналитику, предоставить инструменты для управления маркетингом, рекламой и бизнесом в целом.
Разберу подробнее каждый этап и постараюсь накидать побольше примеров.
1. Сбор данных
Первый шаг — загрузка данных по расписанию из любых источников через коннекторы данных:
- трекинг;
- передача по API;
- из логов.
Почему важно иметь собственный трекинг, я подробно рассказал в прошлой статье. Сейчас коротко повторю, что мы загружаем любой объем данных из любых источников — CRM-системы, колл-трекинг, оффлайн-сценарии, данные из систем Google и Яндекс, собираем с сайтов кликстрим, любые действия и просмотры страниц.
Но мы не просто шина данных, мы отлично умеем эти данные обрабатывать «на лету». А это очень важно для Realtime-аналитики.
2. Хранение данных
Данные хранятся в высоконагруженном кластере (data lake). В быстром доступе, на SSD-дисках, лежат данные за последние 12 месяцев, а на более медленных и емких дисках — остальные периоды.
Поскольку кластер хранит данные в нескольких параллельных нодах, запрос и запись происходит очень быстро и асинхронно.
AnData обрабатывает данные в высокопроизводительных кластерах Elasticsearch. Можно работать через прямой API-доступ к данным, а также обрабатывать данные в параллельных средах. Например, использовать дополнительные вспомогательные базы для роста производительности, или делать сложные Realtime-вычисления в пайплайне Spark.
Безопасность
Мы собираем данные в собственные высоконагруженные коллекторы, наши ЦОДы класса TIER3 находятся в России.
Под капотом платформы — системы виртуализации, бэкапирования, маршрутизации, шифрования, защиты от удаленного проникновения. Сетевая топология уровня L3.
Мы поддерживаем гибридные облака в инфраструктуре заказчика или разворачиваем свое. Можем работать как с персональными данными, так и без них. AnData оператор персональных данных и может работать с любыми данными на территории РФ по 152 ФЗ.
Доступность
У наших клиентов всегда остается доступ к исходным данным, которые они нам отдают. Есть два способа, как вы можете работать:
1. Мы предоставим доступ на чтение в изолированной области, чтобы вы могли сами их читать и строить отчеты.2. Мы подготовим для вас готовую витрину данных, с преднастроенными аналитическими отчетами в нашей системе.
Данные в AnData более управляемы и точны, чем во многих системах аналитики. Например:
- Мы сами рассчитываем цифровой профиль пользователя, и принимаем его за базовую единицу. Это дает более надежную идентификацию, чем стандартные куки, телефоны, имейлы и прочие айдишнки, которые теряются или, наоборот, дублируют пользователей в системе.
- Мы сами рассчитываем сессию пользователя.
- Сами определяем, что такое конверсия.
- Сами рассчитываем стоимость каждого клика или модель атрибуции.
С нами вы всегда будете знать, как ваши данные обработаны и почему именно так, с какой степенью точности. Это недоступно в системах Google или Яндекс — они обрабатывают ряд данных понятными только им алгоритмами и не делятся с вами своей логикой.
Сохранность
- Ваши данные никуда не денутся и не заблокируются. Мы устойчивы к кризисам: работаем на собственных серверах, полностью контролируем свой софт, и у нас нет лимитов на объемы.
- Гибкая система резервирования данных. Каждый день мы делаем один полный срез и сохраняем отдельную копию данных за 90 дней. То есть, при необходимости, мы можем точечно восстановить данные за конкретный день этого периода. Более старые данные резервируем в полном объеме каждый месяц с глубиной хранения 2 года.
- Гранулярное восстановление данных. Мы можем выполнить построчное восстановление любой части массива без прекращения доступа к данным.
- Данные хранятся в разных контурах. Для сохранности и безопасности у нас есть контуры, которые только принимают данные, к ним нет доступа извне, они хранят только максимально подробные сырые данные. Из таких контуров данные передаются в изолированную зону каждого клиента, и уже там клиент получает к ним доступ и может работать — обрабатывать, трансформировать, визуализировать, считать модели и так далее. Даже если вы случайно что-то удалите, вы сможете это сделать только в вашей копии, а мы легко восстановим все убитые бизнес-данные из базового слоя.
С нами выгодно — вы можете бесплатно загрузить к нам любой объем данных, хранить и обращаться за ними, столько раз и так часто, сколько вам нужно. Мы берем деньги только за количество новых записанных строк за месяц.
3. Обработка данных
Теперь о том, как работают наши технологии обработки данных. Тут можно говорить долго, и я сделаю это в одном из следующих постов. Сейчас опишу картину в общем.
- Целостность. У нас есть система мониторинга, которая контролирует, что данные собираются из всех источников в полном объеме, складываются в хранилище AnData и полностью соответствуют источнику, откуда они поступили. Если что-то идет не так, система повторяет забор данных до тех пор, пока они не будут перенесены к нам полностью.
- Дедупликация. У нас быстрая технология дедупликации, которая гарантирует, что данные записаны в хранилище ровно столько раз, сколько и должны, без дублей, даже если дубли есть в источнике.
- AnData не семплирует данные в процессе дедупликации и вообще никогда по умолчанию. Данные могут семплироваться только в аналитическом слое и только тогда, когда это необходимо заказчику, чтобы ускорить работу, для которой не нужен доступ ко всему массиву данных, а только к его расчетным результатам.
В РФ доля мобильного трафика занимает практически 60% по отношению к десктопам за 2021 год. Эту статистику мы бегло глянули на 5.5 млрд просмотрах страниц веб-сайтов, где мы стоим.
4. Обогащение данных
Самый частый вопрос от наших клиентов: «А вы делитесь моими данными с другими, обогащаете их данные моими?» Ответ — нет!
Мы работаем по 152-ФЗ, поэтому прямое обогащение данных внутри платформы невозможно. AnData работает с данными, которые предоставляют клиенты, но данные каждого бизнеса принадлежат только ему и обрабатываются нашей платформой только в его интересах.
Как я сказал выше, физической передачи данных от одного клиента к другому нет, данные каждого клиента расположены в его выделенной рабочей области.
Однако — у нас есть ML-платформа, и мы применяем математические модели, чтобы рассчитывать разные вероятностные сценарии, присваивать пользователю расчетную категорию. Благодаря этому, AnData может отнести обезличенную группу пользователей к конкретной когорте.
Пример использования: мы можем взять всех пользователей, которые нам известны, рассчитать по ним вероятность совершения целевого действия по дням недели утром, днем, вечером и ночью. И просто добавить эту строчку в цифровой профиль. Мы можем сказать: по нашему мнению, этот пользователь относится к тем, кто лучше конвертируется утром.
Данные, рассчитанные на предиктивных обобщенных моделях, нельзя просто так получить в интернете. Такие решения мы проектируем индивидуально для каждого заказчика.
5. Цифровой профиль
По моему опыту, у бизнеса почти всегда есть проблемы в настройке сценариев от закупки трафика до выплат в сделках, потому что бизнес не рассчитывает цифровой профиль из всех систем. А мы такое считаем, и это одна из наших патентованных технологий — «Цифровой паспорт клиента».
ML-платформа связывает все обезличенные идентификаторы в целостный «отпечаток» пользователя. Так разрозненные cookie с сайта, номера телефонов из CRM-систем, email-адреса из мобильных приложений и данные рекламных кабинетов складываются в единую картину — динамически обогащенный цифровой профиль.
Пример использования: мы можем посчитать когорты и точно ответить на вопрос, через сколько дней привлеченный трафик совершит 80% конверсий? В каждом бизнесе это свой срок — 3, 5, 10 дней — цикл рассчитывается индивидуально и влияет на оптимизацию.
Цифровой профиль помогает строить любые отчеты и визуализировать данные с учетом специфики вашей работы. Мы внимательно относимся к тому, как вы смотрите на данные и ведете свой бизнес.
Как работает цифровой профиль
Есть два уровня обработки данных:
- Глобальный, с которым работает только AnData, чтобы лучше обеспечить мэтчинг пользователей в разных системах и точках коммуникации. У клиентов нет доступа к этим данным.
- Локальный — цифровой паспорт, который строится на данных, собранных только у одного клиента.
Вся технология работает по модели векторов. Система строит векторную модель, учится по ней и обеспечивает более точную идентификацию пользователя. При этом в векторной модели AnData отсутствуют вероятностные сценарии, то есть мы не предполагаем на основе статистики, что эти пользователи как-то связаны. Мы используем только точно выявленные связи, которые собрали в данных.
Эти идентификаторы соотносятся с конкретным профилем, и все исходные данные маркируются как относящиеся к нему. Благодаря маркировке, можно проводить сегментацию, кластеризацию и бизнес-анализ паспортов любой сложности.
Мы насквозь видим, откуда пришел клиент, сколько он стоил и как был привлечен — до его финальных действий, которые привели к конверсии, даже в офлайне.
Пример использования: В понедельник утром человек пришел к вам на сайт по клику из платного объявления с мобильного устройства. Побродил по сайту и ушел. Этот же человек вечером возвращается со своего компьютера, с прямого входа попадает к вам на сайт и оставляет заявку. Благодаря тому, что мы знаем пересечения по вектору между идентификаторами профилей в первом и втором браузере, мы перекладываем заслугу этой конверсии в РК, которая утром привела человека.
Цифровой профиль мы поддерживаем бессрочно. Мы не привязаны к сроку жизни кук, мы бесконечно долго готовы ждать поступления новых данных. Как только новая строчка информации поступает из цифровой системы, она провоцирует пересчет цифрового паспорта — поиск новых пересечений. Профиль будет жить и развиваться, пока работает AnData.
Зачем все это?
В наших облаках на инфраструктуре AnData и собранных данных мы строим все сервисы и продукты платформы. Чтобы не растягивать статью до бесконечности, расскажу верхнеуровнево об основных направлениях, которые мы развиваем:
- Аналитика.
- Машинное обучение.
- Автоматизация маркетинга.
- RPA — роботизированные процессы (подробнее в другой раз).
Сквозная аналитика
Что мы делаем:
- Веб-аналитика → анализ трафика, анализ посетителей, конверсии, расходы, затрат на маркетинг, LTV, ROMI, ROI.
- Мобильные приложения → скачивания, регистрации пользователей, потребление внутри приложения (внутренние переходы, действия, внимание к контенту).
- Бизнес-аналитика → общие аналитические отчеты по затратам и результатам бизнеса на данных из всех источников в разных срезах: сколько потратили на привлечение клиентов в разных рекламных каналах (онлайн и офлайн), загрузка данных из CRM, общие расходы и доходы.
- Продуктовая аналитика → какие пользователи каким продуктом интересуются, клиентский цикл, последовательности шагов, которые приводят к позитивным или отрицательным сценариям.
Мы можем визуализировать данные сами, а можем предоставить готовые витринные данные, чтобы ваши аналитики строили любые необходимые срезы в инструментах Kibana. Если вы работаете с другими визуализаторами, мы поможем настроить коннекторы, чтобы вы оставались в привычных инструментах.
Вы сами отдаете нам данные и можете в любой момент прочитать их, удостовериться, что они предаются в полном объеме, проконтролировать целостность.
МL — машинное обучение
На основании всех доступных данных мы считаем цифровую модель атрибуции и предиктивную модель, как изменить настройки рекламной кампании, чтобы вы достигали своих KPI.
Что мы делаем:
- Автоматические модели оптимизации контекстной рекламы → готовые автостратегии. Например, «максимум конверсий за текущий бюджет», «удержание средней стоимости конверсии», «масштабирование кампаний».
- Индивидуальные модели оптимизации маркетинговых кампаний под бизнес-цели заказчиков. Например, управление достижением бизнес-показателей в разных регионах РФ.
- Поведение пользователей → ML подсказывает наилучшие или наихудшие цепочки привлечения и удержания клиентов.
У нас написаны автоматизированные биддеры, которые действуют по предиктивным сценариям и в автоматическом режиме оптимизируют рекламу в Яндексе и Google.
Автоматизация маркетинга
Что мы делаем:
1. Сегментация → разрабатываем индивидуальные триггерные сценарии по взаимодействию с базой: сегментируем и назначаем свои целевые действия на каждый сегмент. Загружаем узкие ретаргетинговые сегменты, чтобы очень точечно закупать конверсии в контексте, автоматически обновляем сегменты.
Пример использования: мы можем исключить из показа рекламы тех, кто купил у нас неделю назад, если знаем, что средний срок повторной покупки в нашем магазине — месяц.
2. Триггерные сценарии → персональные предложения по событиям, например, действию или бездействию, сроку.
3. Пуши и имейл-кампании → каскадные рассылки для оптимизации бюджетов на доставку сообщений (имейл, мессенджер, пуш или смс, звонок оператора).
4. Гиперперсонализация → управление сегментами и каналами коммуникации на основе тысячи факторов.
Пример использования: у вас есть в CRM-системе пользователь, который год назад что-то купил. Он снова заходит на сайт, но не авторизуется, для вас он анонимный, вы не знаете, кто он. Зато AnData знает — через поиск по профилю выявляет, что вам этот пользователь уже знаком, и предлагает следующее действие: позвонить, отправить имейл или пуш. Вы можете с ним прокоммуницировать органическими методами, не закупая платное размещение в рекламных аккаунтах.
То есть, во-первых, мы восстанавливаем весь путь пользователя и фиксируем интерес. Во-вторых, ML высчитает идеальный момент для коммуникации, идеальный оффер и вероятность конверсии.
Аналитика от рекламных систем не скажет вам, кто именно произвел конверсию и сколько он стоил на входе
Яндекс может показать расход по ключевой фразе за день, отдельно — что был клик по объявлению и стоил столько-то, но вместе этой информации нет. Яндекс не предоставляет развернутую детальную информацию о проданных кликах, ее нужно восстанавливать.
А мы делаем это. AnData заберет по API данные из рекламных аккаунтов и проанализирует ответы по фразе, по гео и по объявлениям, чтобы восстановить как стоимость клика, так и алгоритмы работы аукционов.
Подписывайтесь на наш канал в Telegram, где я отвечаю на вопросы об автоматизации, оптимизации и аналитике.
Обсудить ваши задачи предметно готовы на демо.
Но рекомендуем сразу попробовать нас в деле ;)
А как у вас с атрибуцией в app? Хотя может это уже и не актуально для РФ 🤔
В апп с атрибуцией все в порядке, если клиент установил приложение. Скачивания мы пока никак не атрибуцируем.
Благодаря тому, что мы знаем пересечения по вектору между идентификаторами профилей в первом и втором браузере, мы перекладываем заслугу этой конверсии в РК, которая утром привела человека.
Всё равно не понял принцип векторного совмещения.
Можно подробнее именно про это?
Объясню! Хочу нарисовать с дизайнером понятную картинку про это. Как будет готово — добавлю в статью и скину в личку.