Кейс S7 и DataGo!: Отказ от аналитического стека Google и переход на независимую маркетинговую аналитику
Для коллег из S7 ничего не поменялось: они получают данные в той же структуре, обращаются в те же базы, но теперь мы не боимся, что однажды мы останемся без данных
Ретро
До начала сотрудничества с DataGo!, аналитическая инфраструктура S7 строилась преимущественно на продуктах Google — в частности, Google Analytics 4 и Google BigQuery. Это обеспечивало им полный контроль над пользовательскими данными, гибкие витрины и автоматизации. Однако к концу 2023 года начались сложности с оплатой сервисов из России и высокий риск наложения санкционных ограничений на использование стека Google, а в начале 2024 года — фактический уход GBQ с рынка.
S7 оказались в ситуации, когда:
- невозможно легально использовать и оплачивать BigQuery;
- стриминг пользовательских событий из продуктов Google под угрозой;
- растет необходимость использовать только локальные и независимые решения;
- увеличиваются требования РКН к аналитической инфраструктуре проектов в РФ.
Сложности использования западных сервисов
Уход крупных западных облачных сервисов (Google Cloud, GA4, Amplitude, Mixpanel и др.) стал для многих российских компаний вызовом. Особенно пострадали те, кто выстраивал аналитику на стриминге сырых событий — ведь потеря возможности стримить в GBQ фактически означала обрыв цепочки аналитики.
Стандартные инструменты вроде веб-интерфейса GA4 оказались либо недостаточно точными из-за сэмплирования, либо вовсе недоступными. У компаний остался выбор: либо использовать урезанные отчёты, либо искать кастомное решение с локальным хранилищем.
Про S7
S7 — одна из крупнейших авиакомпаний России, с развитой цифровой экосистемой, включая сайт, мобильные приложения и собственную внутреннюю аналитику. Проект перехода на DataGo! инициировала команда аналитиков с четкими задачами:
- Сохранить структуру сбора и хранения пользовательских данных
- Обеспечить сбор сырых данных (стриминг) о поведении пользователей на сайте (web) и в мобильном приложении (iOS и Android)
- Выполнить все работы по мобильным приложениям силами внутренней команды разработки
- Гарантировать стабильную доставку данных в собственную БД
- Защитить архитектуру перед безопасностью и ИТ-службами
- Обойтись без сторонних подрядчиков или агентов
- Обеспечить возможность гибкой настройки атрибуции и сессий на сырых данных
Отдельным плюсом стал переход на отечественное ПО — важный фактор для компании, чьи приложения часто подвергаются санкционному давлению в сторах.
После ухода зарубежных сервисов с российского рынка нам пришлось в авральном порядке исследовать альтернативы для сбора аналитических данных. Очевидно, что предпочтение мы отдавали известным компаниям на рынке типа Яндекса и MyTracker. Но нам важно было не только "имя" нашего партнера, но и максимально сохранить структуру наших данных, на которой завязано все: отчеты, мониторинги, потому что поменяется структура, потребуется время, чтобы вся наша команда ознакомилась и научилась корректно использовать новую структуру данных.
Также нам важно было иметь одинаковую структуру для разных платформ (web и app), чего, например, тот же Яндекс нам не мог дать. Поэтому, когда на презентации возможностей DataGo!, мы поняли, что мы можем закрыть свои потребности: получить стабильный сбор данных, одинаковую структуру, совпадающую с GBQ, мы были очень рады
С какой сложностью столкнулись
Сжатые сроки:- Переход должен был завершиться ещё вчера, а внутренняя дата отключения GA4 (03.12.2024) была уже за горизонтом. После неё у клиента не оставалось референса для сверки данных.
Несовершенство продукта на момент начала проекта:
- у DataGo! только находился на завершающей стадии разработки продукта DataGo! Streaming GA4,
- Сессии и атрибуция, как продуктовые решения, ещё были в планах на Q1 2025.
Блэкбокс передачи данных по принципу GA4:
- С точки зрения отправки данных с сайта GA4 имеет существенные различия с GA UA, которые необходимо обойти при настройке стриминга
- Справка GA4 описывает разные частные случаи, но большинство скрытых особенностей пришлось пройти на практике.
Сложность валидации данных:
- При работе с GA4 сталкивались со значимым сэмплированием данных;
- При работе с GBQ export для исключения фактора сэмплинга нельзя использовать ближайшие даты, т.к. данные обновляются в течение 3 дней;
- Требовалась кросс-сверка по двум направлениям: с GBQ (временное решение) и через web-интерфейс GA;
- Необходимо было разделять мобильный трафик по версиям, т.к. пользователи приложения параллельно использовали несколько актуальных версий.
- Конкретно для App, как выяснилось, Google может ограниченно собирать аналитические данные по китайским брендам телефонов (в отличие от DataGo!).
Разные трекеры — разные подходы:
- Для веба использовался DataGo! GA4-трекинг (на базе трекера Google GA4 через Google Tag Manager), для App — DataGo! AppStreaming Snowplow. Это потребовало ручного сопоставления параметров (120+ основных и 100+ кастомных клиентских), корректировок различий в сущностях, синхронизации доставки данных, унификации парсинга хитов (преобразования хитов из необработанного вида сетевых запросов в конечный стандартизированный табличный вид)и объединения форматов атрибуции.
Какое решение было реализовано
1. Разделение проекта на этапы
Чтобы ускорить процесс внедрения стриминга, проект был разделен на два независимых направления:
- Web: DataGo! настроил стриминг на базе трекера Google GA4 через Google Tag Manager;
- App: DataGo! AppStreaming Snowplow интегрировали внутренние разработчики S7 при сопровождении и по инструкциям команды DataGo!.
Сбор данных и первичная сверка прошли параллельно. После «защиты» стриминга, началась разработка продукта «Сессии».
2. Реализация стриминга
- Стриминг web-данных настроен на базе трекера Google GA4 через Google Tag Manager;
- Мобильные приложения подключены напрямую через трекер DataGo! AppStreaming Snowplow
- Организован R&D-хаб из разработчиков, аналитиков и PM
- Проведен кросс-мэппинг параметров и сущностей
- Разработаны инструкции по внедрению и проверки событий
- Сохранена логика схемы данных GA4 Export, но расширена дополнительными параметрами
- Реализован способ дополнительной доставки данных - Measurement Protocol GA4 с полным сохранением логики Google
Сверка проводилась:
- с web-интерфейсом GA4,
- с GBQ-копией (клиент временно обеспечил доступ через зарубежные платёжные методы).
3. Атрибуция и сессии
- Внедрена классическая модель расчета сессий GA4 (LNDC - Last Non-Direct Click);
- Дополнительно настроена LC (Last Click)-атрибуция сессий GA4 в отдельном блоке полей;
- Все реализованные атрибуции “из коробки”:- First Click по пользователям- Last Click по хитам (событиям)- Last Click по сессиям- Last Non-Direct Click по сессиям
- Реализована возможность автоматизированного и ручного пересчёта сессий за любой период.
- Реализована возможность кастомизации расчета сессий (таймаут сессий, основной часовой пояс, включение-исключение реферальных источников и платежных шлюзов, регулировка и оптимизация требуемых ресурсов инфраструктуры для расчета сессий).
4. Надежная доставка данных
- Обеспечен стабильный стриминг в закрытую БД клиента (внутри его контура);
- Поддержано требование полной автономии: сотрудники DataGo! не имеют доступа к хранилищу.
- Настроены системы уведомлений и проверок стабильности.
Ребята из DataGo! предоставили понятные ТЗ для web и app, были на связи все время, отвечали на возникающие вопросы, но, естественно, не обошлось без проблем. Продолжительное время мы не понимали причин расхождений данных в приложениях, как оказалось, не все китайские модели телефонов хорошо работают с GBQ.
Были и другие трудности, но все, что было в наших общих силах, мы исправили, и теперь в нашем распоряжении собранные в том же формате, какой у на был и раньше аналитические данные. Для коллег из S7 ничего не поменялось, они видят ту же структуру, обращаются в те же базы, но теперь мы не боимся, что однажды мы останемся без данных
Результат
Проект S7 стал ярким примером самостоятельного внедрения DataGo! как независимой платформы сбора сырых web и app данных, полностью заменившей аналитический стек Google.
Клиент:
- Справился с миграцией без участия маркетинга и сторонних подрядчиков;
- Получил стабильный стриминг web и app данных;
- Развернул безопасную архитектуру с возможностью работы в закрытом контуре;
- Получил кастомную реализацию сессий готовый источник для отчетности, аналогичный GA4 GBQ Export, работающий на российских серверах.
В ходе работы с DataGo! была достигнута главная цель, которую мы перед собой ставили при поиске альтернатив сбора аналитических данных: смогли осуществить миграцию на не обремененную санкциями платформу, сохранив при этом структуру данных. - Важно, что для других команд S7 этот процесс произошел относительно бесшовно. - Получен стабильный стриминг, любые проблемы и неполадки оперативно решаются. - В планах - хотелось бы видеть трекинг источников в AppStreaming
Сегодня S7 использует DataGo! как основную платформу для сбора и анализа пользовательских данных аналитиками.