Александр Тычинский, Лента, Как мигрировать с GCP на Yandex Cloud и Opensource и сохранить наработки и ретроспективу
Часть 2
Начало здесь
Архитектура объединения данных ПОСЛЕ
В итоге, из имевшейся схемы ушли некоторые рекламные площадки, внутренние сервисы от внешних партнеров. По Oracle были остановлены поддержка и обновления, а также произошло отключение Qlik Sense, лицензия которого закончилась в сентябре 2022 года.
Архитектура объединения данных ЦЕЛЬ
С точки зрения целевой архитектуры, Утконос пришел к следующему: по web-части - стриминг сырых данных через платформу MTRENDO-HOLOWAY M&H Apps. Хиты с сайта перенаправляются на приемник, находящийся в Я.Облаке, который сохраняет хиты в режиме реального времени. Размещение приемника в своем доменном пространстве позволяет увеличить объем трекинга, открывает прямой доступ к first-party cookie, что позволяет использовать собственный стабильный идентификатор пользователя и не зависеть от платформы веб-трекинга GTM/Matomo/Yandex. Сборка сессий формата GA360, происходит по расписание раз в сутки. В качестве внутреннего хранилища используется open-source продукт PostgreSQL, а из BI систем была выбрана open-source SuperSet, которую Утконос развернул у себя на серверах. При этом у Ленты пока используется Power BI.
Также потенциально рассматривается переход с GTM на Matomo. Процесс достаточно ресурсоемкий, к тому же в этом случае возникают риски некорректного переноса сущностей GTM в Matomo. В связи с этим, данный переход находится в процессе тестирования.
Немного об опыте работы с ClickHouse. Переход с Google BigQuery на ClickHouse оказался не таким простым - во-первых, между двумя сервисами есть отличия в синтаксисе, что, в целом, решаемо. Во-вторых, процессинг на ClickHouse не всегда выполняется успешно и некоторые запросы не выполняются. Возможно, вопрос заключается в тонкости настроек администрирования, которую можно будет оптимизировать.
В аналитике мобильных приложений произошли следующие изменения: в конце июля Amplitude проинформировал Утконос, что прекращает работу с ритейлером через 30 дней. На этот срок были также ограничены все отчеты в интерфейсе Amplitude. Однако была возможность собирать данные через API, обрабатывать их на стороне Утконоса и визуализировать в BI системе. Далее некоторое время использовались аккаунты с пробным периодом. Это дало время перейти на аналитический сервис AppMetrica для закрытия задач по продуктовой аналитике, собирая сырые данные через API в облачное хранилище Яндекс ClickHouse.
С точки зрения маркетинговой аналитики приложений, полноценной альтернативы не было найдено. По источникам данных и источникам привлечения трафика около 60% поддерживались AppMetrica. Из-за 40% недостающей информации, в качестве подстраховки, был подключен немецкий продукт Adjust. Исходили из соображений стоимости, а также меньшего риска по отключению. В итоге, если бы один из текущих сервисов (AppsFlyer или Adjust) были бы отключены, пришлось бы полностью перейти на AppMetrica, и искать какие-то дополнительные пути для получения всего объема данных. FireBase в этом случае также был бы альтернативным вариантом, но он также находится под риском того, что нативный стриминг собирает данные в Google BigQuery, который также может быть полностью отключен.
Планы развития
В планах команды Утконос - подготовка к cookieless world с точки зрения минимизирования потерь качества данных. Данная задача широко обсуждалась еще в конце 2021 года, но 2022й год принес новые вызовы, что на время изменило приоритеты команды. Уже сейчас заметно, что качество данных становится хуже и хуже, особенно это касается браузеров Safari, Mozilla, Firefox, в связи с этим разработки в этой сфере продолжатся.