Как создать собственную систему контент-аналитики, если на рынке нет аналогичного продукта? Кейс ЭКСМО и MTRENDO
Узнайте, как вы можете внедрить систему аналитики контента для измерения эффективности опубликованных материалов.
О клиенте
ЭКСМО - универсальное издательство № 1 в России, является одним из лидеров книжного рынка Европы. Ежегодно "Эксмо" издает около 80 миллионов книг. В качестве прямых каналов онлайн продаж используют свои сайты eksmo.ru и book24.ru.
СТРАТЕГИЯ - Увеличение дохода от продаж книг "Эксмо" в онлайн-канале за счет оптимизации инвестиций в цифровой маркетинг.
Проблема
Команда eksmo.ru понимает ценность данных, которые могут помочь оценить эффективность контента на сайте для создания спроса в верхней части воронки привлечения клиентов к новинкам издательства "ЭКСМО". Однако эти данные разрознены и находятся в разных системах. Была предпринята попытка объединить эти данные в единый дашборд с помощью Power BI. Но поскольку на этапе проектирования не была предусмотрена и реализована инфраструктура для сбора, обработки данных в едином аналитическом хранилище данных (Data Ware House), хорошая первоначальная идея не воплотилась в стабильно работающий инструмент.
Цель
Разработать инструмент аналитики для анализа контента на сайте eksmo.ru, который будет работать стабильно.
Задачи
- Автоматизировать сбор и объединение данных о контенте из Битрикс, Google Sheets и Google Analytics по опубликованным онлайн материалам в единую базу данных.
- Визуализировать данные об эффективности контента в формате дашборда с помощью Google Data Studio для быстрого и удобного доступа.
Решение
Перед началом этого проекта MTRENDO уже провела тщательный опрос внутренних заказчиков аналитики, чтобы лучше понять их бизнес-цели и потребности в использовании аналитики.
Шаг 1. Выгрузка из Bitrix
Была осуществлена единая выгрузка всего контента в виде xls-файлов: новостей, статей и тестов. Далее для автоматической выгрузки данных из Битрикса непосредственно в GBQ было разработано ТЗ. После успешной реализации готовый источник был подключен к дашборду.
Подробная структура полей:
id - идентификатор статьи date_publish - дата публикации
author - автор
isTest - является ли статья тестом
date_activity_start / date_activity_end- начало и конец активности, если статью нужно показывать только какое-то определенное время на сайте. Например, работает для поздравлений с днем Рождения.
publisher - опубликовал
date_create - дата создания
date_change - дата изменения
sort - сортировка в каталоге
active - признак активности статьи
name - название статьи
url - ссылка
Шаг 2. Выгрузка из Google Sheets “План публикаций”
На основе исходного плана публикации был создан файл, соответствующий необходимому формату. Основные требования: на одной вкладке отображается весь список публикаций. Из документа сформирована отдельная таблица. Данные подтягиваются автоматически по мере заполнения.
Подробная структура полей:
date - предполагаемая дата публикации
editors - редакция
customer - заказчик
deadline - срок сдачи
responsible - ответственный
goal - цель материала
traffic_plan - план по трафику
keys - ключевики к использованию
commentary - комментарий
type - тип публикации
name - примерное название
- link - ссылка на статью
Шаг 3. Выгрузка из Google Sheets “Матрицы продвижения”
Немного расскажем о том, как все работало до старта проекта. Команда ЭКСМО использовала Матрицы Продвижения для внутренней отчетности, нам дали к ним доступ, мы попросили внести небольшие коррективы - добавить колонку со стоимостью каждой книги и указать правильный URL статьи, в которой была опубликована ссылка на эту книгу для связи. Это временное решение, так как на момент реализации прототипа связь статья-книга не была реализована. В будущем планируется завести отдельное поле с ISBN книги в сущности "Статья" в Битрикс, чтобы связка статья-книга была еще более надежной.
Из каждого документа в BigQuery были созданы отдельные таблицы. Данные подтягиваются автоматически по мере их заполнения.
Данные из матриц объединяются со статьями ссылкой на статью, которая проставляется в колонке link_id. Для новых записей и записей, начиная с января 2020 года, все ссылки проставлены.
Структура полей:
date - дата публикации
commentary - комментарий
link_id - ссылка на статью журнала
cost_fact - расход фактический
cost_plan - расход запланированный
type - тип контента
link_itd - ссылка на книгу
isbn - международный номер бумажной или электронной книги, в данный момент не используется
author - автор
name - название книги
- cost - ТМС расходы
Шаг 4. Выгрузка из Google Sheets “Прайс-лист на публикации”
Подразделения "Эксмо" работают по принципу unit-economy, то есть одно подразделение "платит" другому за обслуживание и за контент, созданный и размещенный на сайте https://eksmo.ru с целью продвижения книг. Эти самые платежи за контент-услуги мы называем TMS-доходом.
Для корректного расчета TMS-дохода за статью для статей до января 2020 года добавлена цена за публикации. Если публикация имеет определенный тип, не относится к собственной редакции, вышла до января 2020 года и в матрицу продвижения ее стоимость не заложена, мы подтягиваем TMS-доход из прайса по тип публикации. В GBQ “Прайс-лист на публикации” добавлен отдельной таблицей price_sheet вида:
plan_name - тип публикации в плане
matrix_name - тип публикации в матрице продвижения
- price - стоимость
Шаг 5. Выгрузка данных из Google Analytics
С помощью специально разработанного скрипта на Google Apps Script выгружаются данные с июня 2019 года по 15 мая 2020 года. Данные хранятся в отдельных таблицах. Данные обновляются ежедневно через Apps Script.
Структура таблицы данных по касаниям пользователя со статьей:
date - дата
sessions - сессии
pagepath - путь к странице
- pageviews - просмотры страницы
Структура таблицы данных по заходам пользователя на сайт со страницы статьи:
date - дата
sessions - сессии
landingPagePath - путь к странице
- pageviews - просмотры страницы
Структура таблицы данных по переходам со страницы статьи в карточку товара:
date
goalPreviousStep1- достижение предыдущего шага цели
goalCompletionLocation - путь к странице или экранное имя, соответствующее достижению цели любого типа назначения, таким образом мы запрашиваем результат достижения цели; для каждой таблицы данных из GA он разный
- goal19Completions - переход на карточку книги
Структура таблицы данных по переходам со страницы статьи в карточку автора:
date
goalPreviousStep1
goalCompletionLocation
- goal15Completions - переход на страницу автора
Структура таблицы данных по переходам со страницы статьи в серию:
date
goalPreviousStep1
goalCompletionLocation
- goal14Completions
Структура таблицы данных по событиям перехода в корзину со страницы статьи:
date
goalCompletionLocation
- goal4Completions - добавление товара в корзину
Структура таблицы данных по получению выручки со страницы статьи:
date
transactions - транзакции
landingPagePath
- transactionRevenue - выручка с транзакций
Шаг 6. Обработка и объединение данных
Мы объединяем данные из вышеуказанных источников в Google BigQuery, который мы используем в качестве DWH.
Мы используем SQL-запрос для объединения данных из всех вышеуказанных таблиц, формируя на выходе две сущности:
Таблица данных когортного типа, в которой данные формируются по принципу - сумма показателей с даты публикации статьи до даты последней загрузки данных.
- Таблица данных является подневной. Чтобы иметь возможность видеть любые показатели в контексте указанного диапазона дат.
Расчетные метрики из GA дополняются ежедневно в 8 утра.
Результат
Визуализация полученных данных в формате дашборда, состоящего из нескольких листов.
- Первый лист дашборда “Материалы Журнала по дате публикации”
Особенностью является то, что в таблице отображаются все статьи, дата публикации которых попадает в выбранный диапазон.
Доходы TMS учитываются только для тех книг, которые имеют ссылки на статьи в Матрице продвижения. На дашборде отображаются только те статьи, в которых есть ссылки на статьи в Плане публикаций. Учитываются не только статьи на сайте, но и статьи Я.Дзен. Для сверки создан специальный блок "Доход из матриц".
В приведенном примере доход по статьям 100 000, Дзену - 14 000, итого - 114 000 - сумма совпадает матрице. Приведенные цифры не являются актуальными и используются в качестве примера.
2. Второй лист дашборда “Материалы Журнала по дате получения трафика”
Особенность в том, что в этом дашборде данные отображаются в разбивке по дате получения трафика.
Статьи в таблице присутствуют за весь доступный ретроспективный период - данные выгружаются из BITRIX CMS с 2008 года.
Доходы TMS учитываются только для тех книг, в матрицах продвижения которых есть ссылки на статьи.
Данные собраны из GA, Плана публикаций и Матриц по трем редакциям. В нижней части Внизу дашборда есть также кликабельная ссылка на его подробную архитектуру.
Выводы
Команда MTRENDO помогла ЭКСМО создать собственную аналитику по эффективности контента, объединив информацию из нескольких источников в один отчет. Данные собираются из GA, Плана публикаций и Матрицы по трем редакциям.
Аналогичной системы на рынке нет, поэтому нам пришлось создать совершенно новый продукт на основе пожеланий заказчика, выявленных в ходе подробного интервью, и информации, которая уже была собрана ранее в системах ЭКСМО.
Были решены задачи по переносу уже собранных данных из одного сервиса в другой, а для визуализации данных был использован сервис Google Data Studio. Дашборды настроены таким образом, что заказчики ежедневно получают данные об эффективности контента, поэтому сегодня утром можно увидеть информацию о материалах, загруженных вчера и ранее, что позволяет им оперативно реагировать на изменения. Данные в таблице приведены с первого июня 2019 года по предыдущий день ("вчера").
Всю информацию можно просматривать в разрезе редакций, авторов и типов материалов. Данные могут быть выгружены в виде таблиц Google или Excel.
Таким образом, ЭКСМО получила практический инструмент для сайта EKSMO.RU, позволяющий связать публикации с e-commerce транзакциями с целью подсчета монетизации контента статей и повышения эффективности контент-маркетинга.
Очень здорово, что такие игроки как Эксмо становятся более технологичными.
Но вот по сути мне непонятно, кажется кейс звучит так - собрали все данные в единое хранилище и вывели дашборды. Это хороший труд, но довольно стандартный и не уникальный (что не отменяет то, что вы молодцы).
А все же что было сделано инновационного, что побудило написать такой претензиозный заголовок к статье?