{"id":14286,"url":"\/distributions\/14286\/click?bit=1&hash=d1e315456c2550b969eff5276b8894057db7c9f3635d69a38d108a0d3b909097","title":"\u041f\u043e\u0440\u0430\u0431\u043e\u0442\u0430\u0442\u044c \u043d\u0430\u0434 \u043a\u0440\u0443\u043f\u043d\u0435\u0439\u0448\u0438\u043c\u0438 \u0418\u0422-\u043f\u0440\u043e\u0435\u043a\u0442\u0430\u043c\u0438 \u0441\u0442\u0440\u0430\u043d\u044b","buttonText":"","imageUuid":""}

Machine learning и качество контента сайтов ecom. Как измерить и оценить влияние на продажи

Сегодня мы поговорим про качество контента в разрезе его влияния на метрики продаж. Об этом подробно рассказывал Виталий Палехин (Dataforce) в своем докладе на конференции "ECOM Trends 2022: аналитика, контент и работа с маркетплейсами". Виталий разобрал, какие метрики контента можно считать и насколько они значимы для онлайн продаж, какую ценность можно получить на основе их анализа и как организовать сбор и обработку этих данных.

Ранее мы уже разбирали, как сильно качество проработки карточки товара влияет на SEO. Теперь копнем глубже с упором на конверсию.

Мы заморочились — изучили и сгруппировали параметры карточек, разработали ML модель, которая описывает влияние параметров карточек на различные факторы и посчитали их степень влияния на конверсию.

Для этого мы:

  • Выбрали два e-commerce проекта,
  • Обработали более 60 тыс. карточек товаров,
  • Собрали более 60 контентных фич с каждой карточки товара: отзывы, фотографии, характеристики, условия доставки, цены и тд.,
  • Подали все эти данные в ML библиотеку, используя деревья решений - CatBoost,
  • Обогатили модель метриками Трафика/Продаж,
  • Обучили ML-модель более чем на 3 млн показателях метрик.

В итоге получили объемный список метрик контента, разложенных по степени влияния на конверсию, по убыванию — сверху вниз. Сверху расположились метрики, оказывающие наибольшее влияние на исследуемую метрику, в нашем случае на метрику %CR.

И отдельно про каждую из метрик:

Давайте разберем немного подробнее, как читать этот график.

Как уже было сказано, вверху графика расположены свойства контента, которые оказывают наибольшее влияние на метрику %CR. Отклонение влево или вправо от вертикальной оси показывает негативное или позитивное влияние соответствующей фичи (свойства контента карточки) на исследуемую метрику.

Красным обозначается высокое абсолютное значение фичи, т.е. чем краснее “индикатор” фичи, тем больше абсолютное значение этой фичи в исследуемых карточках товаров.

Фичи могут как повысить, так и понизить конверсию. Конкретно в нашем примере, увеличение количества товаров в блоке “не забыть купить”, который показывается вместе с основной карточкой товара, “тянет” конверсию в минус, а в блоке “рекомендуем вам”, напротив, позитивно влияет на метрику конверсии.

Как использовать эту модель для ecommerce?

Для начала мы разобрали фичу количество товаров, показываемых в блоке “не забудь купить”. Так как модель нам показала, что увеличение абсолютного значения фичи в блоке отрицательно влияет на конверсию, мы намеренно сократили значение количества товаров в исследуемом блоке.

Предварительно мы получили прогнозное значение %CR на исходном количестве товаров в блоке “не забудь купить” и сравнили реальную конверсию и конверсию предикт, чтобы подтвердить достоверность предикт-данных.

Далее, мы сократили значение карточек в блоке “не забудь купить” и вновь обучили модель на измененных параметрах. В итоге получили данные, которые говорят, что при уменьшении количества товаров в блоке — конверсия значительно возрастает.

Аналогичный опыт мы проделали с данными по блоку “рекомендуем вам”. Но так как модель показывала прямую зависимость между увеличением количества товаров в блоке и метрикой %CR — мы намеренно увеличивали значения товаров для обучения модели. В результате модель также предсказала рост %CR.

Разумеется данные модели — это лишь прогнозные данные, однако, их можно достаточно успешно использовать для выбора вектора проектирования A/B-тестов при работе с контентом интернет-магазина, существенно экономить время и ресурсы команды, подкрепляя профессиональный опыт цифрами, полученными с привлечением технологий машинного обучения.

Вот лишь некоторые примеры использования полученных данных:

  • Ориентиры для инвестиций в веб,
  • Карта качества контента в разрезе товарной структуры,
  • Дополнительная оценка инвестиций в веб
  • Эффективное проектирование А/Б тестов

Как собрать данные?

Рассмотрим стандартную карточку товара современного интернет-магазина. На ней можно выделить блоки контента: цены, отзывы, видео, 3Д обзоры итд.

1.Отзывы

2.Скидка

3.Наличие

….

• Количество фото

• Видео / 3d обзор

• Рейтинг

• Популярность

•…

Чтобы собрать данные о контенте, мы использовали фиды, откуда получили часть данных (название, описание товара, цена товаров и т.д.). Недостающие данные о контенте карточек товаров собрали с помощью собственного краулера, который обходит заданные страницы интернет-магазина. Данные о метриках трафика и продаж получили из систем аналитики. После чего агрегировали их и загрузили в ClickHouse.

Стоит отметить, что при необходимости данные можно обогатить сведениями о выкупе товаров из CRM, данными из Яндекс.Вебмастер/GSC, данными из поисковых систем и техническими данными о состоянии страниц.

Метрики качества, которые мы собрали, можно удобно разложить по товарной структуре, сохраняя всю иерархию вложенности интернет-магазина. То есть — начиная с категорий, листингов, доходя до нижних уровней — карточек.

И в результате мы получаем полную карту качества, где наглядно видно, какие сегменты проработаны хорошо, а какие не очень. Уже в таком виде отчет будет полезен специалистам, отвечающим за контент ecom.

Пример данных карточек. Собранные данные можно использовать в “сыром” необработанном виде, например, для отслеживания качества проработки контента в разрезе карточек товаров, или же нормировать и привести к единому виду для удобства чтения и использования в построении ML-моделей.

По нашему опыту, фичи также удобно бить по типам:

  • Пользовательский опыт: отзывы, рейтинги, отзывы с фото, запросы в поддержку и т.д.
  • Медиа: фото, видео и т.д.
  • Описание: длина, количество характеристик и др.
  • Коммерческие: цена, акции и др.

Количество фич и категорий может варьироваться в зависимости от блоков контента сайта ecommerce.

Нормировать фичи можно «в лоб» (по среднему) или с использованием коэффициентов значимости (взвешивать). Можно делать раздельно в разрезе больших вертикалей.

Есть разные подходы, мы использовали нормирование метрик от 0 до 100.

Еще больше данных!

Полученную модель можно обогатить:

  • данными про поисковый спрос и использовать модель для выявления зависимости качества контента и метрик видимости страниц сайта,
  • данными из контента конкурентов для оценки влияния качества контента на ранжирование сайтов конкурентов,
  • данными о взаимодействии пользователей с различными блоками контента и его влияния на метрики продаж.

Кейс использования данных: в преддверии сезонного роста спроса на определенные категории товаров, можно проанализировать зависимость качества проработки контента на поисковую видимость и заранее проработать карточки товаров в интересующем сегменте, чтобы получить больше органического трафика и, как следствие, повлиять на увеличение профита от продаж во время высокого сезона.

Резюме:

Контент карточек (и листингов) – ценные данные про пользовательский опыт, медиа, описание, коммерческие свойства.

Исследуя данные о качестве контента ecommerce мы можем:

1. Находить точки роста и генерировать гипотезы увеличения метрик конверсий/продаж.

2. Оптимизировать инвестиции в контент.

3. Приоритезировать работу с контентом и интегрировать, полученные данные в работу по SEO-оптимизации сайта.

0
23 комментария
Написать комментарий...
Аполлон Степанов

Не увидел в статье ни одной метрики качества модели.

Ответить
Развернуть ветку
Michael

Что я сейчас прочёл?

Ответить
Развернуть ветку
Чайка О.

"Ничего не понятно, но очень интересно."

Ответить
Развернуть ветку
Наврузжон Нарматов

спасибо за материал. обожаю работу на основе данных, когда выводы построенны на цифрах. супер

Ответить
Развернуть ветку
Михаил Коновалов

особенно выборка в 2 сайта огонь, чтобы делать выводы))))

Ответить
Развернуть ветку
Аполлон Степанов

Сомнительно, что для 60 признаков и всего лишь 60 тысячах карточек можно качественно обучить модель.
Скорее всего на выходе будет просто информационный мусор.

Жаль, что нет метрик. Хотя наверное поэтому их и нет, что там есть проблемы.

Ответить
Развернуть ветку
Viktor Galich

Очень круто! Однозначно надо прокачивать ML, мы тоже смотрим в эту сторону, но пока не созрели

Ответить
Развернуть ветку
George Karakeyan

Вы, ребята, просто космос!

Ответить
Развернуть ветку
Аполлон Степанов

Не учитывается семантический/сентиментный анализ карточки, который можно привести к различным метрикам

Ответить
Развернуть ветку
Аполлон Степанов

Большинство факторов имеют нулевую или около нулевой степень влияния.

Если это так, то зачем их вообще использовать??

Но вероятнее всего, если факторы релевантны и имеют влияние, скорее всего ваша модель просто не обучилась на факторах в связи как минимум с тем, что у вас датасет маленький. Всего 60 тысяч.

Ответить
Развернуть ветку
Sergei Zotov

Вдобавок к комментариям Аполлона, могу только посочувствовать всем, кто называет поля в БД или фичи на транслите. Читать это невозможно

Ответить
Развернуть ветку
Виктор Петров

Спасибо, отличный материал. Так вот и подбирается ближайшее будущее, когда сеошка с бубном станет историей.

Ответить
Развернуть ветку
Viktor Galich

Наверное это не так уж и плохо. Разве нет?

Ответить
Развернуть ветку
Виктор Петров

Не берусь оценивать. Лишние уйдут из профессии. Но это та часть процесса, когда уйдут и клиенты - как ушли бабушки с товарами на газетках, потом ларьки, потом мелкие магазинчики, и остались только сети.

Ответить
Развернуть ветку
Чайка О.

В Воронеже "бабушки с товарами на газетках" встречаются довольно часто. Но такое чувство, что это сети :)
Продают одинаковое: букетики, соленья и пр. - один в один, а в разных частях города.

Ответить
Развернуть ветку
Виктор Петров

пехотинцы сетевого бизнеса
В 90-е там реально было что-то с личных огородов или с антресолей.
Сейчас дропшиппинг один, наверное

Ответить
Развернуть ветку
Чайка О.

Однозначно.

Ответить
Развернуть ветку
Камиль Авгаев

ну норм. контентнику наверное меньше подойдет, но вот для экома зачетно

Ответить
Развернуть ветку
Мария Распутина

вопрос в том, что без аналитики сегодня работа в эком не будет эффективна, если посмотреть на контентник с точки зрения бизнес-процессов, то и там машинлегнинг актуален конечно

Ответить
Развернуть ветку
Алексей Погребной

молодцы, весьма методично. надо перенимать и не лениться)

Ответить
Развернуть ветку
Вера Леонова

Классная статья, приятно было читать 👍

Ответить
Развернуть ветку
Аполлон Степанов

Ничего не увидел про очистку и подготовку данных.

Ответить
Развернуть ветку
Efim Kuzminskyi

спасибо за такой контент!

Ответить
Развернуть ветку
20 комментариев
Раскрывать всегда