Я скачал и разобрал 1,2 млн вопросов покупателей Wildberries, чтобы понять, чего им не хватает в карточках товаров

В конце прошлой недели я устроил себе личный «хакатон» и посмотрел, какие сведения о товаре люди чаще всего ищут, но не находят. За два дня написал скрипт на C#, выгрузил 1 200 000 вопросов из раздела «Вопрос-ответ» Wildberries, пропустил их через GPT-4 и Qdrant — делюсь итогами.

Спойлер: 53 % вопросов вообще не про сам товар, а про доставку, оплату и обмен; зато оставшиеся 47 % отлично подсвечивают характеристики, которые стоит добавить в карточку.

Как я собирал данные

  1. Скрипт на C# обходит публичный API и тащит все вопросы к товарам.
  2. Из выгрузки убираю всё, что связано с платёжкой, доставкой и возвратами — остаётся около 564 000 «чистых» товарных вопросов.
  3. GPT-4 группирует их по темам, Qdrant хранит вектора, из которых вытягиваю топ-характеристики для каждой ниши.

Цель была простая: превратить неструктурированный хаос в удобный чек-лист «что писать в описании товара».

Что получилось

  • Категорий с результатами: 2 484
  • 1,2 млн исходных вопросов / 564 тыс. релевантных
  • ~2 ГБ текста, разложенного по темам и популярности

Пример: «Гарнитуры и наушники»

Часть вопросов, которые всплывали чаще всего:

  • Какие устройства совместимы с вашими гарнитурами и наушниками?
  • Как снять и заменить резинки на наушниках?
  • Как управлять воспроизведением музыки и вызовами на гарнитурах?
  • Какой блок питания можно использовать для зарядки?
    Можно ли принимать вызовы через мессенджеры?
  • Как сбросить гарнитуру до заводских настроек?
  • Есть ли функция активного или пассивного шумоподавления?
  • Поддерживается ли работа с очками?
  • Как узнать уровень заряда кейса?
  • Как работает сенсорное управление и сколько тапов требуется для различных функций?
  • Поддерживается ли подключение к компьютеру через Bluetooth?
    Есть ли режим для минимальной задержки, например, для игр?
  • Какое качество микрофона у гарнитуры?
  • Какие аксессуары включены в комплект поставки?
  • Какой материал используется для корпуса и аксессуаров?

Топ-характеристики, которых часто не хватает в карточке:

  • задержка звука
  • материал амбушюр
  • уровень заряда кейса
  • поддерживаемые кодеки
  • сенсорное управление
  • совместимость с устройствами
  • качество микрофона
  • активное шумоподавление
  • комплектация

Сырые вопросы без правок

(кусочек, чтобы почувствовать «температуру» текста)

  • здравствуйте, а наушники подключатся к телефону редми 12 ??
  • а какой цвет чехла в подарок?
  • добрый день. наушники будут работать с планшетом хонер х9 про
  • Здравствуйте, как можно узнать уровень заряда?
  • А можно инструкцию на русском языке?
  • они к любому андройду подойдут
  • У меня вопрос на счет задержки .там написано залержки нет,так оно?или есть мини задержка звука в играх напимер миллисекунды там

Даже по этому отрывку видно, что люди:

  1. Спрашивают о совместимости почти с каждым брендом.
  2. Больше волнуются за задержку в играх и качество микрофона, чем за «глубокие басы».
  3. Не находят в карточке элементарного — как сбросить до заводских настроек и как посмотреть заряд.

Главные выводы после 1,2 млн вопросов

  1. Каждое второе сообщение (53 %) — про процессы, а не про продукт. Но именно «товарный» хвост влияет на конверсию: если ответ есть в карточке, вопрос не задают.
  2. Формулировки из вопросов — готовый SEO-словарь. Добавьте их в описание и получите дополнительный трафик.
  3. В каждой категории — свой must-have. Для гарнитур это задержка и кодеки, для чемоданов — вес пустого чемодана, для мебели — возможность крепления к стене и параметры направляющих.

Чем это может быть полезно

  • Проверить свои карточки: есть ли там топ-10 вопросов вашей категории.
  • Составить ТЗ для фотографа: какие детали показать крупно (амбушюры, индикатор заряда, направляющие).
  • Использовать как банк идей для FAQ-блока или шаблона ответов в личном кабинете продавца.

Как посмотреть результаты

Сырые файлы тяжёлые, поэтому сделал веб-страницу с деревом категорий: кликаете на нужную нишу и сразу видите топ-вопросы и недостающие характеристики.

Если нужен дамп в CSV/JSON или исходный код — напишите, придумаем, как передать.

Юрий, разработчик catalog.app.

3
2 комментария