Внедрение ML в процессы CDEK.Shopping: определение цвета в карточках товаров

Внедрение ML в процессы CDEK.Shopping: определение цвета в карточках товаров

CDEK.Shopping начал свою деятельность чуть больше года назад. За это время компания стремительно набирала обороты — с 5 тысяч до 3 миллионов товаров на витрине. С мая 2022 года сервис доставил более 150 тысяч товаров из разных категорий — электроника, одежда, обувь, аксессуары, парфюмерия и многое другое.

На старте ассортимент включал в себя преимущественно электронику, однако в скором времени начала активно расти ещё одна категория — fashion. Здесь и появилась потребность в оптимизации поиска — он должен осуществляться не только по бренду, размеру и стране выкупа, но и по цвету. Работа над этими изменениями включила в себя несколько этапов и продолжается до сих пор.

Как компания внедряла ML-модель, с какими трудностями пришлось столкнуться и каких результатов достигли — рассказал Никита Веселов, Product owner CDEK.Shopping.

Особенности создания карточек товаров

Если сравнивать CDEK.Shopping с маркетплейсом, то одно из главных отличий — способ наполнения платформы товарными предложениями. На маркетплейсе этим занимаются продавцы — они хорошо знают свой товар и могут точно сформировать описание, характеристики и все цветовые варианты.

В CDEK.Shopping продавцы не размещают свои товары, наполнение витрины происходит автоматически, с помощью специальных алгоритмов, которые анализируют релевантность товаров и выгружают на сайт только те, которые соответствуют заданным параметрам. Автоматизированная система получает данные с зарубежных площадок и адаптирует под платформу — переводит на русский язык и оптимизирует изображения.

Доверять машине на 100% пока рано, поэтому отдел контента проверяет результат и при необходимости корректирует полученные данные.

Во время сбора информации с различных площадок система определяла только наименование товара, его модель, иногда характеристики и описание, но цвет чаще всего оставался неизвестным. И получалось так по разным причинам:

  • В описании или названии товара на интернет-площадке могло отсутствовать упоминание о цвете.
  • Зачастую цвет товара идентифицировался неверно из-за неоднозначности перевода.
  • В самих карточках на интернет-площадках могли быть ошибки в названии цвета.
  • Часто товары были представлены в мультицветах: чёрно-белый, сине-красный и т.д. Это тоже вызывало трудности перевода и распознавания

Провели исследование

В первый год необходимость в фильтре по цветам не казалась такой однозначной. Однако в связи с увеличением ассортимента, клиентов и трафика, у CDEK.Shopping появилась гипотеза о том, что пользователям было бы значительно комфортнее пользоваться платформой с фильтром по цвету.

Для подтверждения дальнейшего исследования гипотезы мы собрали фокус-группу и провели опрос — испытывают ли пользователи потребность в фильтре по цвету.

Исследование показало, что почти 90% респондентам не хватает такого функционала на платформе. Тогда мы и начали работу по автоматизации процесса определения цвета с помощью ИИ.

С чего начали

Внедрение нового фильтра начали с анализа опыта маркетплейсов. Один из важных выводов заключался в следующем — цветов не должно быть слишком много. Избыточность вариантов усложняет поиск, занимает много времени при установке параметров и сужает количество результатов.

Например, алый, бордовый, гранатовый, малиновый и другие похожие оттенки не стоит подразделять на отдельные цветовые категории — их все можно отнести к красному, чтобы не тратить слишком много времени на выбор цветов и расширить выдачу вариантов. К тому же, многое зависит от восприятия цвета самим человеком — один и тот же цвет люди могут воспринимать по-разному. Условно говоря, цвет морской волны для одного может быть ближе к зелёному, а для другого — к голубому. Или можно для примера вспомнить историю со знаменитым платьем — одним оно казалось синим, другим — золотым.

Кроме того, результаты исследования среди участников фокус-группы показали, что люди в подавляющем большинстве не уверены, какой конкретно цвет им нужен и предпочитают рассматривать все варианты оттенков.

Именно поэтому было принято решение оставить в фильтре только 11 популярных цветов.

Затем мы приступили к технической части. Если говорить о механике в двух словах, то идея заключалась в следующем: система анализирует изображение, определяет цвет и заносит его в карточку товара на платформе. Однако первые «запуски» показали, что модель нуждается в доработке.

Во-первых, большинство товаров имеют в своём дизайне несколько цветов. Поэтому для определения конкретного цвета, который в итоге будет присвоен товару, необходимо было выделить доминирующий — основной цвет, определяющий визуальное восприятие вещи/обуви/предмета. Для этого необходимо было настроить ещё один важный параметр — отделение фона. И тут мы столкнулись с искажением цвета. Белый товар на белом фоне часто определялся как серый, синий — как чёрный и т.д. Стало понятно, что модель ML нужно «доучивать».

Во-вторых, неожиданно проблемной категорией товаров оказалась одежда, которая закрывает небольшую часть тела, например, топы и купальники. Алгоритм зачастую воспринимал цвет кожи модели с изображения как основной цвет товара.

К чему пришли

В результате мы научили ML-модель определять не только моноцвета, но и мультицвета, основываясь на доминирующем цвете, категории товара и его особенностях. Например, красную кофту с белыми элементами система определяла как красную.

Для проверки объективности выводов машины мы снова обратились к фокус-группе и предоставили им на выбор несколько товаров в мультицветах. В итоге восприятие 95% опрошенных сошлось с результатами ML-модели.

Мы обновили нашу базу сначала на 40 000 товаров и решили дождаться результатов, прежде чем распространять обновление на остальную продукцию. Ошибки в корректном определении цвета были — около 7% при первом тестировании. Тогда мы добавили ещё несколько вариаций оттенков в модель соответствия, а также несколько уточняющих параметров, чтобы сделать систему более гибкой в определении цвета.

Сейчас общее количество товаров с фильтром цвета около 700 тысяч, а процент ошибки модели — не больше 2%. Первичные тесты показали, что конверсия в категориях с фильтром цвета стала выше на 30% и продолжает расти.

Но, конечно, это далеко не всё. В планах компании — применять инструменты машинного обучения в поиске, внедрить предиктивную аналитику на основе ML, а также автоматизацию по работе с нашими любимыми клиентами. И очень важно оглядываться на юнит-экономику, а не внедрять ИИ только потому, что это модно.

Никита Веселов, Product owner CDEK.Shopping
66
31 комментарий

Интересная статья! Какие проблемы ещё хотите решить с помощью машинного обучения?

2

Спасибо! В первую очередь, машинное обучение направим на предиктивную аналитику, чат-боты и продолжение работы с карточками товаров, их на платформе уже более 3 млн., поэтому направление контента огромное поле на новых тестов :)

Это предостережение для всех, кто решится совершить заказ через @CDEK.Shopping — обходите стороной все, кому дороги его личные деньги, время и нервы. Перепись пострадавших, а их больше сотни, лежит здесь: https://vc.ru/claim/639847-cdek-shopping-otkazyvaetsya-vozvrashchat-dengi-za-otmenennyy-zakaz

Мой заказ 573137-0002
Первые две недели я ждал изменения статуса с "в обработке" на "передан на выкуп" — этого не произошло, и я запросил возврат, так как ожидать дальше не представлялось возможным.

Далее прошло 2 недели с момента того, как был зарегистрирован возврат средств, но ни статус заказа не изменился в приложении, ни средства не возвращены. Итого на текущий момент, деньги заморожены в общей сложности уже почти на месяц.

Заказ был на сумму 16318 рублей, за вычетом ваших "расходов" на транзакционные издержки в размере 2,3%, которые обозначил менеджер в переписке, вы должны мне вернуть 15942 рубля. Больше кормить меня стандартными отбивками в почте не нужно, я ожидаю возврат средств до конца недели, в противном случае высылаю досудебку и заявление в Роспотребнадзор.

1

Добрый день.
Мне очень жаль, что работа нашего сервиса вызвала у Вас разочарование.
Проверили информацию по Вашему заказу.
К сожалению, Ваш запрос на возврат до сих пор находится на рассмотрении. Понимаем, что ожидание вызывает дискомфорт.
Пожалуйста, не переживайте. Со своей стороны подключились к решению Вашего вопроса. Вернемся к Вам с итоговым решением по Вашему обращению в течение 1-3 рабочих дней.
Примите, пожалуйста, наши извинения, что заставляем Вас ждать.

Никита Веселов PO Cdek Shopping Мне интересен ваш ответ коллега. Когда на условном vc.ru и прочих схожих сайтах присутствует куча недовольных пользователей, которые в основном жалуются на: большие задержки с доставкой заказа, плохим Tone of Voice продукта, на основе чего приоритезируете бэклог и идете в ML? Понятно что чем больше SKU, тем больше выбор, понятно что есть товары категории А и с ними маловероятны проблемы в поставках, но все таки? Реально по метрикам такой жалкий отток клиента из-за репутации и маркетинга?
Для примера СберМегаМаркет тоже испытывал схожие проблемы, когда залили большие бюджеты в акции и промо по сбер спасибо, но по итогу улалиди общий негативный фон

2

1