Внедрение ML в процессы CDEK.Shopping: определение цвета в карточках товаров

CDEK.Shopping начал свою деятельность чуть больше года назад. За это время компания стремительно набирала обороты — с 5 тысяч до 3 миллионов товаров на витрине. С мая 2022 года сервис доставил более 150 тысяч товаров из разных категорий — электроника, одежда, обувь, аксессуары, парфюмерия и многое другое.

На старте ассортимент включал в себя преимущественно электронику, однако в скором времени начала активно расти ещё одна категория — fashion. Здесь и появилась потребность в оптимизации поиска — он должен осуществляться не только по бренду, размеру и стране выкупа, но и по цвету. Работа над этими изменениями включила в себя несколько этапов и продолжается до сих пор.

Как компания внедряла ML-модель, с какими трудностями пришлось столкнуться и каких результатов достигли — рассказал Никита Веселов, Product owner CDEK.Shopping.

Внедрение ML в процессы CDEK.Shopping: определение цвета в карточках товаров

Особенности создания карточек товаров

Если сравнивать CDEK.Shopping с маркетплейсом, то одно из главных отличий — способ наполнения платформы товарными предложениями. На маркетплейсе этим занимаются продавцы — они хорошо знают свой товар и могут точно сформировать описание, характеристики и все цветовые варианты.

В CDEK.Shopping продавцы не размещают свои товары, наполнение витрины происходит автоматически, с помощью специальных алгоритмов, которые анализируют релевантность товаров и выгружают на сайт только те, которые соответствуют заданным параметрам. Автоматизированная система получает данные с зарубежных площадок и адаптирует под платформу — переводит на русский язык и оптимизирует изображения.

Доверять машине на 100% пока рано, поэтому отдел контента проверяет результат и при необходимости корректирует полученные данные.

Во время сбора информации с различных площадок система определяла только наименование товара, его модель, иногда характеристики и описание, но цвет чаще всего оставался неизвестным. И получалось так по разным причинам:

  • В описании или названии товара на интернет-площадке могло отсутствовать упоминание о цвете.
  • Зачастую цвет товара идентифицировался неверно из-за неоднозначности перевода.
  • В самих карточках на интернет-площадках могли быть ошибки в названии цвета.
  • Часто товары были представлены в мультицветах: чёрно-белый, сине-красный и т.д. Это тоже вызывало трудности перевода и распознавания

Провели исследование

В первый год необходимость в фильтре по цветам не казалась такой однозначной. Однако в связи с увеличением ассортимента, клиентов и трафика, у CDEK.Shopping появилась гипотеза о том, что пользователям было бы значительно комфортнее пользоваться платформой с фильтром по цвету.

Для подтверждения дальнейшего исследования гипотезы мы собрали фокус-группу и провели опрос — испытывают ли пользователи потребность в фильтре по цвету.

Исследование показало, что почти 90% респондентам не хватает такого функционала на платформе. Тогда мы и начали работу по автоматизации процесса определения цвета с помощью ИИ.

С чего начали

Внедрение нового фильтра начали с анализа опыта маркетплейсов. Один из важных выводов заключался в следующем — цветов не должно быть слишком много. Избыточность вариантов усложняет поиск, занимает много времени при установке параметров и сужает количество результатов.

Например, алый, бордовый, гранатовый, малиновый и другие похожие оттенки не стоит подразделять на отдельные цветовые категории — их все можно отнести к красному, чтобы не тратить слишком много времени на выбор цветов и расширить выдачу вариантов. К тому же, многое зависит от восприятия цвета самим человеком — один и тот же цвет люди могут воспринимать по-разному. Условно говоря, цвет морской волны для одного может быть ближе к зелёному, а для другого — к голубому. Или можно для примера вспомнить историю со знаменитым платьем — одним оно казалось синим, другим — золотым.

Кроме того, результаты исследования среди участников фокус-группы показали, что люди в подавляющем большинстве не уверены, какой конкретно цвет им нужен и предпочитают рассматривать все варианты оттенков.

Именно поэтому было принято решение оставить в фильтре только 11 популярных цветов.

Затем мы приступили к технической части. Если говорить о механике в двух словах, то идея заключалась в следующем: система анализирует изображение, определяет цвет и заносит его в карточку товара на платформе. Однако первые «запуски» показали, что модель нуждается в доработке.

Во-первых, большинство товаров имеют в своём дизайне несколько цветов. Поэтому для определения конкретного цвета, который в итоге будет присвоен товару, необходимо было выделить доминирующий — основной цвет, определяющий визуальное восприятие вещи/обуви/предмета. Для этого необходимо было настроить ещё один важный параметр — отделение фона. И тут мы столкнулись с искажением цвета. Белый товар на белом фоне часто определялся как серый, синий — как чёрный и т.д. Стало понятно, что модель ML нужно «доучивать».

Во-вторых, неожиданно проблемной категорией товаров оказалась одежда, которая закрывает небольшую часть тела, например, топы и купальники. Алгоритм зачастую воспринимал цвет кожи модели с изображения как основной цвет товара.

К чему пришли

В результате мы научили ML-модель определять не только моноцвета, но и мультицвета, основываясь на доминирующем цвете, категории товара и его особенностях. Например, красную кофту с белыми элементами система определяла как красную.

Для проверки объективности выводов машины мы снова обратились к фокус-группе и предоставили им на выбор несколько товаров в мультицветах. В итоге восприятие 95% опрошенных сошлось с результатами ML-модели.

Мы обновили нашу базу сначала на 40 000 товаров и решили дождаться результатов, прежде чем распространять обновление на остальную продукцию. Ошибки в корректном определении цвета были — около 7% при первом тестировании. Тогда мы добавили ещё несколько вариаций оттенков в модель соответствия, а также несколько уточняющих параметров, чтобы сделать систему более гибкой в определении цвета.

Сейчас общее количество товаров с фильтром цвета около 700 тысяч, а процент ошибки модели — не больше 2%. Первичные тесты показали, что конверсия в категориях с фильтром цвета стала выше на 30% и продолжает расти.

Но, конечно, это далеко не всё. В планах компании — применять инструменты машинного обучения в поиске, внедрить предиктивную аналитику на основе ML, а также автоматизацию по работе с нашими любимыми клиентами. И очень важно оглядываться на юнит-экономику, а не внедрять ИИ только потому, что это модно.

55
1 комментарий

Внедрите оператора, который будет отвечать на сообщения

Ответить