Применение машинного обучения для управления товарным каталогом в интернет-магазинах

3 марта мы организовали онлайн-конференцию Machine Learning в Digital-продуктах с участием спикеров из Тинькофф, СБЕРа, МТС, Checklens GmbH, Brickit, Epoch8 и AGIMA. В рамках конференции Андрей Татаринов из компании Epoch8 рассказал о том, как с помощью машинного обучения автоматизировать и ускорить типовые задачи по управлению товарными каталогами.

Применение ML

В интернет-магазинах множество операционных задач по управлению товарным каталогом, которые традиционно выполняет редакция:

  • Категоризация товаров и размещение их на сайте;

  • Объединение дублей и моделей в одну карточку;

  • Размещение товаров в сторонних маркетплейсах;
  • Рекомендации в листингах.

Многие из этих задач решаются вручную, но на больших объемах это становится невозможно или дорого.

Важно понимать, что машинное обучение — это статистические методы, которые работают с какой-то вероятностью. Хорошее решение — 90-95% точности, менее удачный случай применение ML — ниже 80%. Поэтому важно понимать: если в процессе, который автоматизируется машинным обучением, вам нужна 100% точность, где-то должен сидеть человек для полной или выборочной проверки. Иногда это происходит на стороне заказчика или внутри команды, которая создает решения.

Задачи для электронной коммерции

Все задачи можно представить в виде дерева, поскольку они будут взаимосвязаны между собой. В корне лежит понимание сути товара. Это значит преобразовать название и дополнительные характеристики продукта в машинно-понятный вид. В нашем случае: преобразование в числа, которые будут содержать в себе достаточное количество информации для решения конкретных задач. Это самая сложная часть работы, поскольку требует большого количества данных. В этом нам помогает база, собранная за годы работы из разных областей: товарные каталоги, чеки, названия продуктов с маркетплейсов и соответствующая им разметка под различные задачи.

Как это работает на практике?

Категоризация товара необходима для того чтобы определить: чем является конкретная позиция перед вами. На основании полученной категории появляются дополнительные задачи по обогащению атрибутами, потому что, как правило, каждый маркетплейс имеет специальные требования по формализации товара.

Где в реальности нужна категоризация

Например, у вас есть маркетплейс, который торгует товарами для животных. Есть поставщики, которые присылают десятки тысяч своих товаров для размещения. Как правило, каждый маркетплейс имеет свои конкретные требования к размещению товаров. Задача категоризации — выбор корректной категории из каталога для заданного товара, либо определение того, что не одна из представленных категорий не подходит.

Мы создали подход, где решаем данную задачу через формирование референсного каталога и поиск похожего товара среди этого каталога для заданного.

Такое решение обладает устойчивостью к маленьким изменениям. Например, если сначала категория «корма для животных» была общая, а потом разделилась на «корм для собак» и «корм для кошек», то в нашем случае это означает изменение референсного каталога, разделение одной категории на несколько. Редактируя эту часть, мы не меняем поведение системы во всех остальных категориях.

Минусом подхода является только то, что для его хорошей работы требуется качественный эмбеддер, который сохраняет информацию о товаре и хорошо понимает смысл этих названий.

Извлечение атрибутов

Например, у вас есть множество товаров и вы хотите извлечь из их названий бренд, который не формализован. Или же необходимо нормализовать цену на вес в товарном названии. Для достижения таких целей, в основе которых лежит языковая модель, необходимо классифицировать каждое слово из названия на атрибут, к которому оно относится.

Мэтчинг моделей и дубликатов

Обычно поставщики предлагают маркетплейсам товары одних и тех же производителей, но по своим условиям и из собственных каталогов. Несмотря на то что они предоставляют одно и то же, информационная цепочка разная: кто-то добавляет вкус или модификатор молочный. Задача маркетплейса — собрать все эти предложения внутри одной карточки и показать разнообразие цен. С помощью извлечения сущности, мы разбиваем названия на компоненты и делаем нечеткий матчинг каждого значимого компонента на целевой каталог.

Альтернативная формулировка той же задачи — публикация на стороннем маркетплейсе. Когда требуется формализация свойств и их значений в другие каталоги — это решается ансамблем маленьких моделей с нечетким поиском на каждый конкретный атрибут, где базовый подход остается тем же самым.

Товарные рекомендации

Казалось бы, что задача рекомендаций решена уже давно и интернет полон таких решений. Но в базе у таких решений есть существенный ряд недостатков: минимальная специфика. В основном используют идентификаторы пользователей и объектов. Это хорошо, потому что позволяет работать с чем угодно, но при этом не учитываются важные особенности. В итоге для получения первых результатов обычно приходится ждать 3 месяца для накопления базовой статистики о взаимодействии пользователя с вашими данными. Другим типичным свойством является неустойчивость, например, если один товар ушел из базы и на его место пришел другой точно такой же, но с новым артикулом, в таком случае статистика по старому теряется, если не предпринять дополнительные усилия.

Также возникает вопрос: что делать с объектами, которые только что появились в системе и не имеют никакую информацию? Если вернуться к нашему базовому решению про понимание смысла, то на основании того же самого эмбеддинга, который хорошо позволяет категоризовать, можно четко понять, что значит этот товар и разумно принять решение о заинтересованности пользователя.

Мы можем собирать информацию о взаимодействии пользователя с системой, заранее иметь достаточно хорошую модель, которая внутри предметной области дает хорошие рекомендации, не имея предварительной информации о конкретных пользователях на платформе. Также модель рекомендаций обычно учитывает дополнительные атрибуты, например, время года, взаимодействие пользователей с другими объектами, их смежность или другую значимую для маркетплейса информацию.

Применение машинного обучения для управления товарным каталогом в интернет-магазинах

Здесь вы можете посмотреть онлайн-конференцию: Практическое применение Machine Learning в Digital-продуктах.

В предыдущей серии:

0
Комментарии
-3 комментариев
Раскрывать всегда