{"id":9001,"title":"\u0417\u0430\u0447\u0435\u043c \u043d\u0443\u0436\u0435\u043d \u0444\u0438\u043d\u0442\u0435\u0445 \u043a\u0430\u043a \u0441\u0435\u0440\u0432\u0438\u0441. \u041d\u0430\u043f\u0430\u0434\u0430\u0435\u043c \u0441 \u043a\u0440\u0438\u0442\u0438\u043a\u043e\u0439","url":"\/redirect?component=advertising&id=9001&url=https:\/\/vc.ru\/promo\/321129-kritika-finteh-kak-servis-eto-dorogo-slozhno-i-slishkom-universalno&placeBit=1&hash=0f11beca127b0260f19ba1d57bd2ebb2f81750b56fe49269b93cb930545c9faa","isPaidAndBannersEnabled":false}
Machine learning
AGIMA

Применение машинного обучения для управления товарным каталогом в интернет-магазинах

3 марта мы организовали онлайн-конференцию Machine Learning в Digital-продуктах с участием спикеров из Тинькофф, СБЕРа, МТС, Checklens GmbH, Brickit, Epoch8 и AGIMA. В рамках конференции Андрей Татаринов из компании Epoch8 рассказал о том, как с помощью машинного обучения автоматизировать и ускорить типовые задачи по управлению товарными каталогами.

Применение ML

В интернет-магазинах множество операционных задач по управлению товарным каталогом, которые традиционно выполняет редакция:

  • Категоризация товаров и размещение их на сайте;

  • Объединение дублей и моделей в одну карточку;

  • Размещение товаров в сторонних маркетплейсах;
  • Рекомендации в листингах.

Многие из этих задач решаются вручную, но на больших объемах это становится невозможно или дорого.

Важно понимать, что машинное обучение — это статистические методы, которые работают с какой-то вероятностью. Хорошее решение — 90-95% точности, менее удачный случай применение ML — ниже 80%. Поэтому важно понимать: если в процессе, который автоматизируется машинным обучением, вам нужна 100% точность, где-то должен сидеть человек для полной или выборочной проверки. Иногда это происходит на стороне заказчика или внутри команды, которая создает решения.

Задачи для электронной коммерции

Все задачи можно представить в виде дерева, поскольку они будут взаимосвязаны между собой. В корне лежит понимание сути товара. Это значит преобразовать название и дополнительные характеристики продукта в машинно-понятный вид. В нашем случае: преобразование в числа, которые будут содержать в себе достаточное количество информации для решения конкретных задач. Это самая сложная часть работы, поскольку требует большого количества данных. В этом нам помогает база, собранная за годы работы из разных областей: товарные каталоги, чеки, названия продуктов с маркетплейсов и соответствующая им разметка под различные задачи.

Как это работает на практике?

Категоризация товара необходима для того чтобы определить: чем является конкретная позиция перед вами. На основании полученной категории появляются дополнительные задачи по обогащению атрибутами, потому что, как правило, каждый маркетплейс имеет специальные требования по формализации товара.

Где в реальности нужна категоризация

Например, у вас есть маркетплейс, который торгует товарами для животных. Есть поставщики, которые присылают десятки тысяч своих товаров для размещения. Как правило, каждый маркетплейс имеет свои конкретные требования к размещению товаров. Задача категоризации — выбор корректной категории из каталога для заданного товара, либо определение того, что не одна из представленных категорий не подходит.

Мы создали подход, где решаем данную задачу через формирование референсного каталога и поиск похожего товара среди этого каталога для заданного.

Такое решение обладает устойчивостью к маленьким изменениям. Например, если сначала категория «корма для животных» была общая, а потом разделилась на «корм для собак» и «корм для кошек», то в нашем случае это означает изменение референсного каталога, разделение одной категории на несколько. Редактируя эту часть, мы не меняем поведение системы во всех остальных категориях.

Минусом подхода является только то, что для его хорошей работы требуется качественный эмбеддер, который сохраняет информацию о товаре и хорошо понимает смысл этих названий.

Извлечение атрибутов

Например, у вас есть множество товаров и вы хотите извлечь из их названий бренд, который не формализован. Или же необходимо нормализовать цену на вес в товарном названии. Для достижения таких целей, в основе которых лежит языковая модель, необходимо классифицировать каждое слово из названия на атрибут, к которому оно относится.

Мэтчинг моделей и дубликатов

Обычно поставщики предлагают маркетплейсам товары одних и тех же производителей, но по своим условиям и из собственных каталогов. Несмотря на то что они предоставляют одно и то же, информационная цепочка разная: кто-то добавляет вкус или модификатор молочный. Задача маркетплейса — собрать все эти предложения внутри одной карточки и показать разнообразие цен. С помощью извлечения сущности, мы разбиваем названия на компоненты и делаем нечеткий матчинг каждого значимого компонента на целевой каталог.

Альтернативная формулировка той же задачи — публикация на стороннем маркетплейсе. Когда требуется формализация свойств и их значений в другие каталоги — это решается ансамблем маленьких моделей с нечетким поиском на каждый конкретный атрибут, где базовый подход остается тем же самым.

Товарные рекомендации

Казалось бы, что задача рекомендаций решена уже давно и интернет полон таких решений. Но в базе у таких решений есть существенный ряд недостатков: минимальная специфика. В основном используют идентификаторы пользователей и объектов. Это хорошо, потому что позволяет работать с чем угодно, но при этом не учитываются важные особенности. В итоге для получения первых результатов обычно приходится ждать 3 месяца для накопления базовой статистики о взаимодействии пользователя с вашими данными. Другим типичным свойством является неустойчивость, например, если один товар ушел из базы и на его место пришел другой точно такой же, но с новым артикулом, в таком случае статистика по старому теряется, если не предпринять дополнительные усилия.

Также возникает вопрос: что делать с объектами, которые только что появились в системе и не имеют никакую информацию? Если вернуться к нашему базовому решению про понимание смысла, то на основании того же самого эмбеддинга, который хорошо позволяет категоризовать, можно четко понять, что значит этот товар и разумно принять решение о заинтересованности пользователя.

Мы можем собирать информацию о взаимодействии пользователя с системой, заранее иметь достаточно хорошую модель, которая внутри предметной области дает хорошие рекомендации, не имея предварительной информации о конкретных пользователях на платформе. Также модель рекомендаций обычно учитывает дополнительные атрибуты, например, время года, взаимодействие пользователей с другими объектами, их смежность или другую значимую для маркетплейса информацию.

Применение машинного обучения для управления товарным каталогом в интернет-магазинах

Здесь вы можете посмотреть онлайн-конференцию: Практическое применение Machine Learning в Digital-продуктах.

В предыдущей серии:

0
0 комментариев
Популярные
По порядку
Читать все 0 комментариев
«Как иронично, что фирме в сфере психического здоровья плевать на психическое здоровье собственных работников» Статьи редакции

Сотрудники Spring Health жалуются на соучредительницу Эйприл Кох: она запугивает их, увольняет при всех, вынуждает работать по 70 часов в неделю и не нанимает тех, кто спрашивает про переработки. Кох объясняет: «Мы носимся как безголовые цыплята, потому что на кону человеческие жизни».

Эйприл Кох — на ноябрь 2021 года самая молодая женщина-директор компании с оценкой более $1 млрд Slush
А у вас сошелся «Дебет Кредит»?
«Вы говорите, а мы слушаем»: айдентика для онлайн-сервиса психологической помощи YouTalk

Привет, на связи команда Логомашины. Забота о ментальном здоровье — это важный тренд последних лет. В этой статье рассказываем, как мы разработали айдентику для YouTalk — сервиса, который уже три года помогает людям из более чем 50 стран справляться с психологическими проблемами.

О прекрасном: графовая аналитика в 3D

Порой Data Scientist’ам приходится иметь дело с графами. Чаще всего это дело не такое уж и сложное, но бывают разногласия, которые начинаются при представлении результатов заказчику данного графа, ведь у каждого своё представлении о прекрасном. Особенно, когда дело касается расположения узлов.

Корпоративный проект в Казахстане

Юридическая фирма «Надмитов, Иванов и Партнеры» успешно представляла интересы приобретателя по сделке приобретения 100% долей в уставном капитале общества, крупного производителя битумных материалов в Казахстане, регулируемой по российскому праву.

Пришли шоколадки вместо заказанного смартфона на Aliexpress. История о том, как я купил POCO X3 Pro 8/256
В «Чёрную пятницу» объем трафика Yota на сайты ритейлеров вырос более, чем на треть

По данным Yota, в «Чёрную пятницу» объем трафика и число переходов на сайты различных ритейлеров среди пользователей оператора выросли более чем на 30% по сравнению с 29 октября, последней пятницей прошлого месяца.

Илон Маск отправил сотрудникам письмо о риске банкротства SpaceX из-за медленного производства двигателей — CNBC Статьи редакции

Компании нужно ускориться, чтобы запускать ракеты минимум раз в две недели в 2022 году, написал Маск.

Эксперимент: оформляем банковские карты без бумажных документов

Оформление затянулось, но проект все равно продолжили развивать.

Дайджест новых стилей и сайтов digital-компаний за ноябрь от Embacy: Vevo, Winamp, Worldcoin и другие

Всем привет! Сегодня 1 декабря, а значит, что это дайджест новых стилей и сайтов digital-компаний, которые вышли в ноябре. Пишу его я, Вадим Орлов, основатель Embacy.

IKEA начала сдавать в Токио квартиры в 10 м² за $0,86 в месяц, чтобы показать, что в них тоже можно жить Статьи редакции

Внутри есть мини-спальня, рабочая зона, диван, стиральная машина и другое.

null