Андрей, напишите, пожалуйста, на hello@epoch8.co с деталями вашей задачи (объем базы, предполагаемый размер категорийного дерева, есть ли у вас модераторы), и мы вам обязательно ответим!
Илья, так в этом и смысл, что описанный процесс - это Active Learning, процесс настроен на сбор большего количества данных именно в тех категориях, где данные неоднозначны и модель ошибается.
Даже если изначальные данные плохие (что как правило и бывает), процесс итеративной доразметки приводит к построению сбалансированной обучающей выборки.
На Aliexpress товары описывают люди, а не роботы, и это действительно забавно: продавец старается оптимизировать описание так, чтобы оно попало во все поисковые запросы на свете. Поэтому нагромождает ключевики: “best man woman unisex sport watches red green blue black” итп.
А наша задача как раз обратная – продраться сквозь это описание и, несмотря на нагромождение слов, понять: * что этот товар относится к категории “Спортивные часы” * что этот товар есть красного, зеленого, синего и черного цветов.
Когда мы это делаем, покупатель заходит на сайт, заходит в категорию “Спортивные часы”, выставляет, например, фильтр “черный” и получает аккуратный список подходящих ему черных спортивных часов (и ничего кроме них).
TensorFlow, Keras, PyTorch, Caffe ?
Keras на TF. Самое хорошее инструментирование у такой конструкции
Или не заморачивайтесь, разгоните ничего не успевающую контентную группу, да закажите карточки у нормальных ребят https://contenthub.ru/
"Или не заморачивайтесь спамом на vc.ru, разгоните непонятно-скучный и депрессивный сайт, да закажите дизайн и верстку у нормальных ребят"
Комментарий удалён модератором
Андрей, напишите, пожалуйста, на hello@epoch8.co с деталями вашей задачи (объем базы, предполагаемый размер категорийного дерева, есть ли у вас модераторы), и мы вам обязательно ответим!
Очень интересная тема. Может быть попозже подробнее сделаете статью?
С большим удовольствием, можем подробнее рассказать :) А какие подробности интересуют: скорее технические или бизнесовые?
Мы делаем сортировку по анализу фотографий. Ручной труд практически исключён
Очень интересно. А можно подробности, пожалуйста?
Комментарий недоступен
Илья, так в этом и смысл, что описанный процесс - это Active Learning, процесс настроен на сбор большего количества данных именно в тех категориях, где данные неоднозначны и модель ошибается.
Даже если изначальные данные плохие (что как правило и бывает), процесс итеративной доразметки приводит к построению сбалансированной обучающей выборки.
Инструкция как сделать качество описаний товаров как у алиэкспресс.
Называется несем людям дополнительную "ценность".
На Aliexpress товары описывают люди, а не роботы, и это действительно забавно: продавец старается оптимизировать описание так, чтобы оно попало во все поисковые запросы на свете. Поэтому нагромождает ключевики: “best man woman unisex sport watches red green blue black” итп.
А наша задача как раз обратная – продраться сквозь это описание и, несмотря на нагромождение слов, понять:
* что этот товар относится к категории “Спортивные часы”
* что этот товар есть красного, зеленого, синего и черного цветов.
Когда мы это делаем, покупатель заходит на сайт, заходит в категорию “Спортивные часы”, выставляет, например, фильтр “черный” и получает аккуратный список подходящих ему черных спортивных часов (и ничего кроме них).