«Тинькофф» запустила бесплатный сервис для «расшифровки» чеков Статьи редакции
Сервис поможет бизнесу составить статистику и прогноз метрик продаж по клиенту, рассчитывают в компании.
«Тинькофф» запустила сервис для бизнеса для обработки текстовой информации из чеков ReceiptNLP, сообщил vc.ru представитель компании.
Сервис может найти в тексте название бренда, определить категорию товара, расшифровать сокращённое название и распознать продукт. Например, если в чеке написано «Бонаква 0,5», то сервис определит, что это вода, а сокращение «сиб кол пельм» — это пельмени «Сибирская коллекция».
ReceiptNLP использует нейросети и «находится в постоянном развитии», уточнил представитель компании. Сервис поможет бизнесу составить статистику или прогноз продаж по каждому клиенту, оценить вероятность смены бренда или магазина. Кроме того, сервис пригодится компаниям, которые обещают пользователям кэшбек на определённый бренд, категорию или товар — ReceiptNLP поможет распознать в чеке нужные позиции.
Среди первых партнёров проекта — производитель касс и несколько ОФД, рассказали в компании. «Тинькофф» получает от партнёров обратную связь и дорабатывает сервис. «Получается общий рыночный стандарт — так всем удобнее», — объяснили в компании. Сама «Тинькофф» использовала сервис для исследований трат россиян в магазинах.
«На основе ReceiptNLP мы дальше будем делать сервисы-алгоритмы, показывающие магазину и бренду, где он теряет в продажах и какие товары и промо нужно предлагать клиенту», — добавил представитель «Тинькофф».
Интересно как это реализовано технически? Я имею ввиду, в какой момент и каким устройством производится считывание чека. И зачем магазинам эта информация, разве у них нет статистики по продажам позиций, не понятно...
Мне кажется, это попытка нормализовать номенклатуру. Если посмотреть как пишут в разных сетях/магазинах, то там тот еще зоопарк. Поэтому вспоминая недавнюю новость от одного из ОФД, что предоставляют анализ по рынку, то без подобной нормализации тяжело его провести.
Это большая проблема для российского ритейла в целом. Сейчас нет общепринятой структуры категорий товаров. Не говоря о том, чтобы классифицировать конкретные SKU. Мы проводим дискуссии с ритейлом по этому вопросу.
Я так понимаю, дискуссия с ритейлом проходят примерно так:
- Дяденька из Ленты, давайте формализуем названия категорий и товарных позиций.
- Уйди мальчик, не до тебя сейчас.
Ну поговорили же
Ритейлеры заинтересованы в читаемом написании, поскольку мы для них дополнительная точка контакта с покупателем. Ритейлеры через нас делают коммуникацию промо , например, cash back на фрукты и овощи, чтобы расширить число категорий покупателя и увеличить РТО
Понял, звучит логично)
Наши клиенты получают кассовые чеки в МБ Тинькофф. Эти чеки полностью соответствуют 54-ФЗ. Например, наш клиент может вернуть товар в магазине, если покажет чек с нашего приложения.
Таким образом, у нас достаточно чеков, чтобы производить их обработку с помощью машинного обучения.
nlp возможно намекает на natural language processing. обычно там нейросеть используют
Комментарий недоступен
У них большая база чеков по их карточкам.
Комментарий недоступен
Также выжно, чтобы это была реальная строчка из чека. А не придуманный пример из головы.
Чем крупнее сеть, где вы получили чек — тем лучше мы его распознаем. Чем известнее производитель — тем лучше мы его определим.
Сервис-угадайка получается
ОФД уже получают данные в электронном виде, при этом понятия не имеют о том, что скрывается под наименованиями, которые указываются в различных вариациях. У одних магазинов одни названия и сокращения, у других - другие. В итоге на один товар с легкостью получаются сотни вариантов.
Мы решали задачу для одного из крупных ОФД по приведению названия из чека к каноническому виду, а так же отнесение к одной из 3 тыс. категорий еще 2,5 года назад. В основе так же лежал NLP.
Как обычно с бесплатным сыром будет? Работайте бета-тестерами бесплатно, а когда сетка обучится и сторонние продукты будут по самые помидоры завязаны на ней - включат счетчик
Не проще ли считывать номенклатуру из QR кода?
Ну такое.
Проверил сложные для восприятия человеком строки из реальных чеков - магии не случилось.
а реальные расшифровки есть?
Ну второй чек это Чоко Пай, скорее всего
Первый: "Фрекен Бок", пакет для мусора с затяжкой, синий.
По второму согласен с Сергеем, но заметьте - бренд какой-то "оранж" вместо "Орион")
Комментарий недоступен
С помощью регулярки не распознаешь, что в строчке из чека «Бонаква 0,5», товар — вода. Это как один из примеров, зачем использовали NLP.
Много же магазинов, сотни тысяч
И делается это для того, чтобы составить портрет всех и каждого для каких-то нехороших целей в будущем
А толку? ОФД запрещено предоставлять информацию по позициям в чеке. Только сумму и категорию.
То есть наименование продукта не передается по вашему?
Не знаю, но закон запрещает это отдавать.
А json можно преобразовать в читабельный вид в этом сервисе? А то номенклатура в джейсоне, а налоговая этот формат не понимает
Напишите, пожалуйста, удобный формат на [email protected]
Интересно. Как разметку делали?
Я приложением Чекгуру для анализа расходов пользуюсь, там товары из чеков распределяются по категориям и подкатегориям как-то автоматически. Но тоже не всегда в нужную категорию попадают.
Кхм, результат применения обычного word2vec на данных о совместной встречаемости товаров в чеках, далее с классификацией (k-means или аналогичной) по доступному всем каталогу товаров GS-1. Неужели все ОФД в РФ настолько деревянные, что не могут это сделать сами и готовы отдавать свои чеки в Тинькофф за бесплатно?
Комментарий удален модератором