Большая база штрихкодов. Скачать бесплатно без регистрации и SMS

Добрый день. Мы собираем информацию о товарах, и среди этой информации есть штрихкоды. Мне показалось, что именно они имеют ценность в том числе в отрыве от остальных данных, и что их проще всего выложить в открытый доступ. Получилась база на 1 816 200 записей. Товары из нее встречались в продаже на российском рынке в период с начала 2021 до средины ноября 2022 года, это отличает нашу базу от некоторых других, которые есть в свободном доступе.

Где скачать?

Скачать можно на гитхабе: https://github. com/aioke/barcodes либо у нас на сайте: https://catalog. app/public-opportunities/download-barcodes. База представлена в двух форматах:

  • CSV (barcodes_csv. zip) . Файл формата csv можно открыть в текстовом редакторе. Блокнот справляется с файлом такого размера.

В обоих случаях структура записи следующая:

  • Id — идентификатор, уникальный в рамках таблицы.
  • Category — категория товара в том же виде, что и в источнике, где найден штрих-код. Мы старались брать наиболее конкретную категорию в иерархии.
  • Vendor — бренд товара.
  • Name — название товара.
  • Article — артикул производителя товара.
  • Barcode — штрихкод.

Какие категории представлены?

Потребительские товары, кроме одежды, обуви, продуктов и лекарств. Некоторые товары промышленного назначения.

Откуда данные?

Мы собрали их своими силами за два года. Мы парсим довольно много сайтов, больше трехсот, но медленно, на самые популярные приходится 2-3 запроса в минуту, на менее популярные — несколько запросов в час. С посещенных страниц мы забираем название товара, его цену, описание, характеристики и ссылки на изображения. Если по разметке страницы можно выделить категорию, бренд, артикул в отдельные поля — выделяем, если нет — оставляем название как есть. В итоге у нас получилась база, где есть 70 миллионов товаров, 160 миллионов изображений и миллиард с небольшим характеристик.

Среди характеристик иногда встречаются штрихкоды. Именно их я собрал в отдельный файл и выложил в открытый доступ.

Стоит оговориться, что это сырые данные, и среди них могут встречаться ошибки. Например, не все из штрихкодов пройдут валидацию по какому-либо из стандартов: EAN-13, EAN-8, UPC-A или UPC-E. Кроме того, некоторые штрихкоды встречаются больше одного раза. Это тоже объяснимо: значит, они встречались на нескольких разных сайтах, и, скорее всего, ссылаются на один и тот же товар. Но не обязательно: некоторые компании сами придумывают штрихкоды для своей продукции по принципу “подойдут любые 13 цифр”.

Что мы делаем с этими данными?

По большому счету, именно штрихкоды для нас не играют большой роли. Они есть на примерно два процента товаров в базе, и поэтому мы не можем использовать их как основной фактор для сопоставления товаров, только как вспомогательный, при этом не особо важный.

Раскрою тему. У нас есть большая база товаров. У клиента есть каталог его товаров (либо каталоги его поставщиков) . Мы сопоставляем свои товары товарам из каталога клиента, и это позволяет автоматически найти изображения для товаров и заполнить характеристики. Об этом я уже написал несколько статей с довольно подробным описанием используемых подходов и алгоритмов: про сопоставление товаров, про автоматическое создание карточек, про поиск похожих товаров, про быстрый поиск по неточному соответствию среди ста миллионов записей.

Соответственно, штрихкоды участвуют в двух процессах:

  • Их совпадение является фактором, который позволяет (после некоторых дополнительных проверок) рассматривать товары из разных источников как один и тот же товар.
  • Мы можем заполнить штрихкод автоматически, если в каталоге клиента для какого-то товара его нет, а у нас в базе — есть.

Кстати, не стоит использовать два процесса одновременно, получается положительная обратная связь, и тогда ошибки получают дополнительное подтверждение.

В общем, мы делаем PIM-систему, и у нее есть некоторые возможности по автоматизации ручного труда.

Как вы можете использовать эти данные?

Как угодно. Никаких ограничений или условий нет. Мы просто делимся справочником с теми, кому он нужен. Кому нет, тот ничего не теряет.

Зачем это нужно нам?

Возможно, у кого-то, кто потом найдет эту статью через поисковик, будет стоять более широкая задача из области работы с товарами. Возможно, мы сможем ему помочь.

23
8 комментариев

Комментарий недоступен

3
Ответить

Большие молодцы что выложили на Git.
Я бы еще какой нить Saas сервис запилил на вашем месте. С какой нить символической платой за запрос к сервису.
Думаю можно найти применение данным. Например подтягивать данные и заполнять информацию о товаре в момент прихода товара на склад, если позиции с таким штрихкодом нет в базе.

3
Ответить

Вопрос автору - насколько вечен штрих код для определенного SKU? Например условная банка Fanta 0,33 сегодня имеет тот же штрих код, что и 10, 20, 30 лет назад? При условии выпуска банок в одной стране, но на разных заводах?

Ответить

Я разбирался в правилах GS1 больше года назад, и если память меня не подводит, то основное правило такое: товарам с разными потребительскими качествами должен присваиваться разный штрихкод. То есть, смена рецептуры или изменение объема банки должны приводить к смене штрихкода. Думаю, за 30 лет состав фанты менялся. Формально это повод изменить штрихкод.

Как это выполняется на практике, я, к сожалению, не могу сказать.

4
Ответить

Комментарий недоступен

1
Ответить

Комментарий недоступен

Ответить