Мы собрали их своими силами за два года. Мы парсим довольно много сайтов, больше трехсот, но медленно, на самые популярные приходится 2-3 запроса в минуту, на менее популярные — несколько запросов в час. С посещенных страниц мы забираем название товара, его цену, описание, характеристики и ссылки на изображения. Если по разметке страницы можно выделить категорию, бренд, артикул в отдельные поля — выделяем, если нет — оставляем название как есть. В итоге у нас получилась база, где есть 70 миллионов товаров, 160 миллионов изображений и миллиард с небольшим характеристик.
Комментарий недоступен
Большие молодцы что выложили на Git.
Я бы еще какой нить Saas сервис запилил на вашем месте. С какой нить символической платой за запрос к сервису.
Думаю можно найти применение данным. Например подтягивать данные и заполнять информацию о товаре в момент прихода товара на склад, если позиции с таким штрихкодом нет в базе.
Вопрос автору - насколько вечен штрих код для определенного SKU? Например условная банка Fanta 0,33 сегодня имеет тот же штрих код, что и 10, 20, 30 лет назад? При условии выпуска банок в одной стране, но на разных заводах?
Я разбирался в правилах GS1 больше года назад, и если память меня не подводит, то основное правило такое: товарам с разными потребительскими качествами должен присваиваться разный штрихкод. То есть, смена рецептуры или изменение объема банки должны приводить к смене штрихкода. Думаю, за 30 лет состав фанты менялся. Формально это повод изменить штрихкод.
Как это выполняется на практике, я, к сожалению, не могу сказать.
Комментарий недоступен
Комментарий недоступен