Собрали 70 миллионов товаров и миллиард характеристик: сколько это стоило и как мы пытаемся на этом заработать
Сейчас я попытаюсь в виде вопросов и ответов раскрыть тему заголовка. Поехали!
Что это за база?
База с характеристиками, описаниями, изображениями и ценами товаров. 70 миллионов товаров, 160 миллионов уникальных изображений и миллиард характеристик. Специально для этой статьи я сделал доступным без регистрации поиск по ней. Попробовать можно тут: https://catalog.app/public-opportunities/search.
Зачем она нам нужна?
Вообще, мы её используем для создания и обогащения карточек товаров. По сути, ускоряем работу контент-менеджеров. Но база в этом процессе играет хоть и важную, но не ключевую роль. Основа всего — алгоритмы сопоставления товаров и характеристик.
Сколько стоило её собрать?
По моим подсчетам — 43 тысячи долларов или 3 300 000 рублей по текущему курсу.
Как считал?
Прикинул время, потраченное на разработку парсеров. Парсера делаются относительно просто, чаще всего требуется от получаса до двух часов. Но есть сложные случаи, когда нужно потратить и два, и три дня. Кроме того, парсера иногда перестают работать из-за изменений на сайтах, и тогда их нужно исправлять. На это по моим подсчетам ушло 18 тысяч долларов.
Добавил время, потраченное на разработку архитектуры и обход блокировок. Это ещё 12 тысяч долларов.
Еще 13 тысяч ушло на сервера. Сбор этой информации занял 3 года, соответственно, затраты суммирую за все это время. Сервер с базой данных потянул на 4 тысячи долларов, хранение картинок в двух местах — еще 5 тысяч. Оставшиеся 4 — это сервера, которые непосредственно ходят по сайтам и загружают страницы.
Можно дешевле?
Да. Дело в том, что 70 миллионов товаров у нас получилось собрать уже год назад. С тех пор мы регулярно чистим базу от устаревших товаров. За это время затраты составили плюс-минус 30 тысяч долларов.
Получилось заработать?
Пока нет. Точнее, затраты на пополнение базы составляют примерно 10% от всех затрат. Основное — это разработка PIM-системы, где эта база играет важную, но все же вспомогательную роль.
А как пытались?
Пробовали внедрять свою PIM-систему в разных компаниях и зарабатывать на этом. Всю выручку тратили на дальнейшую разработку. В настоящем времени этот процесс тоже идет.
Для чего статья?
Хочу поделиться информацией, которую считаю интересной, взамен на комментарии и помощь читателей.
Предположим, мы сделаем API для доступа к этим данным.
Буду рад комментариям. Спасибо.
Не работает
Проверил - вроде работает.
У вас не открывается страница?
Идея интересная, но не ясно, а как это монетизировать. Каталог бесплатный, добавление своего не получится, купить товар нельзя. Получилась Википедия карточек товаров. К примеру в Аистер можно добавлять свои товары, поэтому в сервисе только актуальные предложения изначально.
О коллега, БигДата это сейчас золотое дно. Было бы интересно более подробней узнать рассклад по затратам на серверную часть проекта. Сейчас тоже работаю с датой, но в другом направлении, и хочу сгрузить парсеры по schema схемам на сервак с выгрузкой резалтов в Облако
А что именно вас интересует? Думаю, если ваш парсер запустить на хецнере, то непосредственно сервер для парсинга будет стоить до 20 евро в месяц. Хранение исходных и обработанных данных - не могу оценить, нужно примерно представлять объем.