{"id":13884,"url":"\/distributions\/13884\/click?bit=1&hash=09f62c16c0ff3dfd2ffc62f71f75f11ee44f45b325c978971c7626142eb506a0","title":"\u0423\u0447\u0438\u0442\u044c \u0440\u0430\u0437\u0440\u0430\u0431\u043e\u0442\u0447\u0438\u043a\u043e\u0432 \u043d\u043e\u0432\u044b\u043c \u0442\u0435\u0445\u043d\u043e\u043b\u043e\u0433\u0438\u044f\u043c \u2014 \u0430\u0431\u0441\u0443\u0440\u0434 \u0438\u043b\u0438 \u043d\u0435\u0442?","buttonText":"\u041f\u0440\u043e\u0432\u0435\u0440\u0438\u0442\u044c","imageUuid":"cecf6c5c-ae6c-5b10-8200-cb44fb4af035","isPaidAndBannersEnabled":false}

Собрали 70 миллионов товаров и миллиард характеристик: сколько это стоило и как мы пытаемся на этом заработать

Сейчас я попытаюсь в виде вопросов и ответов раскрыть тему заголовка. Поехали!

Что это за база?

База с характеристиками, описаниями, изображениями и ценами товаров. 70 миллионов товаров, 160 миллионов уникальных изображений и миллиард характеристик. Специально для этой статьи я сделал доступным без регистрации поиск по ней. Попробовать можно тут: https://catalog.app/public-opportunities/search.

Зачем она нам нужна?

Вообще, мы её используем для создания и обогащения карточек товаров. По сути, ускоряем работу контент-менеджеров. Но база в этом процессе играет хоть и важную, но не ключевую роль. Основа всего — алгоритмы сопоставления товаров и характеристик.

Сколько стоило её собрать?

По моим подсчетам — 43 тысячи долларов или 3 300 000 рублей по текущему курсу.

Как считал?

Прикинул время, потраченное на разработку парсеров. Парсера делаются относительно просто, чаще всего требуется от получаса до двух часов. Но есть сложные случаи, когда нужно потратить и два, и три дня. Кроме того, парсера иногда перестают работать из-за изменений на сайтах, и тогда их нужно исправлять. На это по моим подсчетам ушло 18 тысяч долларов.

Добавил время, потраченное на разработку архитектуры и обход блокировок. Это ещё 12 тысяч долларов.

Еще 13 тысяч ушло на сервера. Сбор этой информации занял 3 года, соответственно, затраты суммирую за все это время. Сервер с базой данных потянул на 4 тысячи долларов, хранение картинок в двух местах — еще 5 тысяч. Оставшиеся 4 — это сервера, которые непосредственно ходят по сайтам и загружают страницы.

Можно дешевле?

Да. Дело в том, что 70 миллионов товаров у нас получилось собрать уже год назад. С тех пор мы регулярно чистим базу от устаревших товаров. За это время затраты составили плюс-минус 30 тысяч долларов.

Получилось заработать?

Пока нет. Точнее, затраты на пополнение базы составляют примерно 10% от всех затрат. Основное — это разработка PIM-системы, где эта база играет важную, но все же вспомогательную роль.

А как пытались?

Пробовали внедрять свою PIM-систему в разных компаниях и зарабатывать на этом. Всю выручку тратили на дальнейшую разработку. В настоящем времени этот процесс тоже идет.

Для чего статья?

Хочу поделиться информацией, которую считаю интересной, взамен на комментарии и помощь читателей.

Предположим, мы сделаем API для доступа к этим данным.

На ваш взгляд, есть ли целевая аудитория у такого API?
Да
Нет
Показать результаты
Переголосовать
Проголосовать
На ваш взгляд, какой должна быть стоимость месячного доступа с разумным ограничением, например, 100 000 запросов?
1 000 рублей
5 000 рублей
20 000 рублей
50 000 рублей
100 000 рублей
Показать результаты
Переголосовать
Проголосовать
На ваш взгляд, сколько выручки в месяц может принести такой проект на Российском рынке?
до 100 тысяч рублей
от 100 до 500 тысяч рублей
от 500 тысяч до 2 миллионов рублей
больше 2 миллионов рублей
Показать результаты
Переголосовать
Проголосовать

Буду рад комментариям. Спасибо.

0
5 комментариев
Jon Rembo

Не работает

Ответить
Развернуть ветку
Yury Loskat
Автор

Проверил - вроде работает.
У вас не открывается страница?

Ответить
Развернуть ветку
Аистер

Идея интересная, но не ясно, а как это монетизировать. Каталог бесплатный, добавление своего не получится, купить товар нельзя. Получилась Википедия карточек товаров. К примеру в Аистер можно добавлять свои товары, поэтому в сервисе только актуальные предложения изначально.

Ответить
Развернуть ветку
Michael Vigandas

О коллега, БигДата это сейчас золотое дно. Было бы интересно более подробней узнать рассклад по затратам на серверную часть проекта. Сейчас тоже работаю с датой, но в другом направлении, и хочу сгрузить парсеры по schema схемам на сервак с выгрузкой резалтов в Облако

Ответить
Развернуть ветку
Yury Loskat
Автор

А что именно вас интересует? Думаю, если ваш парсер запустить на хецнере, то непосредственно сервер для парсинга будет стоить до 20 евро в месяц. Хранение исходных и обработанных данных - не могу оценить, нужно примерно представлять объем.

Ответить
Развернуть ветку
Читать все 5 комментариев
null