Меня зовут Максим Кульгин, моя компания xmldatafeed занимается парсингом сайтов в России порядка четырёх лет. По итогам прошедшего 2022 года поделюсь советами для тех, кто думает о подобном бизнесе. Бизнес очень интересный, но наполнен нюансами, которые и расскажу в статье.
Спасибо за статью, очень интересные выводы, но я не могу не задать вопросы так как сам долгое время занимался подобными вещами)
1. Это проектный бизнес. Я мечтаю о продуктовом бизнесе, где затраты, по мере роста клиентской базы, растут не так линейно.
Разве это не должно заставить искать опции, при которых вы оптимизируете процесс так, чтобы затраты росли не линейно? Ну вот переключим в область, например, аутсорса. Есть 5 программистов, каждый сидит на проекте. Берём новый проект, нужен ещё 1 программист. Логично? Вроде да, но при этом можем взять по часу у каждого, и тянуть ещё 6-й проект. Очень грубый пример, но всё же. Считаю, что это должно быть наоборот мотивацией и драйвером.
3. Аналитика никому особо не нужна.
Также натыкался на подобное, но думаю дело в том, что аналитика в каждом конктерном случае - очень конкретная и заказчик сам уже знает, что ему надо. Никто не будет платить лишнюю тысячу рублей за то, чтобы узнать, что товар покупался 10 раз, это скорее всего и так известно, соответственно, аналитика либо должна быть очень точная и дешёвая, либо вообще не нужна.
4. Матчинг товаров не получается.
Тут полностью согласен. На протяжении трёх лет пытался сделать даже не матчинг товаров, а просто названия спортивных команд. Тоже пришёл к выводу, что проще перебрать за 2 часа 500 названий, чем тыкать пальцем в небо. Разве что использовать неполные алгоритмы сравнений и допускать вероятность ошибок.
6. Невозможно парсить все сайта. Дело в том, что когда у вас стоят задачи на неделю вперед по текущим клиентам, которые платят — команда будет заниматься не исследовательской работой, а именно этими горящими задачами.
Не думали о том, что "недельный" клиент завтра уйдёт, а "исследовательский" останется на долгие года? Почему бы не нанять парочку, да тех же джунов, чтобы сидели и изучали, что к чему, за лоу прайс/опыт/дошираки?
8. Когда к вам приходит клиент и просит парсить, условно 450 сайтов (у нас есть такой), то отдел поддержки просто физически не сможет каждый день проверять содержимое всех CSV/XLS — файлов.
Ну опять же, странно звучит. Накиньте к стоимости определённый %, посадите ещё одного человека - зарабатывайте. В крайнем случае, выработайте системную методику выявления того, что нужно замечать. Звучит, как лень/нежелание.
16. Язык программирования не важен. Добавить нечего. Клиента вообще не интересует, на чем вы программируете.
С точки зрения клиента - да. С точки зрения разработки и поддержки - очень важно.
17. Не соглашайтесь на просьбы сделать «программку для парсинга». Парсинг — это услуга. Нас регулярно просят сделать «скрип, чтобы парсил на моем ПК». Отказываем. Причина? Ну думаю она и так понятна — замучают поддержкой, т. к. любой изменение разметки сайта и «скрипт» не работает.
Опять та же история. Почему бы не сделать так - вот наша основная услуга - парсинг, например, пакетный. Можем вам сделать программку за 25000 рублей, но условно завтра она перестанет работать. Кто-то да согласится, для вас - лёгкие деньги.
А у вас сколько сотрудников?)