20 млн рублей в год на парсинге сайтов

Меня зовут Максим Кульгин, моя компания xmldatafeed занимается парсингом сайтов в России порядка четырёх лет. Ежедневно мы парсим более 500 крупнейших интернет-магазинов в России. Теперь делимся опытом.

Так как тема парсинга часто привлекает внимание и вызывает эмоции (в массе негативные), подготовил статью, где ответил на основные вопросы (их получилось 40) с которыми сталкивались в процессе работы и, надеюсь, развеял некоторые мифы.

1. Можно ли зарабатывать на парсинге? Да. Мы стали активно заниматься этим бизнесом в 2018 году и с тех пор к счастью растем. Привожу открытые налоговые данные. В 2022 году надеемся, что результат будет чуть лучше.

2. В чем заключается бизнес на базе парсинга? Бизнес, условно говоря, можно разделить на две части: сбор данных и аналитика. Мы не занимаемся аналитикой (попробовали и поняли, что не потянем) и сконцентрировались только на сборе “сырых” данных. Другими словами — мы ежедневно предоставляем нашим заказчикам итоги парсинга в формате CSV/XML.

3. Что такое аналитика? Мало собрать данные, с ними надо уметь работать. Например, сервисы, которые занимаются аналитикой маркетплейсов. Эти команды парсят данные и сразу их обрабатывают в удобном для использования виде. Как упоминал ранее, мы попробовали и не справились. Почему? Нужно очень хорошо знать предметную область, чтобы сделать качественную аналитику. Мы же парсим все, что “шевелится”: ) и далее наши клиенты сами работают с этими данными.

4. Что клиенты делают с данными? Анализируют, но как — мы не знаем. Наша задача обеспечить поставку на ежедневной основе полных данных. Знаю, что часть клиентов загружают данные в 1С для удобства работы менеджеров, кто-то работает с PowerBI/Google BigQuery, а кто-то просто предпочитает Excel и открывать файлы по протоколу WebDav (у вас файлы будут доступны в проводнике Windows, как будто они находятся локально).

5. Что вы парсите? Все то, что в открытом доступе и доступно к сбору руками человека. Например: цены на товары, наличие по магазинам и т. п. Мы не занимаемся парсингом сайтов, где требуется указать логин- пароль (или эти данные должен предоставить сам клиент, понимая, что риски на блокировку полностью на его стороне, но стараемся отговаривать от таких решений).

6. Какой средний чек в этом бизнесе? С некоторой погрешностью можно назвать сумму 15 000 руб. в месяц. Но учитывая, что это бизнес больше проектный, чем продуктовый, разброс цен может быть большой. У нас есть клиенты, которые платят 400 000 р. в месяц за большой набор данных, а есть совсем “малыши” с чеком 5 000 р. в месяц.

7. В чем плюсы и минусы этого бизнеса? 80% клиентов ожидают регулярные данные (ежедневно, еженедельно), что позволяет применять подписную модель (иными словами — регулярные платежи). Минус в большой конкуренции и низкой стоимости входа.

8. Этот бизнес масштабируем? Да, но не так просто, как хотелось бы. Любой новый клиент (если он крупный), требует усиление команды разработчиков.

9. Сколько у вас сейчас персонала? 5 разработчиков full time в штате и команда поддержки (сотрудники, которые занимаются ежедневным тестированием результатов суточного парсинга). У нас очень молодая команда, ребята учатся (магистратура, бакалавриат) и им очень интересно заниматься парсингом, особенно если этому противодействуют.

10. Почему вы занялись этим бизнесом? Совершенно случайно. Нас попросили собрать цены с Леруа Мерлен. Попробовали, получилось ну и закрутилось: ).

11. Много поддержки? Очень. Поддержка фактически прямо пропорциональна количеству сайтов, которые парсим. Любое изменение разметки сайта может привести к тому, что парсинг сломается. Мы всегда предупреждаем клиентов, что такие риски существуют, но от этого объем работы не уменьшается).

12. Как клиенты получают данные? После многих экспериментов, мы остановились на частном облаке на базе NextCloud и я могу смело его рекомендовать. Удивительно устойчивое и бесплатное решение, регулярно обновляется, есть документированное API. Мы ежедневно выгружаем огромный объем данных на это облако в виде файлов, а клиенты забирают информацию удобным способом: API, WebDav, браузер. Звучит не так уж сложно, но как показал опыт — работает.

Вот пример работы нашего частного облака

13. Сколько у вас серверов задействовано? Недавно заказали 6-й. Ранее мы парсили с VPS/VDS, но оказалось, что экономически целесообразнее парсить с помощью bare metal серверов (иными словами “железные” выделенные сервера), которые мы арендуем в нескольких ДЦ. В месяц серверам нам обходятся в ~70 000 руб. и сейчас, к сожалению, сильно подорожала аренда. Перед арендой мы рассказываем хостеру (ДЦ) в чем суть нашего бизнеса, как мы работаем и т. п. Очень редко (может быть раз в год) поступают жалобы на работу наших парсеров хостеру, но всегда вопросы урегулируем.

14. Насколько этот бизнес устойчив к санкциям? Мы, откровенно говоря, ничего не заметили. 100% наших клиентов в СНГ (80% Россия, 20% Казахстан, Беларусь и т. п.). Разве что пришлось открыть еще один расчетный счет помимо Альфа-Банка (клиенты из Казахстана не могли оплачивать).

15. Какие типы сайтов вы парсите? Любые, где есть открытые данные. Подчеркну — парсинг фактически означает автоматизацию того, что может сделать руками человек. Чаще всего (90%) просят парсить Интернет-магазины, которые относятся к категории ТОП 100.

16. Были судебные угрозы? Пару раз мы получали предупреждающие письма от компаний, которые находили у нас примеры парсинга их сайтов. Последний раз я получил письмо от CEO Aviasales, который угрожал судом и жесткой расправой, хотя по факту мы их не парсили на момент обращения. Претензия была оформлена некой нанятой юридической компанией с непонятными трактовками, т. к. видимо юристы не совсем поняли о чем идет речь вообще. Я думаю, что когда Aviasales столкнулся с массовым парсингом, они сделали рассылку претензии по всем компаниям, которые публично заявляют, что занимаются этим бизнесом на тот случай, что кто-то отреагирует. Было еще обращение от компании, которая отслеживает упоминание товарных знаков (простите, могу ошибаться, кажется это были brandmonitor), чтобы мы убрали упоминание Эльдорадо. Нам тоже грозили небесными карами, но чуть успокоились и перешли в более конструктивное русло, когда мы запросили официальные документы на подтверждение представления интересов компании Эльдорадо в этом вопросе. Чтобы сгладить вопрос, мы теперь выкладываем примеры парсинга вот с таким названием (см. ниже). Глупо, понимаю, но юридически безопаснее (нет времени и желания заниматься юридической бюрократией).

Полная чепуха, согласен

17. Можно ли получить льготы от государства, как ИТ- компании? Пытаемся, т. к. фактически мы работаем с базами данных (в законе есть соответствующие формулировки). В Сколково точно не возьмут: )

18. Парсить этично? Сложный вопрос, полагаю что да. Вообще мне кажется, что бизнес должны работать в правовом поле, а не рассматривать свое существование как этичное или нет. Вопрос философский, но обсуждаемый, т. к. парсинг зачастую вызывает негативные эмоции. Никто не любит, если их парсят. Но я сотрудникам всегда говорю — при общении с новым клиентом, если мы вдруг парсим его сайт, обязательно расскажите про это.

19. Парсить законно? Да, если вы соблюдаете некоторые моменты. Я не буду приводить развернутую юридическую оценку нашего бизнеса, но если говорить коротко — то любая общедоступная информация может собираться, если это не наносит вред источнику и не нарушает прав. Канцелярским языком это звучит следующим образом:

Организация вправе осуществлять автоматизированный сбор информации (парсинг сайтов), размещенной в открытом доступе на сайтах в сети интернет если соблюдаются следующие условия:

Информация находится в открытом доступе и не защищается законодательством об авторских и смежных правах.

Автоматизированный сбор осуществляется законными способами.

Автоматизированный сбор информации не приводит к нарушению в работе сайтов в сети интернет.

Автоматизированный сбор информации не приводит к ограничению конкуренции.

Вот, например, обычный запрос от клиента:

“Здравствуйте. Мне нужен парсер, который будет ежедневно собирать остатки с сайта поставщика и отдавать их в виде excel файла или xml фида.”

20. А что относительно авторского права? Не нужно просто парсить (или использовать) информацию, которая может быть объектом авторского права. Например описания товаров. К счастью, 99% клиентов просят нас собирать фактические данные, которые не попадают под эту категорию: цена, бренд, категория и т. п. Тут уместно упомянуть Яндекс/Google, которые парсят ваш сайт, собирая контент с страниц в свой индекс. Владельцам сайтов это нравится, т. к. это увеличивает посещаемость, а парсинг не нравится, т. к. потенциально усиливает конкурента. Но эти роботы действуют одинаково.

21. Я написал в оферте на моем сайте, что запрещаю парсинг! Простите, но это никого не интересует и вашу оферту никто читать не будет.

22. Усложняю вам парсинг — цену выведу картинкой! Хоть звучит смешно, но встречали и такое на ряде сайтов. Пожалуйста, не тратьте свое время — библиотеки распознавания изображений работают великолепно. Вы же не будете цены на ваши товары выводить следующим образом:

23. Я тогда ограничу количество запросов, а потом попрошу решить капчу (captcha) и это усложнит вам работу сильно! Есть очень дешевые сервисы ручного решения капчи. Упрощенно говоря, когда наши роботы встречают капчу, по API мы подключаем этот сервис, которые перекидывает задачу оператору для ручного решения. В месяц мы тратим порядка 4 000 р. на оплачу этих сервисов.

24. Вы сильно нагружаете сайты, которые парсите? Нет. Никто не хочет сделать так, чтобы владельцы сайта, раздраженные мощной, паразитной нагрузкой от парсеров, стали внедрять механизмы защиты, которые просто усложняют нам «жизнь”. Если говорить про абсолютные цифры, то нормальным считаем парсинг данных с карточки одного товара в 3-4 секунды. К сожалению, не все придерживаются такой парадигмы и ко мне лично обращались владельцы сайтов, которые уточняли не мы ли их парсим, т. к. нагрузка была запредельной. Чаще всего причина в »кривых руках” разработчиков.

25. Чем парсинг отличается от DDOS? Тем, что наша задача — автоматизированный сбор данных, на регулярной основе, в течении длительного времени. DDOS преследует совершенно иную цель —” сломать” сайт.

26. Вы взламываете сайты? Нет и не планируем. Бывает, что нас просят «как-то решить” с получением данных, которые защищены паролем. Но это не наш бизнес и вообще это не бизнес, а некая »тема” относящаяся уже к darknet.

27. Можно ли защититься от парсинга? Нет, но можно усложнить парсинг до такой степени, что мы начнем отказывать клиентам, т. к. для клиента это будет экономически невыгодно оплачивать нашу исследовательскую работу по обходу защиты. Все что доступно без пароля в сети Интернет так или иначе может быть собрано автоматизированным способом.

28. Все же, какой самый лучший способ защиты? Выложить данные в формате XML и дать ссылку. Вас гарантированно перестанут парсить и будут забирать данные в удобном виде. Звучит, конечно, как некая утопия и я понимаю, что мало кто последует данному совету, но это единственный способ избежать парсинга.

29. У кого самая сложная защита? АВИТО. У них достаточно ресурсов, чтобы заниматься этим вопросом на очень высоком уровне. Причем, как я думаю, в основном компании защищаются не от самого парсинга, а от DDOS — атак, а парсинг, образно говоря, попадает “под раздачу” защитными фильтрами.

30. Нужно ли мне внедрять на своем сайте защиту? В случае промышленного парсинга, лично мое мнение, — защита не очень поможет, но может усложнить задачу. Но совершенно точно любая защита может отсеять «студентов”, которые вчера прочитали книжку "Парсинг с помощью Python для чайников”. Бизнес устроен так, что чем сложнее парсить сайт, тем дороже будет цена для конечного клиента и тем больше усилий будет приложено командой для решения задачи.

31. Много у вас конкурентов? Очень. Много фрилансеров-самозанятых, которые предлагают услуги парсинга значительно дешевле наших. Насколько мне известно, к ним обращаются за разовым услугами, т. к. если заниматься парсингом регулярно, должна уже быть команда специалистов в штате на поддержку.

32. Как вы обходите защиту? Прокси. Разные. Много. Смена fingerprint (цифровой отпечаток браузера). Плюс — опыт команды, который накопился за несколько лет. Чем сложнее защита, тем медленнее парсинг, т.к. нам приходится, например, решать капчу - а это время. Сайты на 5-6 запрос просят решить капчу, парсер ждет решения человеком, далее продолжает работу (меняя fingerprint), до следующего запроса на решение.

33. Что думаете про cloudflare? Научились обходить. Но отмечу, что этот сервис в основном ставят для CDN/DDOS, а не для защиты от парсинга. С введением санкций количество сайтов с ним упало. Qrator отличное решение для защиты от DDOS - атак тоже добавляем нам сложностей :)

34. Как вы ищите клиентов? Тут мы не оригинальны и все клиенты приходят через сайт с помощью органического трафика (Яндекс и Google 50-50%). Мы пытались давать контекстную рекламу, но отдачу не увидели. Самое результативное, что догадались сделать — публиковать примеры (статичные) парсинга известных компаний на своем сайте с возможностью их скачать и изучить. Дальше люди просят данные уже в динамике и мы заключаем договор. Пример ниже, цифры по скачиванию честные. Сам сайт сделан на WordPress, ничего сложного.

35. На что конкретно заключается договор? Автоматизированный сбор неструктурированных данных с открытых источников в сети Интернет с преобразованием в структурированные данные. Собственно так и есть.

36. Какой запрос на парсинг самый частый? “Соберите мне, пожалуйста, контакты маркетологов фитнес-центров г. Казань”. Это не шутка, именно подобные запросы мы получаем чаще всего. Задача не имеет роботизированного решения, т. к. мы не работаем с персональными данными людей, которые еще и не хотят их делать публичными. Мы можем сделать, например, базу Интернет-магазинов косметики, с помощью анализа title/description сайтов в зоне. RU/. РФ и собрать публичные адреса электронной почты и телефоны. Но не решить задачу по сбору личных контактов ЛПР.

Какие еще интересные запросы вы получаете? Вот, пожалуйста. Задача тоже не имеет никакого решения.

“Здравствуйте, хотим получить базу стоматологических клиник. При возможности параметры: в городах больше 500,000. Более 4 кабинетов в клинике. Средний чек больше 7000. + Имейл и телефон ЛПР (рабочие, не пустые)”

37. Как делают базы компаний? Создание баз компаний с открытыми данными — производная парсинга. Настраивают роботов, которые обходят все сайты в Рунете (где-то 6.5 млн.) и собирают общедоступные данные. Таким образом можно создать, например, Базу всех ресторанов и кафе, Базу оптовых компаний и т. п. В любом случае, обрабатываются только общедоступные, публичные корпоративные данные.

38. А вы делаете матчинг товаров? Нет. Может быть зря, но наша задача — поставлять данные регулярно, в запрашиваемом клиентом объеме. Признаю, что если сделать “шаг вперед” и заняться матчингом товаров между разными продавцами и продавать аналитическую отчетность, мы могли бы добиться больших результатов. Могу ошибаться, но именно этим занимаются наши конкуренты (или смежники, так лучше назвать) и финансовые результаты по выручке у них явно лучше (см. ниже). Что удерживает? Ресурсоемкость. Матчить (сопоставлять) между собой товары по названию между разными игроками на постоянно основе очень сложно. Мы пытались внедрять различные алгоритмы, которые частично автоматизируют этот процесс, но результаты были неудовлетворительные (попробуйте, например, сопоставить аптечные препараты с фасовкой-граммовкой-литражом).

Завидую :)

39. Почему крупные компании заказывают парсинг на стороне, а не делают сами? Причины разные. Очень крупные, публичные компании, сталкиваются с рекомендациями своих юристов/СБ, чтобы никоем образом не быть самим вовлеченными в автоматизированном сборе данных (это не домыслы, а опыт общения). Другие компании не хотят заниматься наймом дополнительных разработчиков, управлять ими, тестировать результаты и т. п.

40. Компании вообще знают, что вы (или кто-то другой) их парсит? Часто новые клиенты спрашивают (в шутку или нет), а не парсим ли мы их случайно!? Наша позиция — мы честно отвечаем как есть. Только один раз, крупный клиент рассердился и сказал, что если мы хотим с ним работать, прекратить парсить его. В итоге мы с ним не работаем.

41. Вы храните данные исторические? Нет. Нам не "по карману" хранить историю ежедневного среза цен по всем магазинам. Звучит очень интересно, но нашими силами это не потянуть. Мы регулярно удаляем данные старше 7 дней.

42. Можете выйти на глобальные рынки? Боюсь что нет. Это больше проектная деятельность, чем продуктовая. Нужен менеджер по работе с клиентами с отличным английским, поддержка на этом языке и т.п. Но совершенно точно - можно работать на локальных рынках и зарабатывать, т.к. услуга востребованная. Чем больше информации, чем активнее идет цифровая трансформация (простите за этот изъезженный термин), тем больше востребованность превращения неструктурированных данных в структурированные!

43. Где можно почитать больше информации? Я регулярно пишу в Телеграмм наш опыт.

Спасибо за внимание, старался быть краток и по делу — не стесняйтесь задавать свои вопросы в комментариях.

p. s. Не ругайтесь: ) я понимаю, что парсинг сразу настраивает на негатив. Но это обычный бизнес, которым, уверяю вас, занимаются 80% торговых компаний (в том или ином виде) .

0
316 комментариев
Написать комментарий...
Антон Левин

Откровенно) молодцы

Ответить
Развернуть ветку
Максим Кульгин
Автор

Спасибо

Ответить
Развернуть ветку
2 комментария
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Timur Karimbaev

ну с чего оно вырастет?

"9. Сколько у вас сейчас персонала? 5 разработчиков full time в штате и команда поддержки

11. Много поддержки? Очень"

итак, 20 млн в год. это 1.66м в месяц.
-6% налоги (считаем в хорошем случае)
- 70к - сервера.

остается ~1.5/мес

теперь разделите это на 5 разработчиков + "много техподдержки". и это без учета дополнительных расходов типа бухгалтерии

Ответить
Развернуть ветку
8 комментариев
Максим Кульгин
Автор

Да их тысячи и так :)

Ответить
Развернуть ветку
Ясно Понятно

Раз уж тут говорят про парсеры, расскажу о своем проектике - сделал автоматический инструмент по вытягиванию данных со страницы - никакой разработки, всё визуально.

От вас только скачать и подсунуть данные в скрипт

https://www.youtube.com/watch?v=gL_PewF2nmg

Ответить
Развернуть ветку
Диван

он только википедию понимает?

Ответить
Развернуть ветку
3 комментария
Alexander

Видно что вы молодцы и упорные, и глубоко в теме, но выручка 20млн... это конечно печально.

Вы торгуете золотой рудой за копейки, а кто-то из нее делает ювелирные украшения умножая стоимость на пару порядков - такая аналогия напрашивается.

Вам конечно виднее, но у вас наверное два пути - либо стать самым лучшим и самым дешевым инструментом парсинга во всем мире, за счет своих уникальных технологий, победить фрилансеров. Либо таки пойти в бизнес-экспертизу и аналитику.

Ответить
Развернуть ветку
Максим Кульгин
Автор

Я понимаю. Но признаю что пока не хватает ума, чтобы делать аналитику … надеюсь доберёмся

Ответить
Развернуть ветку
Денис Демидов

Средние и крупные компании не будут выносить бизнес аналитику на аутсорсинг, а малышам она за деньги не нужна, у них нет ни объема, ни потребности в ней.
Боюсь, у их бизнеса нет особых перспектив, так как слишком много нюансов в парсинге конкретных сайтов, которые надо подкручивать каждый день.

Ответить
Развернуть ветку
7 комментариев
Цукерберг Непозвонит

Ты прибыль с выручкой путаешь, они написали выручку, а может прибыль у них 19, за вычетом зарплаты сотрудникам, серваков и 4000 на капчу, тогда для небольшого бизнеса это дохрена.

Ответить
Развернуть ветку
9 комментариев
Admin Pool

Хотелось бы пример, в студию...(если можно).

Ответить
Развернуть ветку
4 комментария
Denis K

Увидел заголовок и сразу понял кто автор 😜

Ответить
Развернуть ветку
Bo.G

Отличные парни/девушки. Я вот тоже не понимаю зачем вот это вот "цена по запросу" и прочее наследие нэпа. Ты ж магазин. Чем больше про тебя узнают тем лучше. Сделай прайс и выложи его. Что именно покрывают затраты на усложнение парсинга?
Кстати. Зарубежные прокси сейчас не очень то доступны. Или уже отпустило?

Ответить
Развернуть ветку
V K

Ребята — это и парни, и девушки. Граммар наци офф.

Ответить
Развернуть ветку
Максим Кульгин
Автор

а мы их не покупали. их блочат в первую очередь - я про зарубежные прокси.

Ответить
Развернуть ветку
Angry saler

Цена по запросу = продать за максимально возможный прайс.
По крайней мере, когда я был продажником, то якорные позиции предлагали ниже рынка, а вот более сложные, как раз по запросу, так как вся прибыль и комиссия там.

Ответить
Развернуть ветку
5 комментариев
Игорь Субботин

Долгое время у многих была "цена по запросу" из-за боязни выдать конкурентам свою актуальную цену и дать возможность установить цену на копейку ниже 🙂

Ответить
Развернуть ветку
Sergei Soloviev

Интервью с самим собой :)

Ответить
Развернуть ветку
Sergey Ivanov

Тоже есть пара парсеров самописных для личного пользования (начиналось с JD лет так 5 назад, а потом добавились AliExpress, mvideo, eldorado, Wildberries, ozon и прочее). Очень удобная штука, использую к тому же как нотифаер, он парсит интересующие мне позиции, ложит в базу историю цен и если цена которая интересует, то шлет уведомление в телегу. Пару раз настолько низкие цены удавалось поймать что были сомнения что вообще отдадут). А для JD в своё время добавлял парсер который собирал весь сайт и мониторил на наличие новых товар и слал в письме в виде ссылка описание своего рода самори но пришлось быстро отказаться, так как письма были большие а просматривать было день)

Ответить
Развернуть ветку
John Doe
ложит в базу

Кладет

Ответить
Развернуть ветку
5 комментариев
Цукерберг Непозвонит

Эльдарадо действительно выглядит глупо (интересно что телефон исправил его на Эльдорадо вначале, хотя я уверен, что я никогда не писал его).

Можно писать Эльд*радо, это выглядит не так глупо, да и клиенты поймут что у вас что-то с авторскими правами, а сейчас это выглядит что вы однажды сделали ошибку и везде ее копируете. Не благодарите)

Ответить
Развернуть ветку
Максим Кульгин
Автор

поправим. но так то людям вижу что не важно. может глаз не цепляется просто за название.

Ответить
Развернуть ветку
Adel Albaxari

Много селениума используете ?

Ответить
Развернуть ветку
Российский Крым

AutoIt лучше!

Ответить
Развернуть ветку
2 комментария
Максим Кульгин
Автор

да. много. поэтому нужны мощные сервера. bare metal

Ответить
Развернуть ветку
3 комментария
Admin Pool

Конечно красавцы, никто не спорит.
Но, тут никто не написал о конкурентах, которые ОФД (оператор фискальных данных), у них информация и аналитика куда достовернее и круче, точнее, (но и дороже). И, там в разрезе: магазин по улице такой-то (КБ например, или Пятерочка...)...

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
1 комментарий
Максим Кульгин
Автор

ну мы же не конкурент ОФД. Совсем разный бизнес.

Ответить
Развернуть ветку
John Doe

У ОФД вы видите уже состоявшиеся покупки, а в парсере — актуальные предложения. Это если забыть про то, что данные парсера интерпретировать легко, а из чеков товары достать — повеситься можно.

Ответить
Развернуть ветку
А что случилось?

У них там то, что в чеке, т.е. с сокращениями, без артикулов, типа "пак. мол. дом. дер. 3.5%"? выковыривать оттуда данные и матчить с другими чеками из других магазинов - такое себе.

Ответить
Развернуть ветку
2 комментария
Silent Age

а где их купить можно?

Ответить
Развернуть ветку
3 комментария
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Максим Кульгин
Автор

Спасибо !

Ответить
Развернуть ветку
Valentin Dombrovsky

Кстати, джуны-питонисты не нужны вам случайно? :)

Ответить
Развернуть ветку
Максим Кульгин
Автор

У нас .net :)

Ответить
Развернуть ветку
5 комментариев
Алексей Картаев

Ежеквартальная минута пиара от Максима Кульгина

Ответить
Развернуть ветку
Фантом Це

Сколько занимает места срез цен по всем магазинам за 1 сутки?

Ответить
Развернуть ветку
Рома Кунашко

У меня в голове немного не сходится

20 млн/год (пусть даже это прибыль)
5 разработчиков full time в штате и команда поддержки

5 разработчиков это ~120к * 5 (и * 2 с налоговыми отчислениями). А еще и саппорт. Или они вам доплачивают что работают?

Ответить
Развернуть ветку
Vladimir F.

20млн выручки или 30 тысяч рублей в месяц прибыль?

Ответить
Развернуть ветку
Максим Кульгин
Автор

вы смотрите бухгалтерскую прибыль, которая не имеет ничего общего к управленческой. Прибыль, если позволите без детализации, составляет 50%.

Ответить
Развернуть ветку
Dmitriy Filippov

интересный бизнес, да еще на цифровом золоте
респект

Ответить
Развернуть ветку
Максим Кульгин
Автор

спасибо

Ответить
Развернуть ветку
Robastik: веб-парсер Excel
В Сколково точно не возьмут

Вы пробовали? Как минимум один парсер туда взяли: https://xn--80aafmncowhr9cp5b.xn--p1ai/account/login

Ответить
Развернуть ветку
Максим Кульгин
Автор

Спасибо - тогда попробуем

Ответить
Развернуть ветку
Игорь Субботин

Но зачем?

Ответить
Развернуть ветку
1 комментарий
Владимир Степанов

вы стопроцентные молодцы!

Ответить
Развернуть ветку
Максим Кульгин
Автор

Спасибо !

Ответить
Развернуть ветку
Dmitriy Raskladka

Максим, отлично все рассказали, спасибо! Цены действительно адекватные, но может есть ништяки для читателей VС? =)

Ответить
Развернуть ветку
Максим Кульгин
Автор

Даже не знаю :) так то мне не жалко. Пишите что с vc, если сможем помочь с парсингом - конечно дадим скидку.

Ответить
Развернуть ветку
Sergey Sergey

А где посмотреть цены?

Ответить
Развернуть ветку
1 комментарий
Артур Аляска

Вопрос ещё такой:
Вы утверждаете, что этично парсите маркетплейсы с нагрузкой 1 товар/3-4 секунды (28 880 товаров в сутки)
Звучит как сказка для бедных, особенно если предположить общее кол-во товаров на озон или wb
С такой скоростью невозможно подготовить суточный срез озона, особенно если учесть то, что в течении дня товары и их кол-во/наличие постоянно меняется

Ответить
Развернуть ветку
P S

Почему?
Предположу что запрос у клиентов обычно спарсить срез по какой-нибудь категории/группе категорий, а не весь маркетплейс

Ответить
Развернуть ветку
1 комментарий
Максим Кульгин
Автор

Суточный срез озона? Да это вообще задача не имеет решения ! Только одной категории :)

Ответить
Развернуть ветку
2 комментария
Сергей Багрецов

Давно к Вам на канал не заглядывал (ютуб который), обычно смотрел немало)
Кстати, примите* меня в команду, я скликивание обхожу скриптом на передачу конверсий самостоятельно)

* шутка, я возможно не очень как сотрудник)

Ответить
Развернуть ветку
Максим Кульгин
Автор

:)

Ответить
Развернуть ветку
Александр Малыгин

Отличный материал. Почитал с интересом

Ответить
Развернуть ветку
Максим Кульгин
Автор

Спасибо !

Ответить
Развернуть ветку

Комментарий удален модератором

Развернуть ветку
Максим Кульгин
Автор

:) название придумали случайно как и бизнес

Ответить
Развернуть ветку
Юрий

Максим, отличная статья. Все разобрано, есть данные. Успехов вам💪

Ответить
Развернуть ветку
Максим Кульгин
Автор

Спасибо !

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Максим Кульгин
Автор

спасибо :)

Ответить
Развернуть ветку
Sergey Ilyin

Максим, как обычно - огонь! 🔥🔥🔥

Ответить
Развернуть ветку
Максим Кульгин
Автор

спасибо!

Ответить
Развернуть ветку
Марсель Исмагилов

Ребят! У вас с мобильной версией что-то криво, пусть поправят.
Вообще молодцы, сохраню, вдруг понадобится.

Ответить
Развернуть ветку
Максим Кульгин
Автор

Спасибо поправим !

Ответить
Развернуть ветку
Michail Ivashenko

Круть, респект. Мне прямо эта тема очень близка и нравится, хорошо что у вас получилось)

Ответить
Развернуть ветку
Максим Кульгин
Автор

Спасибо !

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Иван

Выпей таблетки

Ответить
Развернуть ветку
3 комментария
Максим Кульгин
Автор

Мы не воруем контент. Про это писал

Ответить
Развернуть ветку
Артур Аляска

Почему бы не парсить ваших конкурентов, которые парсят другие компании?)

Ответить
Развернуть ветку
SVK

Так они наверное не выкладывают данные в открытый доступ

Ответить
Развернуть ветку
1 комментарий
Слегка Придурковатый

Молодцы.

Не думал, что Авиасэйлс такие пидоры.

Ответить
Развернуть ветку
Максим Кульгин
Автор

почему пидоры? Нормальная защитная реакция бизнеса. Видимо паразитная нагрузка их замучала. В любом случае мы все урегулировали.

Ответить
Развернуть ветку
7 комментариев
Российский Крым

VC парсите? Можно ведь пройтись по комментам и собрать базу политических ботов.

Ответить
Развернуть ветку
Максим Кульгин
Автор

VC не парсили никогда. Не просили. А зачем эти боты? Чеснослово не понимаю.

Ответить
Развернуть ветку
11 комментариев
Семен Смирнов

Зачем его парсить, там неплохое открытое АПИ

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Valentin Dombrovsky
получил письмо от CEO Aviasales

Ещё от Макса или уже от Антона?

Ответить
Развернуть ветку
Максим Кульгин
Автор

Максима

Ответить
Развернуть ветку
Алексей

Расскажите как побороли cloudflare? Даже без массового Парсинга создаёт кучу проблем.

Ответить
Развернуть ветку
Максим Кульгин
Автор

смена fingerprint. прокси. другого решения нет. Такая муторная исследовательская работа. Замедляет парсинг, но это решается задействованием больше серверов.

Ответить
Развернуть ветку
1 комментарий
Артём Андреев

На Ютюбе это не ваш блог я смотрел случайно?

Ответить
Развернуть ветку
Максим Кульгин
Автор

https://www.youtube.com/channel/UCtp7JBotTpx-vKzjojdOxiA вот он :) надеюсь это был он

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Вячеслав

Спасибо за интересную открытую информацию!

Ответить
Развернуть ветку
ArtNovo

Вижу "заработали на парсинге" ставлю лайк не глядя

Ответить
Развернуть ветку
Razor

Тут должна быть картинка.

Они: придумывают хитровыебанный парсер, ломающийся после очередного аб-теста на сайте
Я: предоставляю открытый API

Ответить
Развернуть ветку
MS

Здравствуйте, видел ваши видео на youtube :)

Ответить
Развернуть ветку
dwl

Подтверждаю. Матчинг товаров штука сложная. Рано или поздно все пробуют то делать :)
Мы делали аналитику цен по товарам в разных сетях FMCG, без матчинга эту задачу не решить.
К сожалению, стартап закрылся, но опыт не пропьешь :)

Ответить
Развернуть ветку
Максим Кульгин
Автор

ага. но мы так и не смогли решить вопрос с матчингом. И не уверен, что будем решать.

Ответить
Развернуть ветку
Евгений Морозов

Интересная статья!
Хотелось бы больше инфы про интересные проекты. Может какой-то необычный запрос или сайт

Ответить
Развернуть ветку
Борис Моренко

А почему в начале не традиционное?))

Привет! Максим. Компания Натимиус. Как у вас дела?

Давно смотрю ваш Ютуб канал. Самый адекватный рассказ про инфо-бизнес.

Ответить
Развернуть ветку
Павел Ерёменко

Парсинг типа этично и вероятно законно, но когда будут парсить ТВОЙ сайт, жопа будет гореть. В структурирование и выкладку данных вкладывается столько труда, чтобы кто-то просто копирнул.

Ответить
Развернуть ветку
Максим Кульгин
Автор

С этим ничего не сделать. Хотя понимаю негодование

Ответить
Развернуть ветку
3 комментария
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Максим Кульгин
Автор

Знаю их. Но нам пока нечего им предложить

Ответить
Развернуть ветку
Sashok

Никаких глобальных рынков вам не видать, так как страна-изгой единственное, что может: только воровать ресурсы или у природы или у других людей

Ничего личного, просто ушлость должна уйти из цивилизованного общества

Ответить
Развернуть ветку
Российский Крым

А как технически реализовано? Скачиваете целую веб страницу, а потом разбираете её с помощью регулярных выражений? Извините за тупой вопрос, я программист не настоящий.

Ответить
Развернуть ветку
Максим Кульгин
Автор

так и есть. страницу без картинок, а дальше html разбор синтаксиса, поиск нужных селекторов в коде

Ответить
Развернуть ветку
12 комментариев
Лев Фурман

Как узнать, можно ли парсить с того или иного сайта?

Ответить
Развернуть ветку
Павел Егоров

Ну в смысле. Если вы можете открыть сайт в браузере, то его можно парсить. Да, весьма вероятно, что это будет требовать времени, разработки и денег, но спарсить вы его сможете.

Ответить
Развернуть ветку
Максим Кульгин
Автор

Написать нам на [email protected] и ребята оценят возможность

Ответить
Развернуть ветку
Николай Истомин

Можно в 2-х словах описать, чем вы лучше q-parser?

Ответить
Развернуть ветку
Максим Кульгин
Автор

Я не могу ничего сказать про этих ребят - не знаю деталей . Наверное ничем

Ответить
Развернуть ветку
Артур Пирожков

А сколько у вас клиентов?

Ответить
Развернуть ветку
Robastik: веб-парсер Excel

А где у вас ключ от квартиры, где деньги лежат?)

Если серьезно, то выручку автор назвал и средний чек озвучил. Так что разделите одно на другое)

Ответить
Развернуть ветку
1 комментарий
Алексей Картаев

Чувак, если у тебя все так хорошо, зачем ты тут каждые полгода пишешь статью о том как у тебя все хорошо?

Ответить
Развернуть ветку
Максим Кульгин
Автор

Что ты чувак завидовал.

Ответить
Развернуть ветку
2 комментария
Борис Моренко

Это пиар и привлечение новых клиентов.

Ответить
Развернуть ветку
Снеговик

Интересно было бы узнать у тех кто применяет спарсенные данные для аналитики или чего то еще, чем именно вы занимаетесь?
Для чего вам эти данные и как они помогают вашему бизнесу?

Часто слышал про парсинг, но коммерческое применение данных так и не понял.

Спасибо

Ответить
Развернуть ветку
Российский Крым

Ну я бы покупал инфу по наличию скидок на определенный товар. Вот бы кто запили сервис который показал где самое дешевое сливочное масло или шоколад и где в наличии свежая клубника. У жены миникондитерская и иногда прилетает задача "купи свежие ягоды", на часах 21-30, осталось полчаса и три магазина в разных частях города где они могут быть.

Ответить
Развернуть ветку
11 комментариев
Дмитрий Александрович

Самое простое - наполнение каталога в интернет-магазине. Например, если поставщик отдает неполную выгрузку, но в нише есть сильные проекты с хорошо проработанными товарными карточками.

Ответить
Развернуть ветку
8 комментариев
Максим Кульгин
Автор

это лучше спросить бизнес да. Но обычно смотрят цены.

Ответить
Развернуть ветку
ВАНR

Мониторинг РРЦ, например.

Ответить
Развернуть ветку
Edgard Gomez Sennovskaya

Наверное, тут можно на несколько частей разделить:
1) Цены / остатки / продажи и иже с ними
2) Анализ контента (текст / характеристики, изображения и т.п.)
3) Аналитика присутствия - бред vs конкуренты (процент занимаемых позиций в результатах поиска, средняя позиция, видимость и т.п.)
Последнее - лакомый кусок для рекламных агентств (и соотв их клиентов). С оговоркой - клиенты у таких агентств должны быть соответствующего уровня. И да, ценники там скорее начинаются от 300-400.

Ответить
Развернуть ветку
Российский Крым

У вас есть большой объем цен за разное время. Вы не прикидывали реальную инфляцию? Может кто делал для себя.

Ответить
Развернуть ветку
Максим Кульгин
Автор

мы удаляем данные. Не храним. Это нам не по карману :(

Ответить
Развернуть ветку
Борис Моренко

Это интересно, но трудно монетизируется.
Хотя можно выдавать статистику с задержкой месяц и нагонять трафик.

Ответить
Развернуть ветку
Андрей Епанчинцев

Вы вроде моб приложениями занимались? Все?

Ответить
Развернуть ветку
Максим Кульгин
Автор

Почему ? Вовсю делаем - notissimus.com

Ответить
Развернуть ветку
Максим Степанов

красавцы! насчёт глобальных рынков - преграда только в найме ?
вопрос - снимаете офис или все на удалёнке?

Ответить
Развернуть ветку
Максим Кульгин
Автор

Все в офисе . Чтобы ребята общались между собой. Глобальные рынки - да. Надо усиливать команду и набирать там экспертизу

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Максим Кульгин
Автор

не так уж много, если они сделаны умно и корректно. 1 товар в 3 секунды.

Ответить
Развернуть ветку
Dee

Красавчики. 👍
Наверняка просят парсить соцсетки – работаете с таким?
И еще было бы здорово посмотреть на порядок цен, хотя бы примерно

Ответить
Развернуть ветку
Максим Кульгин
Автор

Соц сети мы не научились парсить честно говоря ! Сложно это . Надо ротацию аккаунтов

Ответить
Развернуть ветку
5 комментариев
Angry saler

Так там готовые парсеры были года полтора назад.
ВК парсился в пару кликов.
Инсту кустарно js можно парсить, но такой вариант только под очень узкие направления подходит.

Ответить
Развернуть ветку
Wera Ferat

Интересно почитать про то, как многие делают в скрытной форме. А какие планы на будущее?

Ответить
Развернуть ветку
Максим Кульгин
Автор

Хотим сделать программку - чтобы работать с паркингом было удобнее . Расскажу в след статье

Ответить
Развернуть ветку
1 комментарий
Наталья Лашина

Зря не храните исторические данные, это может очень востребованная информация, а стоимость хранения - копейки: купить пару жестких дисков

Ответить
Развернуть ветку
Максим Кульгин
Автор

Ну там будет тысячи файлов, кто с ними будет работать... сложно это

Ответить
Развернуть ветку
2 комментария
Abdu Rz

Можно про стэк и библиотечки плиз добавить

Ответить
Развернуть ветку
Максим Кульгин
Автор

.net чистый. ну у ребят там есть наработки уже. а так - .net/c#/chromium да и все. полагаю ничего сложного

Ответить
Развернуть ветку
5 комментариев
Sokol

мощный фак, спасибо

Ответить
Развернуть ветку
Российский Крым

Пытался парсить авито с помощью powershell. Какое-то время работало, а потом перестало.

Ответить
Развернуть ветку
Максим Кульгин
Автор

Авито мощно защищаются. сказать нечего. Но если данные открыты брать можно, вопрос в скорости.

Ответить
Развернуть ветку
Robastik: веб-парсер Excel

Скрипт слишком отличается от браузера, а зачем им боты, которые даже не прячутся?)
Ну и если их бомбить запросами не каждые 3 секунды с одного IP, а чуток пореже с нескольких, то они благосклонно пускают)

Ответить
Развернуть ветку
Abdu Rz

Рыбак рыбака видит издалека :) отличная трушная статья

Ответить
Развернуть ветку
Максим Кульгин
Автор

спасибо!

Ответить
Развернуть ветку
Андрей Савищенко

Есть ли API
Есть ли вообще гуд парсеры с API?

Ответить
Развернуть ветку
Максим Кульгин
Автор

API к чему? К нашему облаку да, есть АПИ конечно же.

Ответить
Развернуть ветку
Robastik: веб-парсер Excel
Ответить
Развернуть ветку
Антон Базаев

Максим, отличная статья, красавцы! Успехов в бизнесе!

Ответить
Развернуть ветку
Максим Кульгин
Автор

спасибо!

Ответить
Развернуть ветку
Екатерина Продавцова

У ребят xmldatafeed очень интересная вкладка
> Законно ли парсить сайты?

Зачиталась :) Пожелаю скорейшего выхода на глобальный рынок

Ответить
Развернуть ветку
Максим Кульгин
Автор

ну законно же :) если не вредить людям. спасибо!

Ответить
Развернуть ветку
Scott Freak

У DoubleData были вопросы с ВК по поводу парсинга, как у вас с этим?

Ответить
Развернуть ветку
Максим Кульгин
Автор

мы не парсим ВК. Так что тут вопросов не было

Ответить
Развернуть ветку
Silverjohn

Интересно было бы воспользоваться услугами, но для продавца с широким ассортиментов товаров смысла нет, получается. Раз вы товары конкурентов не сможете искать автоматом, это вам список ссылок надо чтобы кто-то готовил..

Ответить
Развернуть ветку
Максим Кульгин
Автор

зачем? мы парсим весь сайт конкурента.

Ответить
Развернуть ветку
4 комментария
Roman Lugovkin

Парсил facebook когда это еще не было модно ) Но если без аналитики это как-то скучно.

Ответить
Развернуть ветку
Zoringer
предоставляем нашим заказчикам итоги парсинга в формате CSV/XML

выходной формат в CSV это так "исторически сложилось" или просьба клиента? Меня интересует почему бы в JSON не отдавать?

Ответить
Развернуть ветку
Максим Кульгин
Автор

Редко отдаём в json - любой формат по запросу клиента. Все данные у нас хранятся в xml формате внутри

Ответить
Развернуть ветку
Ян Полянский

1) То есть вы сохраняете публично доступные данные и те, кто выложили эти данные на публику этим не довольны? Я правильно понимаю?

2) Какое практическое применение информации, которую вы собрали?
Ну вот, мы знаем колебания цены молотка из Леруа Мерлана с 2020 по 2022 год... Очень интересно. Но зачем?

Ответить
Развернуть ветку
Павел Ерёменко

не знаем колебание, т.к. они не хранят данные (что есть большой фейл имхо)

Ответить
Развернуть ветку
dostigator

Что то не верится в это

Ответить
Развернуть ветку
Денис

Используете такие сервисы, как серпстат, Ahrefs и т.д.? Или это совсем другое направление аналитики?

Ответить
Развернуть ветку
Максим Кульгин
Автор

Совсем не используем

Ответить
Развернуть ветку
Сергей Московский

А с не большими объемами работаете? 200-300 товаров?

Ответить
Развернуть ветку
Максим Кульгин
Автор

нет особо разницы.

Ответить
Развернуть ветку
4 комментария
Рафаэль солихов

чтобы не спарсили данные нужно в приложении давать данные пользователям там уже фиг достанут

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Иван Иванов

Спасибо, интересно

Ответить
Развернуть ветку
Алексей Викторович

Спасибо за статью! Позвольте задать вопрос близкий к теме. Если парсить например Яндекс в промышленных масштабах - это также с точки зрения легальности как и парсинг обычных сайтов? И вопрос 2 - например мне нужно собирать выдачу 1 млн ключей в день - вы сможете это сделать и какой будет прайс?

Ответить
Развернуть ветку
Максим Кульгин
Автор

Мы никогда не парсили яндекс. Но думаю ваша задача если имеет решение, то нужна другая команда. 1 млн ключей звучит слишком сложно. Тут надо делать ферму серверов и т.п.

Ответить
Развернуть ветку
Gary Morgenstern

Недавно одному журналисту дали 22 года строгого режима, тоже за то что собирал данные из открытых источников.. и продавал..

Ответить
Развернуть ветку
rimon

Наверное первый вопрос должен был быть что такое парсинг? Без понимания этого статья нечитабельна. Пошел гуглить, потом дочитаю может...

Ответить
Развернуть ветку
Вика Шевченко

Чем Куратора лучше servicepipe юзать))

Не только от парсинга и ддос, но и вообще от любых автоматизированнвх историй 🤔

Да ещё и в защиту API могут 💪

Ответить
Развернуть ветку

Комментарий удален модератором

Развернуть ветку
313 комментариев
Раскрывать всегда