20 млн рублей в год на парсинге сайтов
Меня зовут Максим Кульгин, моя компания xmldatafeed занимается парсингом сайтов в России порядка четырёх лет. Ежедневно мы парсим более 500 крупнейших интернет-магазинов в России. Теперь делимся опытом.
Так как тема парсинга часто привлекает внимание и вызывает эмоции (в массе негативные), подготовил статью, где ответил на основные вопросы (их получилось 40) с которыми сталкивались в процессе работы и, надеюсь, развеял некоторые мифы.
1. Можно ли зарабатывать на парсинге? Да. Мы стали активно заниматься этим бизнесом в 2018 году и с тех пор к счастью растем. Привожу открытые налоговые данные. В 2022 году надеемся, что результат будет чуть лучше.
2. В чем заключается бизнес на базе парсинга? Бизнес, условно говоря, можно разделить на две части: сбор данных и аналитика. Мы не занимаемся аналитикой (попробовали и поняли, что не потянем) и сконцентрировались только на сборе “сырых” данных. Другими словами — мы ежедневно предоставляем нашим заказчикам итоги парсинга в формате CSV/XML.
3. Что такое аналитика? Мало собрать данные, с ними надо уметь работать. Например, сервисы, которые занимаются аналитикой маркетплейсов. Эти команды парсят данные и сразу их обрабатывают в удобном для использования виде. Как упоминал ранее, мы попробовали и не справились. Почему? Нужно очень хорошо знать предметную область, чтобы сделать качественную аналитику. Мы же парсим все, что “шевелится”: ) и далее наши клиенты сами работают с этими данными.
4. Что клиенты делают с данными? Анализируют, но как — мы не знаем. Наша задача обеспечить поставку на ежедневной основе полных данных. Знаю, что часть клиентов загружают данные в 1С для удобства работы менеджеров, кто-то работает с PowerBI/Google BigQuery, а кто-то просто предпочитает Excel и открывать файлы по протоколу WebDav (у вас файлы будут доступны в проводнике Windows, как будто они находятся локально).
5. Что вы парсите? Все то, что в открытом доступе и доступно к сбору руками человека. Например: цены на товары, наличие по магазинам и т. п. Мы не занимаемся парсингом сайтов, где требуется указать логин- пароль (или эти данные должен предоставить сам клиент, понимая, что риски на блокировку полностью на его стороне, но стараемся отговаривать от таких решений).
6. Какой средний чек в этом бизнесе? С некоторой погрешностью можно назвать сумму 15 000 руб. в месяц. Но учитывая, что это бизнес больше проектный, чем продуктовый, разброс цен может быть большой. У нас есть клиенты, которые платят 400 000 р. в месяц за большой набор данных, а есть совсем “малыши” с чеком 5 000 р. в месяц.
7. В чем плюсы и минусы этого бизнеса? 80% клиентов ожидают регулярные данные (ежедневно, еженедельно), что позволяет применять подписную модель (иными словами — регулярные платежи). Минус в большой конкуренции и низкой стоимости входа.
8. Этот бизнес масштабируем? Да, но не так просто, как хотелось бы. Любой новый клиент (если он крупный), требует усиление команды разработчиков.
9. Сколько у вас сейчас персонала? 5 разработчиков full time в штате и команда поддержки (сотрудники, которые занимаются ежедневным тестированием результатов суточного парсинга). У нас очень молодая команда, ребята учатся (магистратура, бакалавриат) и им очень интересно заниматься парсингом, особенно если этому противодействуют.
10. Почему вы занялись этим бизнесом? Совершенно случайно. Нас попросили собрать цены с Леруа Мерлен. Попробовали, получилось ну и закрутилось: ).
11. Много поддержки? Очень. Поддержка фактически прямо пропорциональна количеству сайтов, которые парсим. Любое изменение разметки сайта может привести к тому, что парсинг сломается. Мы всегда предупреждаем клиентов, что такие риски существуют, но от этого объем работы не уменьшается).
12. Как клиенты получают данные? После многих экспериментов, мы остановились на частном облаке на базе NextCloud и я могу смело его рекомендовать. Удивительно устойчивое и бесплатное решение, регулярно обновляется, есть документированное API. Мы ежедневно выгружаем огромный объем данных на это облако в виде файлов, а клиенты забирают информацию удобным способом: API, WebDav, браузер. Звучит не так уж сложно, но как показал опыт — работает.
13. Сколько у вас серверов задействовано? Недавно заказали 6-й. Ранее мы парсили с VPS/VDS, но оказалось, что экономически целесообразнее парсить с помощью bare metal серверов (иными словами “железные” выделенные сервера), которые мы арендуем в нескольких ДЦ. В месяц серверам нам обходятся в ~70 000 руб. и сейчас, к сожалению, сильно подорожала аренда. Перед арендой мы рассказываем хостеру (ДЦ) в чем суть нашего бизнеса, как мы работаем и т. п. Очень редко (может быть раз в год) поступают жалобы на работу наших парсеров хостеру, но всегда вопросы урегулируем.
14. Насколько этот бизнес устойчив к санкциям? Мы, откровенно говоря, ничего не заметили. 100% наших клиентов в СНГ (80% Россия, 20% Казахстан, Беларусь и т. п.). Разве что пришлось открыть еще один расчетный счет помимо Альфа-Банка (клиенты из Казахстана не могли оплачивать).
15. Какие типы сайтов вы парсите? Любые, где есть открытые данные. Подчеркну — парсинг фактически означает автоматизацию того, что может сделать руками человек. Чаще всего (90%) просят парсить Интернет-магазины, которые относятся к категории ТОП 100.
16. Были судебные угрозы? Пару раз мы получали предупреждающие письма от компаний, которые находили у нас примеры парсинга их сайтов. Последний раз я получил письмо от CEO Aviasales, который угрожал судом и жесткой расправой, хотя по факту мы их не парсили на момент обращения. Претензия была оформлена некой нанятой юридической компанией с непонятными трактовками, т. к. видимо юристы не совсем поняли о чем идет речь вообще. Я думаю, что когда Aviasales столкнулся с массовым парсингом, они сделали рассылку претензии по всем компаниям, которые публично заявляют, что занимаются этим бизнесом на тот случай, что кто-то отреагирует. Было еще обращение от компании, которая отслеживает упоминание товарных знаков (простите, могу ошибаться, кажется это были brandmonitor), чтобы мы убрали упоминание Эльдорадо. Нам тоже грозили небесными карами, но чуть успокоились и перешли в более конструктивное русло, когда мы запросили официальные документы на подтверждение представления интересов компании Эльдорадо в этом вопросе. Чтобы сгладить вопрос, мы теперь выкладываем примеры парсинга вот с таким названием (см. ниже). Глупо, понимаю, но юридически безопаснее (нет времени и желания заниматься юридической бюрократией).
17. Можно ли получить льготы от государства, как ИТ- компании? Пытаемся, т. к. фактически мы работаем с базами данных (в законе есть соответствующие формулировки). В Сколково точно не возьмут: )
18. Парсить этично? Сложный вопрос, полагаю что да. Вообще мне кажется, что бизнес должны работать в правовом поле, а не рассматривать свое существование как этичное или нет. Вопрос философский, но обсуждаемый, т. к. парсинг зачастую вызывает негативные эмоции. Никто не любит, если их парсят. Но я сотрудникам всегда говорю — при общении с новым клиентом, если мы вдруг парсим его сайт, обязательно расскажите про это.
19. Парсить законно? Да, если вы соблюдаете некоторые моменты. Я не буду приводить развернутую юридическую оценку нашего бизнеса, но если говорить коротко — то любая общедоступная информация может собираться, если это не наносит вред источнику и не нарушает прав. Канцелярским языком это звучит следующим образом:
Вот, например, обычный запрос от клиента:
“Здравствуйте. Мне нужен парсер, который будет ежедневно собирать остатки с сайта поставщика и отдавать их в виде excel файла или xml фида.”
20. А что относительно авторского права? Не нужно просто парсить (или использовать) информацию, которая может быть объектом авторского права. Например описания товаров. К счастью, 99% клиентов просят нас собирать фактические данные, которые не попадают под эту категорию: цена, бренд, категория и т. п. Тут уместно упомянуть Яндекс/Google, которые парсят ваш сайт, собирая контент с страниц в свой индекс. Владельцам сайтов это нравится, т. к. это увеличивает посещаемость, а парсинг не нравится, т. к. потенциально усиливает конкурента. Но эти роботы действуют одинаково.
21. Я написал в оферте на моем сайте, что запрещаю парсинг! Простите, но это никого не интересует и вашу оферту никто читать не будет.
22. Усложняю вам парсинг — цену выведу картинкой! Хоть звучит смешно, но встречали и такое на ряде сайтов. Пожалуйста, не тратьте свое время — библиотеки распознавания изображений работают великолепно. Вы же не будете цены на ваши товары выводить следующим образом:
23. Я тогда ограничу количество запросов, а потом попрошу решить капчу (captcha) и это усложнит вам работу сильно! Есть очень дешевые сервисы ручного решения капчи. Упрощенно говоря, когда наши роботы встречают капчу, по API мы подключаем этот сервис, которые перекидывает задачу оператору для ручного решения. В месяц мы тратим порядка 4 000 р. на оплачу этих сервисов.
24. Вы сильно нагружаете сайты, которые парсите? Нет. Никто не хочет сделать так, чтобы владельцы сайта, раздраженные мощной, паразитной нагрузкой от парсеров, стали внедрять механизмы защиты, которые просто усложняют нам «жизнь”. Если говорить про абсолютные цифры, то нормальным считаем парсинг данных с карточки одного товара в 3-4 секунды. К сожалению, не все придерживаются такой парадигмы и ко мне лично обращались владельцы сайтов, которые уточняли не мы ли их парсим, т. к. нагрузка была запредельной. Чаще всего причина в »кривых руках” разработчиков.
25. Чем парсинг отличается от DDOS? Тем, что наша задача — автоматизированный сбор данных, на регулярной основе, в течении длительного времени. DDOS преследует совершенно иную цель —” сломать” сайт.
26. Вы взламываете сайты? Нет и не планируем. Бывает, что нас просят «как-то решить” с получением данных, которые защищены паролем. Но это не наш бизнес и вообще это не бизнес, а некая »тема” относящаяся уже к darknet.
27. Можно ли защититься от парсинга? Нет, но можно усложнить парсинг до такой степени, что мы начнем отказывать клиентам, т. к. для клиента это будет экономически невыгодно оплачивать нашу исследовательскую работу по обходу защиты. Все что доступно без пароля в сети Интернет так или иначе может быть собрано автоматизированным способом.
28. Все же, какой самый лучший способ защиты? Выложить данные в формате XML и дать ссылку. Вас гарантированно перестанут парсить и будут забирать данные в удобном виде. Звучит, конечно, как некая утопия и я понимаю, что мало кто последует данному совету, но это единственный способ избежать парсинга.
29. У кого самая сложная защита? АВИТО. У них достаточно ресурсов, чтобы заниматься этим вопросом на очень высоком уровне. Причем, как я думаю, в основном компании защищаются не от самого парсинга, а от DDOS — атак, а парсинг, образно говоря, попадает “под раздачу” защитными фильтрами.
30. Нужно ли мне внедрять на своем сайте защиту? В случае промышленного парсинга, лично мое мнение, — защита не очень поможет, но может усложнить задачу. Но совершенно точно любая защита может отсеять «студентов”, которые вчера прочитали книжку "Парсинг с помощью Python для чайников”. Бизнес устроен так, что чем сложнее парсить сайт, тем дороже будет цена для конечного клиента и тем больше усилий будет приложено командой для решения задачи.
31. Много у вас конкурентов? Очень. Много фрилансеров-самозанятых, которые предлагают услуги парсинга значительно дешевле наших. Насколько мне известно, к ним обращаются за разовым услугами, т. к. если заниматься парсингом регулярно, должна уже быть команда специалистов в штате на поддержку.
32. Как вы обходите защиту? Прокси. Разные. Много. Смена fingerprint (цифровой отпечаток браузера). Плюс — опыт команды, который накопился за несколько лет. Чем сложнее защита, тем медленнее парсинг, т.к. нам приходится, например, решать капчу - а это время. Сайты на 5-6 запрос просят решить капчу, парсер ждет решения человеком, далее продолжает работу (меняя fingerprint), до следующего запроса на решение.
33. Что думаете про cloudflare? Научились обходить. Но отмечу, что этот сервис в основном ставят для CDN/DDOS, а не для защиты от парсинга. С введением санкций количество сайтов с ним упало. Qrator отличное решение для защиты от DDOS - атак тоже добавляем нам сложностей :)
34. Как вы ищите клиентов? Тут мы не оригинальны и все клиенты приходят через сайт с помощью органического трафика (Яндекс и Google 50-50%). Мы пытались давать контекстную рекламу, но отдачу не увидели. Самое результативное, что догадались сделать — публиковать примеры (статичные) парсинга известных компаний на своем сайте с возможностью их скачать и изучить. Дальше люди просят данные уже в динамике и мы заключаем договор. Пример ниже, цифры по скачиванию честные. Сам сайт сделан на WordPress, ничего сложного.
35. На что конкретно заключается договор? Автоматизированный сбор неструктурированных данных с открытых источников в сети Интернет с преобразованием в структурированные данные. Собственно так и есть.
36. Какой запрос на парсинг самый частый? “Соберите мне, пожалуйста, контакты маркетологов фитнес-центров г. Казань”. Это не шутка, именно подобные запросы мы получаем чаще всего. Задача не имеет роботизированного решения, т. к. мы не работаем с персональными данными людей, которые еще и не хотят их делать публичными. Мы можем сделать, например, базу Интернет-магазинов косметики, с помощью анализа title/description сайтов в зоне. RU/. РФ и собрать публичные адреса электронной почты и телефоны. Но не решить задачу по сбору личных контактов ЛПР.
Какие еще интересные запросы вы получаете? Вот, пожалуйста. Задача тоже не имеет никакого решения.
“Здравствуйте, хотим получить базу стоматологических клиник. При возможности параметры: в городах больше 500,000. Более 4 кабинетов в клинике. Средний чек больше 7000. + Имейл и телефон ЛПР (рабочие, не пустые)”
37. Как делают базы компаний? Создание баз компаний с открытыми данными — производная парсинга. Настраивают роботов, которые обходят все сайты в Рунете (где-то 6.5 млн.) и собирают общедоступные данные. Таким образом можно создать, например, Базу всех ресторанов и кафе, Базу оптовых компаний и т. п. В любом случае, обрабатываются только общедоступные, публичные корпоративные данные.
38. А вы делаете матчинг товаров? Нет. Может быть зря, но наша задача — поставлять данные регулярно, в запрашиваемом клиентом объеме. Признаю, что если сделать “шаг вперед” и заняться матчингом товаров между разными продавцами и продавать аналитическую отчетность, мы могли бы добиться больших результатов. Могу ошибаться, но именно этим занимаются наши конкуренты (или смежники, так лучше назвать) и финансовые результаты по выручке у них явно лучше (см. ниже). Что удерживает? Ресурсоемкость. Матчить (сопоставлять) между собой товары по названию между разными игроками на постоянно основе очень сложно. Мы пытались внедрять различные алгоритмы, которые частично автоматизируют этот процесс, но результаты были неудовлетворительные (попробуйте, например, сопоставить аптечные препараты с фасовкой-граммовкой-литражом).
39. Почему крупные компании заказывают парсинг на стороне, а не делают сами? Причины разные. Очень крупные, публичные компании, сталкиваются с рекомендациями своих юристов/СБ, чтобы никоем образом не быть самим вовлеченными в автоматизированном сборе данных (это не домыслы, а опыт общения). Другие компании не хотят заниматься наймом дополнительных разработчиков, управлять ими, тестировать результаты и т. п.
40. Компании вообще знают, что вы (или кто-то другой) их парсит? Часто новые клиенты спрашивают (в шутку или нет), а не парсим ли мы их случайно!? Наша позиция — мы честно отвечаем как есть. Только один раз, крупный клиент рассердился и сказал, что если мы хотим с ним работать, прекратить парсить его. В итоге мы с ним не работаем.
41. Вы храните данные исторические? Нет. Нам не "по карману" хранить историю ежедневного среза цен по всем магазинам. Звучит очень интересно, но нашими силами это не потянуть. Мы регулярно удаляем данные старше 7 дней.
42. Можете выйти на глобальные рынки? Боюсь что нет. Это больше проектная деятельность, чем продуктовая. Нужен менеджер по работе с клиентами с отличным английским, поддержка на этом языке и т.п. Но совершенно точно - можно работать на локальных рынках и зарабатывать, т.к. услуга востребованная. Чем больше информации, чем активнее идет цифровая трансформация (простите за этот изъезженный термин), тем больше востребованность превращения неструктурированных данных в структурированные!
43. Где можно почитать больше информации? Я регулярно пишу в Телеграмм наш опыт.
Спасибо за внимание, старался быть краток и по делу — не стесняйтесь задавать свои вопросы в комментариях.
p. s. Не ругайтесь: ) я понимаю, что парсинг сразу настраивает на негатив. Но это обычный бизнес, которым, уверяю вас, занимаются 80% торговых компаний (в том или ином виде) .
Откровенно) молодцы
Спасибо
Комментарий недоступен
ну с чего оно вырастет?
"9. Сколько у вас сейчас персонала? 5 разработчиков full time в штате и команда поддержки
11. Много поддержки? Очень"
итак, 20 млн в год. это 1.66м в месяц.
-6% налоги (считаем в хорошем случае)
- 70к - сервера.
остается ~1.5/мес
теперь разделите это на 5 разработчиков + "много техподдержки". и это без учета дополнительных расходов типа бухгалтерии
Да их тысячи и так :)
Раз уж тут говорят про парсеры, расскажу о своем проектике - сделал автоматический инструмент по вытягиванию данных со страницы - никакой разработки, всё визуально.
От вас только скачать и подсунуть данные в скрипт
https://www.youtube.com/watch?v=gL_PewF2nmg
он только википедию понимает?
Видно что вы молодцы и упорные, и глубоко в теме, но выручка 20млн... это конечно печально.
Вы торгуете золотой рудой за копейки, а кто-то из нее делает ювелирные украшения умножая стоимость на пару порядков - такая аналогия напрашивается.
Вам конечно виднее, но у вас наверное два пути - либо стать самым лучшим и самым дешевым инструментом парсинга во всем мире, за счет своих уникальных технологий, победить фрилансеров. Либо таки пойти в бизнес-экспертизу и аналитику.
Я понимаю. Но признаю что пока не хватает ума, чтобы делать аналитику … надеюсь доберёмся
Средние и крупные компании не будут выносить бизнес аналитику на аутсорсинг, а малышам она за деньги не нужна, у них нет ни объема, ни потребности в ней.
Боюсь, у их бизнеса нет особых перспектив, так как слишком много нюансов в парсинге конкретных сайтов, которые надо подкручивать каждый день.
Ты прибыль с выручкой путаешь, они написали выручку, а может прибыль у них 19, за вычетом зарплаты сотрудникам, серваков и 4000 на капчу, тогда для небольшого бизнеса это дохрена.
Хотелось бы пример, в студию...(если можно).
Увидел заголовок и сразу понял кто автор 😜
Отличные парни/девушки. Я вот тоже не понимаю зачем вот это вот "цена по запросу" и прочее наследие нэпа. Ты ж магазин. Чем больше про тебя узнают тем лучше. Сделай прайс и выложи его. Что именно покрывают затраты на усложнение парсинга?
Кстати. Зарубежные прокси сейчас не очень то доступны. Или уже отпустило?
Ребята — это и парни, и девушки. Граммар наци офф.
а мы их не покупали. их блочат в первую очередь - я про зарубежные прокси.
Цена по запросу = продать за максимально возможный прайс.
По крайней мере, когда я был продажником, то якорные позиции предлагали ниже рынка, а вот более сложные, как раз по запросу, так как вся прибыль и комиссия там.
Долгое время у многих была "цена по запросу" из-за боязни выдать конкурентам свою актуальную цену и дать возможность установить цену на копейку ниже 🙂
Интервью с самим собой :)
Тоже есть пара парсеров самописных для личного пользования (начиналось с JD лет так 5 назад, а потом добавились AliExpress, mvideo, eldorado, Wildberries, ozon и прочее). Очень удобная штука, использую к тому же как нотифаер, он парсит интересующие мне позиции, ложит в базу историю цен и если цена которая интересует, то шлет уведомление в телегу. Пару раз настолько низкие цены удавалось поймать что были сомнения что вообще отдадут). А для JD в своё время добавлял парсер который собирал весь сайт и мониторил на наличие новых товар и слал в письме в виде ссылка описание своего рода самори но пришлось быстро отказаться, так как письма были большие а просматривать было день)
Кладет
Эльдарадо действительно выглядит глупо (интересно что телефон исправил его на Эльдорадо вначале, хотя я уверен, что я никогда не писал его).
Можно писать Эльд*радо, это выглядит не так глупо, да и клиенты поймут что у вас что-то с авторскими правами, а сейчас это выглядит что вы однажды сделали ошибку и везде ее копируете. Не благодарите)
поправим. но так то людям вижу что не важно. может глаз не цепляется просто за название.
Много селениума используете ?
AutoIt лучше!
да. много. поэтому нужны мощные сервера. bare metal
Конечно красавцы, никто не спорит.
Но, тут никто не написал о конкурентах, которые ОФД (оператор фискальных данных), у них информация и аналитика куда достовернее и круче, точнее, (но и дороже). И, там в разрезе: магазин по улице такой-то (КБ например, или Пятерочка...)...
Комментарий недоступен
ну мы же не конкурент ОФД. Совсем разный бизнес.
У ОФД вы видите уже состоявшиеся покупки, а в парсере — актуальные предложения. Это если забыть про то, что данные парсера интерпретировать легко, а из чеков товары достать — повеситься можно.
У них там то, что в чеке, т.е. с сокращениями, без артикулов, типа "пак. мол. дом. дер. 3.5%"? выковыривать оттуда данные и матчить с другими чеками из других магазинов - такое себе.
а где их купить можно?
Комментарий недоступен
Спасибо !
Кстати, джуны-питонисты не нужны вам случайно? :)
У нас .net :)
Ежеквартальная минута пиара от Максима Кульгина
Сколько занимает места срез цен по всем магазинам за 1 сутки?
У меня в голове немного не сходится
20 млн/год (пусть даже это прибыль)5 разработчиков full time в штате и команда поддержки
5 разработчиков это ~120к * 5 (и * 2 с налоговыми отчислениями). А еще и саппорт. Или они вам доплачивают что работают?
20млн выручки или 30 тысяч рублей в месяц прибыль?
вы смотрите бухгалтерскую прибыль, которая не имеет ничего общего к управленческой. Прибыль, если позволите без детализации, составляет 50%.
интересный бизнес, да еще на цифровом золоте
респект
спасибо
Вы пробовали? Как минимум один парсер туда взяли: https://xn--80aafmncowhr9cp5b.xn--p1ai/account/login
Спасибо - тогда попробуем
Но зачем?
вы стопроцентные молодцы!
Спасибо !
Максим, отлично все рассказали, спасибо! Цены действительно адекватные, но может есть ништяки для читателей VС? =)
Даже не знаю :) так то мне не жалко. Пишите что с vc, если сможем помочь с парсингом - конечно дадим скидку.
А где посмотреть цены?
Вопрос ещё такой:
Вы утверждаете, что этично парсите маркетплейсы с нагрузкой 1 товар/3-4 секунды (28 880 товаров в сутки)
Звучит как сказка для бедных, особенно если предположить общее кол-во товаров на озон или wb
С такой скоростью невозможно подготовить суточный срез озона, особенно если учесть то, что в течении дня товары и их кол-во/наличие постоянно меняется
Почему?
Предположу что запрос у клиентов обычно спарсить срез по какой-нибудь категории/группе категорий, а не весь маркетплейс
Суточный срез озона? Да это вообще задача не имеет решения ! Только одной категории :)
Давно к Вам на канал не заглядывал (ютуб который), обычно смотрел немало)
Кстати, примите* меня в команду, я скликивание обхожу скриптом на передачу конверсий самостоятельно)
* шутка, я возможно не очень как сотрудник)
:)
Отличный материал. Почитал с интересом
Спасибо !
Комментарий удален модератором
:) название придумали случайно как и бизнес
Максим, отличная статья. Все разобрано, есть данные. Успехов вам💪
Спасибо !
Комментарий недоступен
спасибо :)
Максим, как обычно - огонь! 🔥🔥🔥
спасибо!
Ребят! У вас с мобильной версией что-то криво, пусть поправят.
Вообще молодцы, сохраню, вдруг понадобится.
Спасибо поправим !
Круть, респект. Мне прямо эта тема очень близка и нравится, хорошо что у вас получилось)
Спасибо !
Комментарий недоступен
Выпей таблетки
Мы не воруем контент. Про это писал
Почему бы не парсить ваших конкурентов, которые парсят другие компании?)
Так они наверное не выкладывают данные в открытый доступ
Молодцы.
Не думал, что Авиасэйлс такие пидоры.
почему пидоры? Нормальная защитная реакция бизнеса. Видимо паразитная нагрузка их замучала. В любом случае мы все урегулировали.
VC парсите? Можно ведь пройтись по комментам и собрать базу политических ботов.
VC не парсили никогда. Не просили. А зачем эти боты? Чеснослово не понимаю.
Зачем его парсить, там неплохое открытое АПИ
Комментарий недоступен
Ещё от Макса или уже от Антона?
Максима
Расскажите как побороли cloudflare? Даже без массового Парсинга создаёт кучу проблем.
смена fingerprint. прокси. другого решения нет. Такая муторная исследовательская работа. Замедляет парсинг, но это решается задействованием больше серверов.
На Ютюбе это не ваш блог я смотрел случайно?
https://www.youtube.com/channel/UCtp7JBotTpx-vKzjojdOxiA вот он :) надеюсь это был он
Комментарий недоступен
Спасибо за интересную открытую информацию!
Вижу "заработали на парсинге" ставлю лайк не глядя
Тут должна быть картинка.
Они: придумывают хитровыебанный парсер, ломающийся после очередного аб-теста на сайте
Я: предоставляю открытый API
Здравствуйте, видел ваши видео на youtube :)
Подтверждаю. Матчинг товаров штука сложная. Рано или поздно все пробуют то делать :)
Мы делали аналитику цен по товарам в разных сетях FMCG, без матчинга эту задачу не решить.
К сожалению, стартап закрылся, но опыт не пропьешь :)
ага. но мы так и не смогли решить вопрос с матчингом. И не уверен, что будем решать.
Интересная статья!
Хотелось бы больше инфы про интересные проекты. Может какой-то необычный запрос или сайт
А почему в начале не традиционное?))
Привет! Максим. Компания Натимиус. Как у вас дела?Давно смотрю ваш Ютуб канал. Самый адекватный рассказ про инфо-бизнес.
Парсинг типа этично и вероятно законно, но когда будут парсить ТВОЙ сайт, жопа будет гореть. В структурирование и выкладку данных вкладывается столько труда, чтобы кто-то просто копирнул.
С этим ничего не сделать. Хотя понимаю негодование
Комментарий недоступен
Знаю их. Но нам пока нечего им предложить
Комментарий удален модератором
А как технически реализовано? Скачиваете целую веб страницу, а потом разбираете её с помощью регулярных выражений? Извините за тупой вопрос, я программист не настоящий.
так и есть. страницу без картинок, а дальше html разбор синтаксиса, поиск нужных селекторов в коде
Как узнать, можно ли парсить с того или иного сайта?
Ну в смысле. Если вы можете открыть сайт в браузере, то его можно парсить. Да, весьма вероятно, что это будет требовать времени, разработки и денег, но спарсить вы его сможете.
Написать нам на [email protected] и ребята оценят возможность
Можно в 2-х словах описать, чем вы лучше q-parser?
Я не могу ничего сказать про этих ребят - не знаю деталей . Наверное ничем
А сколько у вас клиентов?
А где у вас ключ от квартиры, где деньги лежат?)
Если серьезно, то выручку автор назвал и средний чек озвучил. Так что разделите одно на другое)
Чувак, если у тебя все так хорошо, зачем ты тут каждые полгода пишешь статью о том как у тебя все хорошо?
Что ты чувак завидовал.
Это пиар и привлечение новых клиентов.
Интересно было бы узнать у тех кто применяет спарсенные данные для аналитики или чего то еще, чем именно вы занимаетесь?
Для чего вам эти данные и как они помогают вашему бизнесу?
Часто слышал про парсинг, но коммерческое применение данных так и не понял.
Спасибо
Ну я бы покупал инфу по наличию скидок на определенный товар. Вот бы кто запили сервис который показал где самое дешевое сливочное масло или шоколад и где в наличии свежая клубника. У жены миникондитерская и иногда прилетает задача "купи свежие ягоды", на часах 21-30, осталось полчаса и три магазина в разных частях города где они могут быть.
Самое простое - наполнение каталога в интернет-магазине. Например, если поставщик отдает неполную выгрузку, но в нише есть сильные проекты с хорошо проработанными товарными карточками.
это лучше спросить бизнес да. Но обычно смотрят цены.
Мониторинг РРЦ, например.
Наверное, тут можно на несколько частей разделить:
1) Цены / остатки / продажи и иже с ними
2) Анализ контента (текст / характеристики, изображения и т.п.)
3) Аналитика присутствия - бред vs конкуренты (процент занимаемых позиций в результатах поиска, средняя позиция, видимость и т.п.)
Последнее - лакомый кусок для рекламных агентств (и соотв их клиентов). С оговоркой - клиенты у таких агентств должны быть соответствующего уровня. И да, ценники там скорее начинаются от 300-400.
У вас есть большой объем цен за разное время. Вы не прикидывали реальную инфляцию? Может кто делал для себя.
мы удаляем данные. Не храним. Это нам не по карману :(
Это интересно, но трудно монетизируется.
Хотя можно выдавать статистику с задержкой месяц и нагонять трафик.
Вы вроде моб приложениями занимались? Все?
Почему ? Вовсю делаем - notissimus.com
красавцы! насчёт глобальных рынков - преграда только в найме ?
вопрос - снимаете офис или все на удалёнке?
Все в офисе . Чтобы ребята общались между собой. Глобальные рынки - да. Надо усиливать команду и набирать там экспертизу
Комментарий недоступен
не так уж много, если они сделаны умно и корректно. 1 товар в 3 секунды.
Красавчики. 👍
Наверняка просят парсить соцсетки – работаете с таким?
И еще было бы здорово посмотреть на порядок цен, хотя бы примерно
Соц сети мы не научились парсить честно говоря ! Сложно это . Надо ротацию аккаунтов
Так там готовые парсеры были года полтора назад.
ВК парсился в пару кликов.
Инсту кустарно js можно парсить, но такой вариант только под очень узкие направления подходит.
Интересно почитать про то, как многие делают в скрытной форме. А какие планы на будущее?
Хотим сделать программку - чтобы работать с паркингом было удобнее . Расскажу в след статье
Зря не храните исторические данные, это может очень востребованная информация, а стоимость хранения - копейки: купить пару жестких дисков
Ну там будет тысячи файлов, кто с ними будет работать... сложно это
Можно про стэк и библиотечки плиз добавить
.net чистый. ну у ребят там есть наработки уже. а так - .net/c#/chromium да и все. полагаю ничего сложного
мощный фак, спасибо
Пытался парсить авито с помощью powershell. Какое-то время работало, а потом перестало.
Авито мощно защищаются. сказать нечего. Но если данные открыты брать можно, вопрос в скорости.
Скрипт слишком отличается от браузера, а зачем им боты, которые даже не прячутся?)
Ну и если их бомбить запросами не каждые 3 секунды с одного IP, а чуток пореже с нескольких, то они благосклонно пускают)
Рыбак рыбака видит издалека :) отличная трушная статья
спасибо!
Есть ли API
Есть ли вообще гуд парсеры с API?
API к чему? К нашему облаку да, есть АПИ конечно же.
например
https://a-parser.com/docs/api/overview
Максим, отличная статья, красавцы! Успехов в бизнесе!
спасибо!
У ребят xmldatafeed очень интересная вкладка
> Законно ли парсить сайты?
Зачиталась :) Пожелаю скорейшего выхода на глобальный рынок
ну законно же :) если не вредить людям. спасибо!
У DoubleData были вопросы с ВК по поводу парсинга, как у вас с этим?
мы не парсим ВК. Так что тут вопросов не было
Интересно было бы воспользоваться услугами, но для продавца с широким ассортиментов товаров смысла нет, получается. Раз вы товары конкурентов не сможете искать автоматом, это вам список ссылок надо чтобы кто-то готовил..
зачем? мы парсим весь сайт конкурента.
Парсил facebook когда это еще не было модно ) Но если без аналитики это как-то скучно.
выходной формат в CSV это так "исторически сложилось" или просьба клиента? Меня интересует почему бы в JSON не отдавать?
Редко отдаём в json - любой формат по запросу клиента. Все данные у нас хранятся в xml формате внутри
1) То есть вы сохраняете публично доступные данные и те, кто выложили эти данные на публику этим не довольны? Я правильно понимаю?
2) Какое практическое применение информации, которую вы собрали?
Ну вот, мы знаем колебания цены молотка из Леруа Мерлана с 2020 по 2022 год... Очень интересно. Но зачем?
не знаем колебание, т.к. они не хранят данные (что есть большой фейл имхо)
Что то не верится в это
Используете такие сервисы, как серпстат, Ahrefs и т.д.? Или это совсем другое направление аналитики?
Совсем не используем
А с не большими объемами работаете? 200-300 товаров?
нет особо разницы.
чтобы не спарсили данные нужно в приложении давать данные пользователям там уже фиг достанут
Комментарий недоступен
Спасибо, интересно
Спасибо за статью! Позвольте задать вопрос близкий к теме. Если парсить например Яндекс в промышленных масштабах - это также с точки зрения легальности как и парсинг обычных сайтов? И вопрос 2 - например мне нужно собирать выдачу 1 млн ключей в день - вы сможете это сделать и какой будет прайс?
Мы никогда не парсили яндекс. Но думаю ваша задача если имеет решение, то нужна другая команда. 1 млн ключей звучит слишком сложно. Тут надо делать ферму серверов и т.п.
Недавно одному журналисту дали 22 года строгого режима, тоже за то что собирал данные из открытых источников.. и продавал..
Наверное первый вопрос должен был быть что такое парсинг? Без понимания этого статья нечитабельна. Пошел гуглить, потом дочитаю может...
Чем Куратора лучше servicepipe юзать))
Не только от парсинга и ддос, но и вообще от любых автоматизированнвх историй 🤔
Да ещё и в защиту API могут 💪
Комментарий удален модератором