20 млн рублей в год на парсинге сайтов. Часть 2

Меня зовут Максим Кульгин, моя компания xmldatafeed занимается парсингом сайтов в России порядка четырёх лет. Ежедневно мы парсим более 500 крупнейших интернет-магазинов в России. Теперь делимся опытом.

Первая часть статьи (см. ссылку ниже) была воспринята сообществом VC положительно (31к просмотров — мой личный рекорд). Решил собрать все наиболее интересные вопросы, которые прозвучали в комментариях и на их основе сделать вторую часть, которая, как мне кажется, получилась даже более откровенной (хотя не все вопросы далее следуют логически друг за другом).

20 млн рублей в год на парсинге сайтов

Меня зовут Максим Кульгин, моя компания xmldatafeed занимается парсингом сайтов в России порядка четырёх лет. Ежедневно мы парсим более 500 крупнейших интернет-магазинов в России. Теперь делимся опытом.

Данная статья не высказывает определённого мнения, не даёт юридических советов и не раскрывает тайн — здесь мы лишь рассмотрим некоторые самые интересные вопросы про парсинг, трактуя их с позиции своего опыта в задачах парсинга сайтов. Иными словами — мы потратили много времени и постарались свести и классифицировать воедино разные мнения (наших клиентов, конкурентов, тех кто защищает от парсинга и т. п.)… житейскую мудрость, так сказать :). Иными словами вся статья, это попытка взглянуть на парсинг глазами разных специалистов (в парсинге и защите от него).

1. Что такое парсинг? По одному из определений парсинг есть синтаксический анализ информации. Человеку, не вовлечённому в конкретные задачи сбора и обработки информации для Интернет-проектов, это не говорит ни о чём. Да и само определение лишь в общих чертах обозначает огромный объём работы, которую ежеминутно совершают сотни миллионов людей и десятки миллионов виртуальных роботов по всему миру. А ведь эта задача обычное для человека дело — что в сравнении цен на билеты онлайн, что в выборе подходящей электроники на сайтах магазинов… Следя за ценами и акциями в удобном мобильном приложении ближайшего к дому гипермаркета, никто из нас и не подумает окрестить себя парсером.

А если совсем по простому: парсинг — это автоматизированный сбор общедоступной информации из интернета, осуществляемый без использования API сайтов (хотя ряд сайтов легко можно парсить именно по открытому API). Можно представить, как человек открывает браузер, ходит по сайтам и копирует с них данные. Парсинг — то же самое, только ходит не человек, а робот.

2. Какая рентабельность вашего бизнеса по парсингу (выручка есть, а где прибыль?). ~40%. Вообще тут надо отметить, что у нас несколько бизнесов, которые «делят» между собой, например, аренду помещения/бухгалтера/связь и т. п. — это сильно усложняет оценку прибыльности, т. к. нужно считать доли между бизнесами. Мы этим не занимаемся, оцениваем «палец-пол-потолок».

3. Много ли парсеров «работают» на популярных магазинах? Очень. Сложно дать количественную характеристику, т. к. мы не видим данные изнутри, но судя по количествам предложений на популярных площадках — бизнес «цветет». Услуги парсинга предлагают на AVITO, FL, KWORK и т. п. Тысячи специалистов готовы парсить что угодно (довольно дешево, кстати).

4. Можно ли получит ИТ — аккредитацию, если мы занимаемся парсингом? Считаю что да, т. к. в законе есть пункты связанные с «обработка информации, создание баз данных». Сейчас требования к ИТ-аккредитации ужесточаются.

5. VC. RU парсите? Нет.

6. Я поставил защиту CloudFlare на свой сайт, это поможет предотвратить парсинг? Да, но частично. Этот сервис может замедлить отклик вашего сайта (замечали сами не раз), но и отсечь часть ботов. Есть технически детальные руководства для программистов, как обойти этот сервис (или минимизировать его влияние). Мы внедряем эти руководства — помогает в работе. Сейчас не совсем удобно оплачивать этот сервис по картам, что тоже добавляет хлопот защищающимся.

7. Как защитить от парсинга мои изображения и контент? Один из действенных и дешёвых способов противодействовать парсингу изображений — ставить на изображения свои ватермарки. Текстовая информация без прилагающийся изображений резко теряет в цене, не во всех случаях, конечно, но в подавляющем большинстве из них. Так что, хотите уберечь свой интернет-магазин от парсеров— проставьте свои водяные знаки на фото товаров.

Еще можно кроме ватермарков ставить скрытые метки. И если фото где-то засветится, то можно в суд за нарушение авторских прав. Там иски бывают по 100-200к рублей за фотографию. Конечно не все фотографии защищены авторскими правами. Например картинки от производителя товара могут быть свободно распространяемыми. Но никто не мешает подсунуть в коллекцию картинок товара несколько своих фотографий/рисунков. И за них потом привлекать к ответственности.

Вообще если есть те, кто занимается парсингом, обязательно должны быть и те, кто будет стараться им в этом помешать. Играть интереснее с живыми людьми: появляется элемент соперничества, каждая сторона старается перехитрить другую. И, так как собирать информацию вручную никто по-прежнему не намерен, играют они в то, кто сделает бота наиболее похожего на живого человека, и кто сможет эффективнее этих ботов распознавать, продолжая при этом отвечать на запросы реальных пользователей — сайт же призван бизнесу помогать, отталкиваемся мы от этого. И, оставаясь в рамках задачи о бизнес-эффективности, нельзя не учитывать разумное распределение ресурсов и рентабельность мероприятий по, собственно, парсингу и противодействии ему.

И тут мы возразим сами себе: возможно, по отдельности это всё не поможет, но все вместе осложнит «жизнь» при парсинге настолько, что станет нецелесообразным. При этом все эти техники вообще не требуют больших затрат. Правда, все эти техники прекрасно обходятся, так что по сути — защиты нет. Динамические прокси, сервисы распознающие капчи индусами, и selenium с хорошо прописанным алгоритмом действий. Всё, чего можно добиться — разработка парсера будет стоить подороже, возможно кого-то это и отпугнет, но если целевой сайт — это не каталог на полторы страницы местного офиса «Рога и Копыта», то повышение затрат мало кого отпугивает.

Невозможно полностью ограничить доступ к публичным данным в сети. Если данные можно считать в браузере, их скорее всего считают и попытаются автоматизировать процесс. Вопрос лишь в стоимости осуществления таких мероприятий, то есть в конечном итоге – в мотивации атакующих. Коммерческая выгода от использования данных о ценах товаров конкурентов может в сотни/тысячи раз перекрывать стоимость организации сложных атак, использующих множество техник маскировки и обхода систем защиты.

8. Что я могу сделать сам, чтобы максимально защититься от парсинга?

  • Ограничения по User Agent.
  • Ограничения по странам. Если вы продаете товары в России, то скорее всего, трафик из Китая и Филиппин не является для вас целевым, если у вас нет доставки в эти страны. Со временем, после блокировок всех нежелательных стран, бороться с парсерами станет сложнее, так как боты «перетекают» в целевую страну. Например, если ранее боты приходили из Уругвая, то после блокировки страны этот же трафик будет идти из России. Это немного дороже для атакующего, но точно не остановит парсинг, особенно если за это платят.
  • Ограничения по провайдерам. Если вам не нужен трафик с Amazon или Digital Ocean, их подсети можно заблокировать. Согласитесь, редко когда нормальный пользователь будет заходить на ваш сайт с виртуального сервера Amazon.
  • Внедрение Captcha. Отлично убирает подозрительный трафик, но есть риск помешать реальным пользователям и вызвать раздражение людей. Эффективность далека от 100% — существуют готовые системы по автоматизированному и дешевому решению Captcha.
  • Ограничение количества/скорости запросов с одного IP или в рамках одной сессии. Отличный механизм для усложнения парсинга, но надо делать аккуратно, чтобы не навредить обычным пользователям.

9. Как я могу наказать по закону РФ тех, кто парсит мой сайт? В российских законах напрямую о парсинге не говорится ничего. Там нет раздела под заголовком «Парсинг» с определением и правилами, из которых сразу было бы понятно, что можно делать, а что нельзя. Это самая серьезная дилемма, т. к. рассуждать о юридической стороне парсинга проще, когда о нём известно и десять раз написано в законах, есть набор готовых судебных решений.

Есть общее правило, которое следует из Конституции РФ и Закона об информации — каждый вправе собирать информацию любым законным способом. Так что по общему правилу парсинг — это законно. Однако нужно помнить о многочисленных ограничениях и нюансах (авторское право, например). Иногда они приводят к фактическому запрету парсинга, иногда создают дополнительные сложности, а иногда правомерность парсинга зависит от конкретных обстоятельств.

10. Нормальный такой ваш «бизнес», по сути воровство контента! Это не вопрос, но постараюсь развернуто ответить. Наш договор заключается на услугу по сбору информации, которая находится в открытом доступе. Действительно, существуют юридически риски, т. к. мы для наших заказчиков собираем данные, которые далее выгружаются им в заданном формате и здесь может быть претензия на то, что сама база данных на сайтах защищена авторским правом. Cуть в том, что дальше происходит с данными. В большинстве случаев можно совершенно легально собирать данные из открытых источников для личного-коммерческого использования (не нарушая авторское право), для научной работы или для обучения. Но как только вы эти данные начинаете собирать с целью передачи третьим лицам (в данном случае нашим заказчикам), то тут уже могут возникнуть нюансы. А пока мы ориентируемся на заключение наших юристов, которые в первую очередь обращают внимание на нарушение авторского права и в работе не собираем эти данные.

Что касается этики — неэтичным и не законным может быть способ использования полученной информацией. В целом, чисто с точки зрения этики, каждый человек имеет право получить публичную информацию, которая не носит частный или специальный характер и не охраняется законом. Цены точно являются публичной информацией. Описания — тоже. Описания могут быть объектом авторского права и тогда их нельзя размещать без разрешения. Но никакая этика не нарушается, даже если вы будете парсить сайты и делать свой публичный сайт, на котором будет отражаться динамика цен и сравнение конкурентов.

11. Парсинг этичен и вероятно законен, но когда будут парсить ТВОЙ сайт, «жопа» будет гореть! Да.

12. А как технически реализовано? Мы скачиваем целую веб страницу, а потом разбираем её в формате html и ищем нужные части, где находится, например, цена товара, название и т. п.

13. Как узнать, можно ли парсить с того или иного сайта? Если вы можете открыть сайт в браузере, то его можно парсить. Да, весьма вероятно, что это будет требовать времени, разработки и денег, но спарсить вы его всегда сможете (делая поправку на скорость сбора — быстрее или медленнее).

14. А сколько у вас клиентов? ~45.

15. Для чего нужны данные парсинга и как они помогают бизнесу? Самое простое — наполнение каталога в интернет-магазине. Например, если поставщик отдает неполную выгрузку, но в нише есть сильные проекты с хорошо проработанными товарными карточками. Наполнение карточек — это не только описание, но еще куча свойств товаров и изображения. Бывает, что в выгрузке от поставщика по одной картинке для каждого товара.

Описание может быть объектом авторского права, но если речь идет о магазинах с большим каталогом, то описания там зачастую генерированные на основе свойств. Если выгрузить в одно место все свойства, то нетрудно сгенерировать собственные описания на их основе (тем более есть готовые инструменты на базе ИИ).

Ряд клиентов занимается аналитикой присутствия — его бред vs. конкуренты (процент занимаемых позиций в результатах поиска, средняя позиция, видимость и т. п.).

17. У вас есть большой объем цен за разное время. Вы не прикидывали реальную инфляцию? Нет.

18. Вопрос — снимаете офис или все на удалёнке? Вся наша команда работает в офисе в г. Санкт-Петербург (дождливо у нас).

19. Наверняка просят парсить социальные сети – работаете с таким? Нет.

20. Если парсить например Яндекс в промышленных масштабах — это также с точки зрения легальности как и парсинг обычных сайтов? С точки зрения закона, как мне кажется, разницы нет, но мы не парсим поисковую выдачу Yandex/Google. Поступают запросы, но это не наш профиль. Более того — это довольно сложная задача.

21. Встречаются дублирующие запросы — т. е. несколько клиентов просят один и тот-же Леруа? Не так уж часто, как хотелось бы. Например, в дело вмешивается региональность. Кто-то просит цены в Москве, а кто-то в СПб.

22. Можно сделать бота, который будет покупать товар в момент появления скидки? Да, но наверное не покупать, а класть в корзину?

23. Как часто можете обновлять данные? Зависит от объема данных. Выгрузка и передача данных клиенту делается не чаще одного раза в сутки, а сам объем данных в рамках ТЗ, может собираться от нескольких часов до месяца.

24. Можно ли спарсить весь маркетплейс сегодня? Если речь идет про крупнейшие, не специализированные маркетплейсы, мы предлагаем дробить задачу. Сбор всей информации займет недели и ее актуальность будет снижаться. Плюс надо учитывать, что средняя скорость сбора данных от сайта к сайту от 15 до 30 тыс. позиций в сутки. Есть и другие ограничения на стороне отдельных маркетплейсов, делающих такую задачу не сильно целесообразной с точки зрения издержек.

25. Можете собрать базу с контактами ЛПР? Мы собираем данные из открытых источников. Если вам известны ресурсы, где законным образом собраны и открыты к использованию данные физических лиц, мы сможем автоматизировать сбор таких данных.

26. Можно ли написать парсер по нашему ТЗ и передать нам? Такая услуга относится к разработке ПО, стоимость значительно выше и требует постоянной тех. поддержки пользователя, что сильно усложняет работы для обеих сторон. Потому мы оказываем только услугу по сбору и передаче данных под конкретные цели и задачи. Это удобно, доступно и практично.

27. Можете ли вы собирать данные под учетной записью пользователя? Да, если это не противоречит законодательству и заказчик берет на себя риски по блокировке аккаунта.

28. Можете ли вы осуществлять обработку данных для корректной загрузки в нашу систему (1с, мой склад, интернет-магазин и пр.)? Эту задачу заказчик закрывает на своей стороне, заранее определяя в каком виде и формате файла, мы должны агрегировать данные для успешного продолжения работ. И описывая эту часть в техническом задании.

29. Где можно почитать больше информации? Я регулярно пишу в Телеграмм наш опыт.

Спасибо за внимание, старался быть краток и по делу — не стесняйтесь задавать свои вопросы в комментариях.

p. s. Не ругайтесь:) я понимаю, что парсинг сразу настраивает на негатив. Но это обычный бизнес, которым, уверяю вас, занимаются 80% торговых компаний (в том или ином виде).

0
129 комментариев
Написать комментарий...
Александр Валуев

Парсинг - «это не только ценный мех». Это целая вселенная для человека, умеющего мыслить. Я руководил проектом, где приходилось парсить прогнозы финансовых аналитиков США с ежегодной подпиской на сервис = 20 000$, а наши ребята использовали бесплатный Puppeteer https://pptr.dev/, копировали полный цифровой fingerprint, выпускали еженедельно карточку банковскую, регистрировали ее, платили 7$ и парсили неделю триала, и так год подряд. Эти же навыки использовали для самовыкупов на Wildberries. Автоматом регистрация нового юзера, поиск товара, покупка…

Я рукожоп, поэтому парсинг через XPath прям в Google Sheet ImportHTML. Удобно когда нужно спарсить было характеристики из карточек товаров на Wilberries, сразу перевести на английский не покидая гугл таблиц. И скопироват сразу в Request For Quotation Alibaba, чтобы китайские поставщики сразу тебе искали подобный товар по характеристикам.

@Максим Кульгин, есть супер лайфхак от Wildberries: хочешь защититься от парсинга: херачь в продакшен говнокод, постоянно меняй структуру html, переделывай на лету все:) И это доставляет боль парсеру, но правки на 5-10 минут обычно, просто обидно, когда снова какую-то мелочь поменяли и регулярки не срабатывают:)

Ответить
Развернуть ветку
Ияза Гара

Парсинг на регулярках - это сильно! Тем временем 22 год близится к концу.

Ответить
Развернуть ветку
403 Forbidden

тоже парсер пишу, бывает разметка с элементами вообще без атрибутов, вот это боль

Ответить
Развернуть ветку
К М

Я не совсем понял, можно подробнее? Что за цифровой отпечаток, как выпускали банковскую карточку (вы разве банк)...короче ничего не понял, но очень интересно

Ответить
Развернуть ветку
3 комментария
Максим Кульгин
Автор

:) спасибо.

Ответить
Развернуть ветку
Юрий Морозов

Какая лживая статья. В Петербурге уже пять лет как недождливо!

Ответить
Развернуть ветку
Максим Кульгин
Автор

на всякий случай выглянул в окно :) у нас дождик

Ответить
Развернуть ветку
Павел Иванов

xmldatafeed - как будто кот по клавиатуре прошёл

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
2 комментария
Василий Быков

Расширяю кругозор, не в курсе был что такое парсинг. Спасибо, интересно)

Ответить
Развернуть ветку
Максим Кульгин
Автор

:) рад если понравилось!

Ответить
Развернуть ветку
Артур Малосиев

Слушайте, вы написали отличный FAQ по канонам СЕО. Теперь если кто-то ищет в поисковике про парсинг, будет высвечиваться эта статья со ссылкой на ваш сайт. Плюсую!

Ответить
Развернуть ветку
Максим Кульгин
Автор

Спасибо, но вот чесслово - про SEO даже не думал. Просто писал по мере того, как вспоминал вопросы, которые получали.

Ответить
Развернуть ветку
Чайка О.

Не забывайте о силе площадки. Тут и без SEO публикации в топ залетают как с пинка.

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Егор Зотов

все через headless chrome
api sdk есть под любой ЯП

через него же все делают роботы для дропов и еще много чего

Ответить
Развернуть ветку
1 комментарий
Максим Кульгин
Автор

все делаем вручную. По структуре html. Если сайт на JS то насколько помню ребята используют chromium/silenium. да, спарсим.

А про инструмент - хороший вопрос, но вот не добрались. Хотя давно просится.

Ответить
Развернуть ветку
1 комментарий
Zoom Zoom

Хорошая статья, а можете рассказать что дает Парсинг и зачем он нужен?

Ответить
Развернуть ветку
Dmitry Ishutkin

Даёт квазизанятость тем бесполезным паразитам, которые не смогли менее стыдную для мужика работу найти.

Ответить
Развернуть ветку
6 комментариев
Максим Кульгин
Автор

мониторинг цен и ассортимента конкурентов в 90% случаев.

Ответить
Развернуть ветку
7 комментариев
Владислав

В статье не указан метод блокировки по tls, отпадут все любители парсить сайт через node / python. Каких подавляющее большинство. TCP fingerprint можно тоже туда же. Щас много вариантов определить ботов и хэдлесс браузер. Соответственно можно свести все к тому, что Парсинг станет слишком затратным для людей.

Ответить
Развернуть ветку
John Doe

Так это только поднимет цену на данные и уберет с рынка аматоров =). Даже если будет какой-то очень эффиктивный способ определять ботов, я видел как-то ферму китайской компании по фарму в мобильных играх, шкафы с несколькими тысячами дешевых, но мощных телефонов. Ничего не мешает собрать такую ферму для парсинга xD

Ответить
Развернуть ветку
Артем Овчинников

Владислав, подскажите с помощью какого стека тогда лучше парсить, чтобы обходить указанные блокировки? у меня небольшой проект для личных целей, вот уже третий день выбираю инструменты.

Ответить
Развернуть ветку
John Doe

теоретически, достаточно, во время сборки клиента, CSS классы и HTML теги \ компоненты для контента превращать в рандомные мини хеши и парсинг перестанет работать

Ответить
Развернуть ветку
К М

Это как? Пример есть или статья?

Ответить
Развернуть ветку
13 комментариев
Максим Кульгин
Автор

Сложновато

Ответить
Развернуть ветку
Дичь какая

Или можно писать на Flutter

Ответить
Развернуть ветку
Владлен Битков

отличная статья, автору спасибо за материал!

Ответить
Развернуть ветку
Антон Семенов

Мы целый год скрапили авто.ру (с 2020 по 2021) реверсили их приложеньку и добывали по мобильному апи. Потом они повесили какой-то лютейший антифрод и фейковали нам данные. Доходило до того что, отправляешь запрос из ноды приходит одно, из питона - другое. Жалко что на этом мы закрылись)) Но 100гб чистых данных за год сохранились))

Ответить
Развернуть ветку
Антон Семенов

Выкачивали весь авто.ру примерно за 40 минут. Хорошая у них апишка была)

Ответить
Развернуть ветку
Ияза Гара

Парсил крупные сайты типа Мвидео, Ситилинка и ДНС на предмет цены на выборку определенных товаров бренда.
Волосы мной раз шевелились во всех местах от разброса цен по регионам.

Ответить
Развернуть ветку
Максим Кульгин
Автор

Ага - цены отличаются

Ответить
Развернуть ветку
2 комментария
Undisclosed

Не понятно как использовать ваш сервис мне, как бренду. Как редактировать список интересующих меня товаров, как сопоставлять товары на разных маркетплейсах, возможен ли вообще сводный отчет. Думаю, если бы вы сделали нормальный интерфейс с этими функциями и опубликовали, наконец, цены на свои услуги - хвастались бы оборотом в 200 млн.

Ответить
Развернуть ветку
Максим Кульгин
Автор

Сергей - мы работаем изо всех сил над этим, выделил команду - через месяц что то будет :)

Ответить
Развернуть ветку
Dima

Весьма полезная статья, спасибо )

Ответить
Развернуть ветку
Мухомор

Вопрос к автору статьи

Максим, добрый день, вопрос про рентабельность

2. Какая рентабельность вашего бизнеса по парсингу (выручка есть, а где прибыль?). ~40%

по данным которые я взял из открытого источника по вашему ИНН

Доходы за 21 год 19 298 000 р

Расходы за 21 год 18 247 000 р

Доход минус расход 1051000 р

Так какая действительно рентабельность у вашего предприятия?

Если я чего-то не понимаю, то прошу объяснить если есть такая возможность

всем добра!

Ответить
Развернуть ветку
Максим Кульгин
Автор

вы смотрите бухгалтерскую прибыль, но она не имеет ничего общего к управленческой (или отдаленно имеет). 40% плюс-минус похоже на правду из месяца к месяцу.

Ответить
Развернуть ветку
2 комментария
Виталий

Полезный FAQ, так же как и первая часть. Классные и нужные проекты делаете, давно наблюдаю за проектами вашей компании. Удачи и клиентов вам.
Поделюсь статистикой к вашей статье https://statvc.ru/share/p/2b259f66-fbd8-4d5b-a98e-63063e207d64/

Ответить
Развернуть ветку
Максим Кульгин
Автор

спасибо!

Ответить
Развернуть ветку
Andrey Esaulkov

Будьте осторожны с парсингом – нарветесь на юридического подкованного например Regmarkets , потеряете нескольком млн: https://cutt.ly/bBt3Bxc

Ответить
Развернуть ветку
Виктор Петров

Там какой-то правовой беспредел описан. Нельзя запатентовать заголовки. Проблема же упирается больше в копирование ошибок. Ну так стоило бы грамматику-то проверить, это делается автоматически.

Ответить
Развернуть ветку
1 комментарий
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Nyet Nicho

Интересно

Ответить
Развернуть ветку
Mewton Games

Недавно делал прототип аналитического сервиса платформ с HTML5-играми (VK, Yandex Games, etc.). Но в итоге закрыл проект из-за ограниченной ЦА и расходов на бэкенд, увеличивающихся в геометрической прогрессии.🙃
В целом было интересно.

Ответить
Развернуть ветку
Mewton Games

Ещё делаю телеграм-бота https://t.me/BeeepBot, который присылает уведомления, если в интересующем публичном чате появится нужная для вас информация. Пока что находится в бете.

Ответить
Развернуть ветку
Nickolai Vasiliev

Прям молодость вспомнил :)))))).

Почти 20 лет назад мы занимались манимейкерством с помощью парсинга.

Парсили перловыми скриптами популярные каталоги в буржунете, на их основе делали свои (причём, генерили их в статике), seo-оптимизировали их под гугл и зарабатывали на гугл адсенсе. Неплохо зарабатывали.

Но рынок этот наполнялся моментально, сложнее было выбиваться в поиске - приходилось придумывать штуки-дрюки, чтобы наращивать цитирование и сдабривать спарсенный контент оригинальным (синонимайзингом не пользовались принципиально, так как сайты у нас были все-таки для людей).

А потом гугл отменил пэйджранк, да и в принципе поисковики поумнели :).

Ответить
Развернуть ветку
varyuom nartuop

что-то зачастил Максим, похоже все херово кризис и до парсинга добрался

Ответить
Развернуть ветку
Максим Кульгин
Автор

тьфу-тьфу - на самом деле заявок довольно много. Расширяем команду.

Ответить
Развернуть ветку
8 комментариев
Павел Егоров

Кого сложнее всего парсить оказалось?

Ответить
Развернуть ветку
Максим Кульгин
Автор

Авито, Яндекс маркет

Ответить
Развернуть ветку
5 комментариев
Слегка Придурковатый

Бывало такое, что вы как-нибудь криво настроили парсер и уронили сайт? Или может это делали сознательно?

Ответить
Развернуть ветку
Максим Кульгин
Автор

На заре бизнеса бывало чего греха таить , но сейчас команда опытная уже.

Ответить
Развернуть ветку
2 комментария
Mikhail

Если вы не парсили док файлы значит парсингом вы не занимались))

Ответить
Развернуть ветку
Максим Кульгин
Автор

Не парсили :)

Ответить
Развернуть ветку
1 комментарий
Dimitry

Странно выглядят советы противодействия парсингу от компании, которая на парсинге зарабатывает. 🤦‍♂️ Советы впрочем так себе.
Самое нормальное — пользоваться услугами компаний, специализирующихся на защите от ботов.
Если денег нет, то хотя бы прикрутить ip rate limiting на уровне веб сервера.

Ответить
Развернуть ветку
Максим Кульгин
Автор

Rate limiting я упомянул . А так - почему не советовать? Не вижу ничего страшного - если кому то поможет.

Ответить
Развернуть ветку
7 комментариев
К М

Такой вопрос, мне кажется близко к теме. На Pocket накопилась огромная куча закладок лет за 7 наверно. Каким инструментом можно с минимальной "кровью", наиболее простым способом каждую закладку Открыть-Сохранить как pdf (желательно предварительно очистив от рекламы, комментариев и проч-только текст и графика)?

Ответить
Развернуть ветку
Антон Пятков

если веб версия есть
можно забрать только контент и сохранять как pdf его
не знаю только как картинки себя поведут, сохранятся они рядом или будут ссылкой на ресурс

тут только дело в том что собрать это один инструмент, сохранить в pdf другой

Ответить
Развернуть ветку
1 комментарий
velvetdust

Хорошая статья, спасибо! Не подскажете удобного поставщика русских прокси с большим количеством подсетей, и чтобы русские сайты не блочили их после 24 февраля. Пользовался FineProxy, но там мало подсетей и русские сайты начали блочить их. Ещё GoldProxy, вроде то что надо, но немного напрягает, что у них нет личного кабинета, и каждый месяц приходится получать новые логин-пароль

Ответить
Развернуть ветку
Максим Кульгин
Автор

мы покупаем мобильные русские прокси в ассортименте. Работают!

Ответить
Развернуть ветку
Владимир Чернявский

Я так и не понял , что такое Парсинг. И для чего он нужен😿

Ответить
Развернуть ветку
Дмитрий Ходаков

Максим, добрый день. Писал вам на рабочую почту (11.09.22) предложение по сотрудничеству по любой обработке данных и приведению их к требуемому виду для ваших клиентов - это как раз пункт 28 вашей сегодняшней статьи. Не получил никакого ответа.
Вам это не интересно или письмо не дошло?
Пишу сюда, т.к. в статье вы попросили не стесняться задавать свои вопросы.

Ответить
Развернуть ветку
Максим Кульгин
Автор

Дмитрий а можете написать мне еще раз? kulgin.m @ notissimus.com

Ответить
Развернуть ветку
2 комментария
Диван

Спасибо за опыт. Напишите, пожалуйста, какую программу используете для парсинга?

Ответить
Развернуть ветку

Комментарий удален модератором

Развернуть ветку

Комментарий удален модератором

Развернуть ветку
Виктория Королёва

Ничего личного, как всегда

Ответить
Развернуть ветку
126 комментариев
Раскрывать всегда