Отдельно хочу подчеркнуть, что 100% защиты от парсинга открытых данных в природе, наверное, не существует. Но используя комбинацию подходов вы можете очень сильно усложнить процесс сбора данных. Если данных много и они часто меняются (попробуйте парсить, например, АлиЭкспресс), то парсинг может стать просто нецелесообразным (или очень затратным мероприятием). Перечисленные ниже методы бесплатные в реализации (разве что оплата труда программиста вашего сайта), но на рынке есть и платные варианты. Например, вы можете потратить 10 минут и включить CloudFlare (тариф 20$, защита от ботов включена). В этом случае особо назойливые парсеры будут получать капчу (кстати, CloudFlare использует hCaptcha, которая, как считаю наши разработчики, более сложная чем reCaptcha). В конечном счете, совокупность механизмов защиты поможет защитить сайт от паразитной нагрузки, которые зачастую создают сотни парсеров, написанных малограмотными студентами-программистами, не думающих о последствиях.
Эта статья является на 90% переводом первого ответа на вопрос 'How do I prevent site scraping?' на Stackoverflow: https://stackoverflow.com/questions/3161548/how-do-i-prevent-site-scraping
Было бы правильнее указывать ссылку на первоисточник, чтобы не было обвинений в плагиате. Также для такой крупной специализирующейся на парсинге компании было бы более интересно почитать о вашем уникальном опыте, примеры каких то кейсов которые представляли для вас наибольшую трудность в обходе защиты. А так это выглядит как способ привлечь внимание к вашей компании, завуалированная реклама.
Впечатляющее описание, спасибо.
В целом, видимо, любая задача по парсингу может быть и будет решена тем или иным образом, потому что то, что видит человек, будет видеть и машина, за исключением очень уж эзотерических способов, но даже их можно обойти, если браузер как-то это рендерит.