Здравствуйте, меня зовут Максим Кульгин. Моя компания xmldatafeed.com занимается парсингом много лет. На днях мы вернули 16 000 руб. клиенту, так как не смогли парсить весь iherb.com с нужной клиенту скоростью. Проверил и оказалось, что это единичный случай за весь год и родилась эта, чуть-чуть философская статья.
Борьба парсингом не только для защиты контента, но защита от паразитной нагрузки.
Автор прав, что от парсинга невозможно защитится на 100%. Все способы защиты "временные" и обходятся от 1 часа до пары недель. Те кто по ту сторону парсинга (защищают сайты) знают об этом, и мыслят не "запретом парсинга", а стараются сделать парсинг максимально дорогим.
Я был по обе стороны баррикад, и знаю, что ежемесячно затраты на команду и инфраструктуру могут обходиться в миллионы рублей (у кого-то и в десятки миллионов).
Себестоимость парсинга высокая и продолжает рости из-за того, что всё больше сайтов используют защиту.
В итоге вы никогда не распарсите за приемлемое время крупный сайт за 14 000 рублей. Для окупаемости нужно результаты парсинга одного сайта продавать сразу нескольким клиентам, а также иметь достаточно клиентов, чтобы окупать инфраструктуру.
В итоге парсинг доступен только большим игрокам, которые стараются быть незаметными и не создавать нагрузки на сайт.
Итого: защита от парсинга на самом деле нужна, как дополнение к защите от DDoS, чтобы срезать трафик, который создаёт нагрузку на сайт, а также защищаться от слива маркетинговых бюджетов защищая формы от всяких SMSBomber'ов и прочего.
Так что скажите спасибо вашим коллегами по цеху за то, что вам приходится нести ежедневные затраты на обход защиты.
"Продавать результаты парсинга" нелегально во всех странах мира без исключения.
Сам по себе парсинг, кое где, легален, при условии если результаты используются легальным образом. А вот продажа результатов парсинга - это нелегальная деятельность абсолютно везде. Даже в Северной Корее и Саудовской Аравии (притом что в СА очень специфическое зак-во по IP)