Почему «более-менее»? Дело в том, что есть разные способы защитить свои данные от парсинга (или несанкционированного сбора). За много лет мы сталкивались с большим количеством решений, которые можно ранжировать от «безумных» (например, сайт отдает 30 страниц, а дальше IP — адрес блокирует на сутки, сильно замедляя парсинг), до очень простых, когда сайт может иногда попросить решить капчу. К каждому сайту нужен свой подход, но еще не встречались сайты, которые вообще нельзя парсить. Другое дело, что парсинг можно усложнить настолько, что вы просто физически в разумное время не сможете собрать данные, особенно если их много. Сразу подчеркну, что я за «человеческий» парсинг, который собирает данные, но не создает на сайте неподъёмной нагрузки по типу ddos. Статья ниже ориентирована на людей, которые сами не занимаются парсингом профессионально, но хотят понять основные механизмы, которые лежат в его основе.
Знавал я одних ребят, они не плохо вроде поднялись на "парсинге" (ну они правда еще там ранжирование какое-то придумали и в какую-то базу всё складывали) и результатами этого "парсинга" делились. Щас у них компания уже есть, вроде "Гугол" что ли называется, ну в общем давно они этим промышляют.
ахаххахаах
:)
Но зарабатывают они на другом, всё же.
Как-то делали одному клиенту сайт, собрали некую "ценную" базу. Клиент, конечно, не хотел чтобы база быстро и целиком утекла к конкурентам, попросил хоть какой-то защиты.
В итоге сделали некоторые триггеры на роботов и просто детектируя робота начинали отдавать ему мусорные данные (каждую характеристику из разной строчки БД). В итоге робот быстро нажирался левыми данными, которые от настоящих мог отличить только специалист, и уходил.
В итоге наша "извращенная" база за пол года расползлась по куче сайтов-конкурентов.
да :) это хорошая стратегия. Я такое встречал не один раз. Но очень сложная в реализации и поддержке.
Комментарий недоступен