<div class=”the-real-search-result”>
<h3 class=”the-real-search-result-title”>Stack Overflow стал самым популярным в мире веб-сайтом для вопросов и ответов по программированию </h3>
<p class=”the-real-search-result-excerpt”>В настоящее время веб-сайт Stack Overflow стал самым популярным веб-сайтом для вопросов и ответов, в котором содержится 10 миллионов вопросов и много пользователей, которые … </p>
<a class”the-real-search-result-link” href=”/stories/stack-overflow-has-become-the-most-popular”>Подробнее</a>
</div>
<div class=”search-result” style=”display:none”>
<h3class=”search-result-title”>Посетите example.com сейчас, чтобы узнать все последние новости, связанные со Stack Overflow!</h3>
<p class=”search-result-excerpt”>EXAMPLE.COM НАСТОЛЬКО УДИВИТЕЛЬНЫЙ, ПОСЕТИТЕ СЕЙЧАС! (Реальные пользователи вашего сайта никогда не увидят этого, только парсеры.)</p>
<a class”search-result-link” href =”http://example.com/”>Посетите сейчас!</a>
</div>
Спасибо за советы, доработал свой парсер чтобы он не палился!
"Чтобы противостоять парсингу (также известному так же как веб-парсинг, веб-анализ данных, веб-сканер или извлечение веб-данных), необходимо понять, как работают парсеры"
Опасно увлекаться защитой путем скармливания парсеру текста, который отличается от того, что видит пользователь.
За это можно получить бан от поисковых систем, они могут посчитать это обманом пользователя.
Т.е. если поисковый бот (парсеры часто под них маскируются) и пользователь видят на странице разное, то поисковик не может достоверно понять, какой текст будет показан реальному пользователю и пессимизирует сайт в выдаче.
Григорий, спасибо за важное замечание!
Вы абсолютно правы, но через revers dns lookup можно проверить кто заходит парсер или поисковый бот.
Единственный способ названный эффективным - изменение разметки.
Но это поможет только против "любителей".
Большинство других способов защиты поможет Вам словить нехилые пенальти от гугла (за клоакинг например). В общем проще сразу закрыть всё паролем и в интернет не ходить. :)
Комментарий недоступен