А как насчёт роботов, которые напускают на сайты эти ребята: Google, Bing, Yand… (Ах, да! — Ya.ru), DuckDuckGo и другие? Их тоже заблокировать? Конечно, это глупый вопрос. Заблокировать поисковых роботов — всё равно, что заблокировать свой бизнес. Значит, надо как-то отличать одних роботов от других. Хороших от плохих. Да, ещё не забыть, что плохие будут мимикрировать под хороших.
Ждем статей от спамеров, почему спам полезен и нужен и как бессмысленно против него бороться.
И от кардеров с призывом выкладывать свои номера карточек на фейсбук. Обязательно с комментарием "мы работаем по белому"
скоро хочу опубликовать статью, как делают эти базы компаний.
для них уже греется отдельный котел ))
Как спам можно сравнить со сбором и обработкой публичных данных?
На самом деле весь парсинг можно переиграть и уничтожить в один клик с помощью связки сервисов Cloudflare + Antubot.Cloud.
Сайты, которые готовы отдавать свои данные по API - окай, парсите вдоль и поперек хоть круглосуточно, но на сайты с небольшой посещаемостью (менее 50к юзеров в сутки) как правило оказывается чрезмерная нагрузка на веб-сервер. По сути - паразитный трафик, который нужно чистить.
И так, в качестве первого барьера защиты будем юзать Cloudflare:
- разрешаем полный доступ всем известным ботам поисковых систем, социальных сетей, собственным серверам, api и так далее;
- принудительная проверка при попытке доступа к сайту из всех стран, кроме России (или стран на которые ориентирован сайт), а также блокировка по user-agent десятков сервисов анализа и мониторинга конкурентов;
- все запросы с ipv6 или по http получат принудительную проверку. Большие пулы адресов ipv6 можно получить очень дешево, чуть ли не бесплатно. Их используют для парсинга, накрутки и манипуляций, от которых мы хотим защититься. В мобильных сетях рунета ipv6 распространен очень слабо, в основном у МТС.
- трафик с протоколами ниже http/2 и все прямые заходы попадают на 5-ти секундную JS-проверку. Данное правило отлично фильтрует паразитный трафик и сотни тысяч тонн непотребства ежедневно.
К сожалению, Cloudflare не избавляет нас от хорошо продуманных поведенческих ботов, а это значит, что сайту могу скрутить поведенческие факторы и по прежнему украсть контент, спарсить цены и так далее. Специально для таких хитропопых имеется второй барьер защиты.
Переходим к настройке Antibot.Cloud:
- при высокой паразитной активности ставим срок жизни куков - 1 день;
- в блокирующие правила импортируем десятки известных user-agent'ов от популярных сервисов парсинга и анализа сайтов;
- включаем recapcha v3;
- в качестве проверки ставим кнопки с выбором цвета (упрощенная динамическая капча);
- проверяем запросы по get "q и text" - так часто ломятся боты с имитацией перехода из поиска Яндекса или Google;
- в принудительную проверку улетают все запросы к сайту без реферера и языка браузера.
Что имеем в итоге:
- защиту от поведенческих и спам-ботов;
- защиту от любых парсеров (любые прокси, http-заголовки и user-agent не имеют значения);
- защиту от фейк-ботов с user-agent как у официальных роботов поисковых систем;
- защиту от проксирования сайта дорвеями;
- проверку ботов по PTR-записям;
- значительное снижение нагрузки на веб-сервер;
- значительную очистку трафика от мусора;
- защиту от воровства контента и автоматизированной конкурентной разведки (вручную получить доступ к сайту все равно получится).
При этом большинство пользователей с белыми fingerprints, cookies и ip проходят проверку автоматически. Боты поисковых систем, шлюзы оплаты, и прочие "белые" боты вообще не видят наличия каких-либо фаерволов.
Сайт получается конкурентное преимущество, так как теперь вытягивать фишки, цены и контент можно только вручную, что просто отлично, ведь конкуренты будут тратить на это намного больше времени, сил и денег.
Оба сервиса облачные, так что все эти мусорные запросы даже не дойдут до веб-сервера на котором развернут сайт и застрянут в Cloudflare или Antibot'е.
Комментарий недоступен