wpbot - ищет страницы WordPress на сайте. При нагугливании не совсем понятно, чем именно бот занимается, но активность подозрительная. Возможно, ищутся все сайты нв WordPress в интернете, чтобы потом было понятно, кого взламывать.
GuzzleHttp - Библиотека PHP для удобной отправки запросов на сторонние сайты. Как правило, для сбора данных.
Konturbot - Бот kontur.ru. Собирает коммерческие данные.
BlackWidow - Программа для сканирования содержимого страниц.
bidswitchbot - предопложительно, инструмент маркетологов для анализа данных на сайтах.
SurdotlyBot - Сервис, позволяющий подменять внешние ссылки на сайте так, чтобы при переходе по ссылке пользователь не покидал ваш домен. Польза сомнительная, но если не пользуетесь, то лучше в блок.
BackupLand - бот одноименного сервиса, который делает бэкапы сайтов и собирает их в своей базе данных.
Iframely - Бот сервиса Iframely собирает контент страниц для дальнешей передачи этих данных в новостные издания, блоги и т.д. Так сказано на их официальном сайте. Есть еще одноименный плагин на WordPress.
Palo Alto Networks - Подписывается так: Expanse, a Palo Alto Networks company, searches across the global IPv4 space multiple times per day to identify customers & presences on the Internet.
Dataprovider.com - краулер компании Dataprovider.com. Собирает базу данных о сайтах по более 200 параметрам. На основе собранных данных предлагает свои аналитические услуги.
America Online Browser - еще один бесполезный браузер в СНГ, который собирает сайты и добавляет в базу.
MixRank - сервис предоставляет аналитику поведения посетителей сайтов.
Mj12bot - бот поисковой системы Majestic. Собирает данные для добавления сайтов к себе в выдачу. В СНГ не пользуется спросом, но запросы может посылать часто.
DuckDuckBot - сканер поисковой системы DuchDuckGo. Если не стоит задач продвигать сайт в этой поисковое системе, то лучше блокировать робота, так как запросы может посылать очень часто.
Barkrowler - собирает данные для машинного обучения. Создает лишнюю нагрузку, поэтому лучше в блок.
AwarioSmartBot и AwarioRssBot - Собирает и обновляет данные о сайтах в коммерческих целях.
axios - бот языка Node.js, который посылает запросы к файлу ads.txt (при наличии такового).
l9scan - сервис по обеспечению защиты сайтов. Посылает периодические запросы и создает лишнюю нагрузку. Блокировать.
Go-http-client - бот, который ищет уязвимости на сайте. Обращается к разным страницам и пытается найти среди них технические и серверные файлы. Опасно, лучше блокировать.
GPTBot - куда ж без него. Бот компании OpenAI. Собирает данные для обучения ChatGPT. Если не стоит задача обязательно попасть в текстовую выдачу ChatGPT, то можно блокировать боту доступ.
Bytespider - AI-модель компании ByteDance (создатель TikTok). Собирает информацию о сайтах для обучения ИИ-алгоритмов ТикТока.
ZoominfoBot - бот аналитической платформы Zoominfo, которая предоставляет "полезные" инструменты для бизнеса. Для реализации своих задач спамит сайты запросами и собирает информацию.
FlipboardRSS - бот проекта Flipboard (не сильно популярной ленты новостей). Толку мало, а нагрузку на сайт может создавать большую.
FlipboardProxy - тоже Flipboard. Собирает информацию о том, как выглядит сайт.
Scrapy - парсер данных со сторонних сайтов. Может запускаться разработчиками и аналитиками, как добросовестными, так и нет.
SafeDNSBot - Бот SafeDNS. Предоставляет услуги защиты сайтов от кибератак. Спамит сайт обращениями с непонятной целью.
GetIntent - AI платформа, которая проводит аналитику сайтов.
Cloudfind - бот одноименного проекта. Ищет потенциальных партнеров для партнерского маркетинга.
niraiya.com - Проверяет сайт на утечки паролей и продает данные.
YaK - Бот компании LinkFluence. Собирает статистические данные в коммерческих целях.
MBCrawler - Бот проекта MonitorBacklinks. Собирает входящие ссылки на сайт, чтобы показывать эту информацию SEO-специалистам. Может создавать большую нагрузку.
BLEXBot - собирает данные о сайтах для коммерческой продажи.
NetcraftSurveyAgent - Толковое описание бота найти не удалось, но Netcraft - это зарубежная компания, занимающаяся обеспечением кибербезопасности. Получается, что SurveyAgent - это их исследовательский сканер, который собирает информацию о сайтах в интернете.
DotBot - Бот сервиса Moz. Собирает информацию о сайтах для SEO и маркетинга.
ImagesiftBot - Сканер изображений на сайте. Ищет ключевые фразы и атрибуты alt в картинках в коммерческих целях. Может запускаться для поиска ключевых фраз конкурентами.
Все красиво и подробно, только вот в конце смазали все впечатление. Рассказывали про сканеры и парсеры, а потом приплели Cloudflare и возможность показа капчи, причем как будто это что-то плохое, в умелых руках. Это лучше, чем просто банить всю подсеть в htaccess.
Это не лучше. Пользователи отваливаются, конверсия падает. При наличии платного трафика ваш Cloudflare - это вообще убытки.
И все из-за нежелания «банить всю подсеть».
Трафик - дело тонкое.
А как заблокировать ботов, аналитику сайтов изнутри сети? Что бы пользак хоть лазиет где попало, не пополнял статистику сайтов и метрик?
Не понял, объясните по-другому.
Если на уровне сервера их блочить, то у них не будет доступа к страницам. Статистику метрик они портить не будут, потому что скрипты статистики загружаются на фронте, на странице, в которую бот достучаться не сможет.
Другой вопрос, если они уже просочились и имитируют пользовательскую активность. Тут уже надо ставить отслеживание движения курсора и вычислять подозрительное поведение. А дальше алгоритм тот же - банить по IP, user agent-ам и прочему.