Рост ботных переходов на сайт, как интерпретировать и что делать?

Руководитель отдела поисковой оптимизации и развития партнёрской сети торговой площадки «Price.ru» Логанов Денис Николаевич и руководитель отдела разработки платформы «Ситилинк» Осипов Константин Васильевич, расскажут про атрибуции роботного трафика, его последствиях и методах борьбы.

За последние несколько лет доля ботного трафика резко выросла. По данным Barracuda technology за первые шесть месяцев 2021 года, автоматизированные сессии составляют почти две трети интернет-трафика. Примерно 25% этого объёма приходится на известных хороших ботов, таких как поисковые роботы, боты социальных сетей, боты мониторинга и т.д. Однако, почти 40% трафика в целом было от плохих ботов, которые несут угрозу сайтам.

Плохие боты созданы для выполнения различных вредоносных действий. Они атакуют учетные записи пользователей (сбор персональных и финансовых данных), влияют на органический трафик, искажают аналитику, воруют контент, воздействуют на системы рекомендаций, тратят маркетинговые бюджеты на отправку SMS и выводят из строя сервера. В связи с активным ростом проблемы, решили поделиться своим опытом выявления данного тренда и мыслями в этом направлении.

Simple – идут с одного IP-адреса и провайдера. Переходы осуществляются с использованием автоматических сценариев и не добавляются различные данные для имитации человека, называемые fingerprint - это данные: user-agent, размер экрана, тип устройства и т.п.
Medium – более сложные боты, этот тип использует программное обеспечение, которое имитирует технологию браузера, включая возможность выполнения JavaScript.
Hard – совершают движения мыши и щелчки, которые обманывают даже сложные методы обнаружения, эти плохие боты мимикрируют под поведение человека и являются наиболее уклончивыми. Они используют программное обеспечение для автоматизации и могут взламывать сайты по типовым уязвимостям CMS. Далее в зависимости от целей, они могут, писать комментарии, рассылать спам, создавать страницы с рекламой.
Hardcore - это комбинация medium и hard ботов. Они, как правило, циклически меняют IP-адреса, используют анонимные приватные прокси, децентрализованные сети и хранят свой уникальный fingerprint. Боты развивают его с помощью "белых" посещений сайтов аналогично обычному человеку. После получения качественной истории fingerprint, бота практически невозможно отследить при правильной настройке. Очистить сайт на 100% от таких переходов не представляется возможным.

Разберём по пунктам виды ботных переходов:

Для накрутки поведенческих факторов (ПФ) используются переходы ботов по заданному алгоритму. Чтобы данные боты были наиболее похожи на естественный трафик, применяется прокачка профилей.

Ваш сайт может попасть в файл нагула профилей определённой тематики. В следствии чего, вы можете заметить рост прямых заходов (type-in) или реферальных переходов из социальных сетей. Эти 2 метода наиболее популярные для выполнения первого перехода для прокачки профиля.

Выглядит это так:

В целом реферальным источником может быть любая площадка, не обязательно социальные сети.

Если вы заметили аномальный рост (от 50% и более) ботного трафика с большим процентом отказов на свой ресурс, то рекомендуется принять меры. На ряде проектов был замечен явный негативный тренд по позициям и трафику, после обнаружения кратного роста роботных переходов. Хоть «Яндекс» в переписке говорит нам обратное. Так же появление новой метрики в «Яндекс»: "Отфильтровано по поведенческим факторам", никак не повлияло на текущее положение дел.

Что можно предпринять:

1) Часть такого трафика получается срезать по средствам настройки и подключения сервиса CloudFlare.

Программа CloudFlare имеет 4 тарифа:

Free
Pro ($20/месяц)
Business ($200/месяц)
Enterprise (по запросу)

На тарифах Pro и Business есть раздел Bots.

В данном блоке показывается статистика по трафику в разрезе определения ботов по вашему проекту.

Отчет бота включает в себя 4 типа трафика:

Автоматический трафик (Automated) - плохие боты. Используется эвристика, машинное обучение и другие методы для определения таких запросов. В большинстве случаев такой трафик вредит вашему сайту.
Вероятно, автоматический трафик (Likely Automated).
Человеческий (Likely Human).
Проверенный трафик ботов (Verified bot) - поступает от поисковых ботов, платёжных систем в Интернете (Google, Yandex, PayPal и так далее).

Все эти данные также доступны через GraphQL и вы можете выгружать их через API.

На тарифе Pro - программа будет защищать только от автоматизированного трафика (Automated).

На тарифе Business – вы получаете доступ к новой версии Bot Analytics, предназначенной для защиты от ботов. Бизнес версия программы глубже сортирует ботный трафик и имеет больше настроек.

Перейдя в раздел Automated можно посмотреть детальный отчёт по переходам. Вы можете проанализировать трафик по типу, настраивать временные рамки и фильтровать по различным атрибутам, таким как IP – адрес, категория, user-agent и т.д.

Самая главная разница между Pro и Business версией, в фильтрации на автоматический трафик и вероятно автоматический трафик.

В чем разница? Последнее включает запросы, распознанные механизмом машинного обучения CloudFlare. Эти запросы часто поступают от сложных ботов — тех, которые обходят простые инструменты безопасности, меняя IP-адреса, User-agent, входят через анонимные прокси и убедительно имитируют людей.

В бесплатной версии нету защиты от ботов (кроме базовой от DDoS-атак с пропускной способностью до 90 Тбит/с), отчёта и настроек фильтрации - Configure Super Bot Fight Mode. В ней только можно делать маски и правила вручную. В целом если вы изучили логи вашего сайта и нашли закономерность, по которой можно заблокировать большую часть ботного трафик, то это можно сделать на стороне сервера или во Free версии CloudFlare.

2) Зачастую, полностью этот сервис проблему не решает.

Так как эксперты в работе с поведенческими факторами научились очень грамотно работать с прокачкой профилей (нагулом). Они меняют: user-agent, IP-сети, устройства, длину сессии, разрешения и так далее. В следствии чего никакая система защиты не может сматчить весь этот трафик, как ботные переходы. В этом случае мы рекомендуем дополнительно не подгружать счетчик Яндекс Метрики для type-in и реферальных переходов без куки. Обычно просят выбрать город или другой аналогичный функционал.

В совокупности эти 2 подхода дали положительную динамику и восстановление видимости проектов в поисковых системах.

В работе с поведенческими факторами так же могут применять технологию скликивания конкурентов. В счётчике метрики вы можете заметить кратный рост переходов, по ключевым словам, с большим процентом отказов.

Данный вид переходов наносит самый явный урон сайту с точки зрения влияния на ранжирование в поисковых системах. В случае выявления данной проблемы (на больших объёмах от общего трафика), рекомендуется подключить сервис CloudFlare (метод описан выше) и параллельно выравнивать CTR, сессии и глубину при помощи собственной накрутки ПФ.

Эти типы атак объединяет большое количество запросов на сайт, близкое к срабатыванию традиционной защиты от DDoS. Такие атаки могут приводить не только к проблемам в работоспособности сайта, но и к прямым финансовым или репутационным потерям. Разберём подробнее, самые популярные примеры таких атак и способы борьбы с ними.

На большинстве ресурсов есть форма регистрации или авторизации по номеру телефона с подтверждением по SMS, когда пользователь выводит номер телефона и ему приходит sms сообщение с секретным кодом. Например, такая:

При этом во многих крупных компаниях достаточно большие бюджеты на отправку sms-сообщений и они даже не подозревают, что их сайт используется в лучшем случае для розыгрышей своих приятелей, а в худшем случае для нанесения репутационных и финансовых потерь. Делается это путём бесконечной отправки кодов на все существующие номера телефонов.

На github есть бесчисленное множество готовых программ для рассылки sms-спама. Вот некоторые из популярных программ и их баз данных сайтов, используемых при атаках (можете поискать свой сайт в списке):

Целью злоумышленников является вывод в рекомендации сайта определённых товаров или бренда. Для этого с помощью ботов искусственно накручиваются просмотры товаров или действия по добавлению товара в корзину.

В итоге, пользователи видят в рекомендациях не популярные товары или услуги, а те, которые были накручены ботом. Из-за этого работа рекомендательной системы может ухудшиться, что обернётся большими убытками.

Веб-скрейпинг (web scraping) – это парсинг доменов при помощи ботов, которые воруют контент. Обычно они выполняют GET-запросы на целевой URL, c целью извлечения данных.

Тут надо понимать, что это целая индустрия и защититься от парсинга и кражи контента полностью просто невозможно. Но это не значит, что защищаться бесполезно. Например, если у вас интернет-магазин с 100 000 SKU и у вас нет никакой защиты от парсинга, то это вопрос времени, когда ваш сайт начнёт испытывать проблемы с доступностью т.к. вам будут неожиданно прилетать тысячи запросов в секунду, создавая проблемы с доступом для нормальных клиентов.

(пример локального всплеска активности ботов, где пришло >40 запросов в секунду от ботов)

Здесь задачи у парсеров и владельцев сайтов полностью противоположные:

Задача парсеров: собрать всю информацию с минимальными затратами и за максимально короткие сроки.
Задача владельцев ресурсов: сделать парсинг максимально дорогим, долгим и трудоёмким.

Крупные участники рынка не так страшны, т.к. они стараются быть незаметными и не создавать проблем для работы ваших сайтов, а вот средние и мелкие максимально опасны, т.к. могут в миг положить ваш сайт проводя свои эксперименты.

Способы борьбы с этим типом атак:

Традиционные способы защиты от DDoS тут будут не эффективны, т.к. общее количество запросов от ботов будет не сильно выбиваться из общей статистики, но эти запросы буду наверняка самыми тяжелыми для обработки вашим backend или дорогими, как в случае атак через SMS bomber.

В борьбе с этим типом атак поможет активная проверка через Java Script, которая при первом заходе будет незаметно для пользователя проверять что браузер реальный и только в случае успеха показывать ваш сайт.

На платных тарифах CloudFlare также доступен WAF, который позволяет гибко ограничивать доступ к сайту для определённых стран. Например, если ваш сайт ориентирован на аудиторию СНГ, то вы можете ввести требование вводить Captcha для пользователей из других стран. Это будет выглядеть так:

Или так:

Такие ограничения сделают парсинг вашего сайта максимально дорогим и сложным, но всё же не невозможным.

Ddos - целенаправленная атака за счет резкого увеличения запросов к сайту, с целью нарушения работы сервера.

Сервис CloudFlare на бесплатной версии предоставляет неограниченное предотвращение DDoS-атак с пропускной способностью до 90 Тбит/с. В Pro и Business версиях добавляются оповещения и WAF защита.

Подобный сервис защиты предоставляет и компания Qrator, но уже на платной основе, где в зависимости от тарифа доступны следующие опции:

Предотвращение DDoS-атак с пропускной способностью до 3000 Гбит/с
Скорость реакции: от 30 секунд до 3 минут
<5% ложных срабатываний в процессе нейтрализации DDoS-атаки и около 0% в обычное время
SLA: до 99,95% (в зависимости от тарифа)

<p>(пример отражения крупнейшей за всю историю DDoS атаки ботнета «Mēris»)</p>

С недавнего времени в Qrator появилась еще и собственная система защиты от ботов. По непонятным причинам они её не особо пиарят, даже не все существующие клиенты в курсе новой услуги.

Нам удалось посмотреть презентацию этой системы ещё на этапе beta-тестирования. На наш взгляд, она даёт по сравнению с CloudFlare возможность задавать более гибкие и сложные правила блокировки или разрешения трафика. Для опытных пользователей эта система управления будет более привычна и удобна из-за своей схожести с типичными Firewall, удобством управления большим количеством правил и тестированию правил на % трафика. Но вот для людей далёких от IT, интерфейс может показаться сложнее чем у CloudFlare.

Есть и другие компании, которые специализируются конкретно на защите от ботов – например Variti. У них, несомненно, есть свои фишки, которые лучше помогают отфильтровывать ботов, но, к сожалению, этому есть цена – увеличение ложных срабатываний, когда ваши нормальные клиенты не могут получить доступ к сайту.

Есть различные сервисы краулинга, анализа и мониторинга сайтов.

Пример такого рода ботов:

ltx71 - (http://ltx71.com/)
ias-va/3.1 (+https://www.admantx.com/service-fetcher.html)
WinHttp-Autoproxy-Service/5.1
Expanse, a Palo Alto Networks company, searches across the global IPv4 space multiple times per day to identify customers' presences on the Internet. If you would like to be excluded from our scans, please send IP addresses/domains to: scaninfo@paloaltonetworks.com
SeopultContentAnalyzer/1.0
UserAgent не заполнен
Mozilla/5.0 (compatible; SemrushBot/7~bl; +http://www.semrush.com/bot.html)
Mozilla/5.0 (compatible; Adsbot/3.1; +https://seostar.co/robot/)

В целом на большинстве серверов и сайтов данные переходы никак не отражаются. Но если вы хотите сократить нагрузку на ваш сервер или защитить контент от копирования, то рекомендуется понизить приоритет для таких ботов или вовсе заблокировать их. Сделать это можно на стороне сервера (анализируя логи), автоматически в бизнес версии CloudFlare или в бесплатной, используя правила.

ВЫВОД: Прежде чем предпринимать какие-то меры, необходимо понять природу трафика, его количество и метрики. Не все виды и объёмы ботных переходов критичны для проекта. Правильно выполненный анализ проблемы, позволяет с минимальными ресурсами найти верное целевое решение. Плохие боты составляют значительную часть трафика веб-сайтов, и их обнаружение и блокировка имеет важное значение для бизнеса.
Логанов Денис Николаевич
, Руководитель отдела поисковой оптимизации и развития партнёрской сети торговой площадки «Price.ru»

#сервисы #маркетинг #seo #технологии #защита_данных