Как и зачем бороться с прямым роботным трафиком: 5 рабочих вариантов

Наверняка многие владельцы сайтов, вебмастера, интернет-маркетологи и другие специалисты, отслеживающие трафик ресурса, замечали резкий подъем прямых заходов, который может быть ассоциирован с роботами.

В отчетах Яндекс.Метрики этот неконтролируемый всплеск выглядит так:

Как и зачем бороться с прямым роботным трафиком: 5 рабочих вариантов

Так выглядит более реальная динамика прямых заходов при отключении роботов для отображения на графике:

Как и зачем бороться с прямым роботным трафиком: 5 рабочих вариантов

Оговоримся, что Яндекс.Метрика фильтрует роботов по своим алгоритмам Мы не раз обращали внимание, что некоторые реальные переходы не попадают в отчет с поведением “Только люди”, поэтому назвать 100% прозрачным этот отчет мы не можем. Тем не менее, он позволяет сделать вывод об объеме роботного и настоящего прямого трафика сайта.

А вот так выглядит отчет за аналогичный период по роботам, которые были отфильтрованы по поведенческим факторам:

Как и зачем бороться с прямым роботным трафиком: 5 рабочих вариантов

Что говорит Яндекс?

Поддержка Яндекс.Метрики заверяет, что современные алгоритмы не обращают внимания на роботов. Как и раньше, они не считают резкий рост ботов за попытку накрутки трафика. То есть, такая активность не должна приводить к понижению качества сайта с точки зрения поисковых систем.

Мы задали вопрос в поддержку Яндекс.Вебмастера:

Как и зачем бороться с прямым роботным трафиком: 5 рабочих вариантов

…и получили ответ:

Как и зачем бороться с прямым роботным трафиком: 5 рабочих вариантов

Что видим мы?

Проанализировав десятки сайтов, мы пришли к выводу, что такая роботная активность может негативно сказаться на состоянии сайта: его позициях, посещаемости и качественных показателях визитов.

Например, на один из наших сайтов по прямому каналу «набежали» роботы в декабре 2023 года:

Как и зачем бороться с прямым роботным трафиком: 5 рабочих вариантов

До января их активность никак нами не прерывалась, что привело к спаду позиций.

Позиции ноября, где роботы ещё не активничали:

Как и зачем бороться с прямым роботным трафиком: 5 рабочих вариантов

Позиции января, где однозначно понятно, что качество ботного трафика декабря негативно повлияло на позиции сайта:

Как и зачем бороться с прямым роботным трафиком: 5 рабочих вариантов

В январе мы поняли, что нельзя больше терпеть - пора гнать роботов с сайта вон!

После наших работ позиции снова пошли вверх:

Как и зачем бороться с прямым роботным трафиком: 5 рабочих вариантов

Роботы портят качество трафика – растёт показатель отказов, уменьшаются средняя длительность сеанса и количество просмотренных страниц.

Показатель отказов вырос с 18% в ноябре до 65,7% в декабре:

Как и зачем бороться с прямым роботным трафиком: 5 рабочих вариантов

Глубина просмотра уменьшилась с 1,5 страниц за сеанс в ноябре до 1,2 в декабре:

Как и зачем бороться с прямым роботным трафиком: 5 рабочих вариантов

Время на сайте уменьшилось с 1:17 минут в ноябре до 0:53 минут в декабре:

Как и зачем бороться с прямым роботным трафиком: 5 рабочих вариантов

Устранение вредоносных ботов очищает карму трафика, что положительно влияет на него и, как следствие, на позиции сайта.

Есть и противоположная ситуация, когда очистка ботов приводит к провалу в позициях. В этом случае наше предположение сводится к тому, что алгоритмам Яндекс источник трафика не принципиален.Если он растёт, то это свидетельствует (для ИИ Яндекс) об улучшении качества сайта; спад же сигнализирует о том, что сайт становится хуже.

Таким образом, что бы мы ни делали – боролись или не боролись с ботами – позиции неизбежно падали. Ситуация кажется безвыходной.

Бесконтрольный рост прямых роботных заходов портит качество трафика, как мы отметили выше. Средняя длительность сеанса и среднее количество просмотренных страниц уменьшаются, а показатель отказов, наоборот, растет. Поведенческий фактор достаточно важен для Яндекс, и его прокачка белыми методами даёт положительные результаты, но такие роботы могут его существенно подпортить.

Да, устранение ботов может повредить позициям, но временно. Кроме того, присутствие неестественного неуправляемого трафика затрудняет его прогнозирование и регулярный контроль, поэтому “Отсекать надо точно”, – утверждают наши специалисты.

Для себя в Адверт-Про мы приняли решение вовремя выявлять эту проблему и решать несколькими проверенными вариантами, каждый из которых хорош по-своему.

Вариант 1, фильтрация по IP

Способ старый, простой и достаточно рабочий. Выявляем, из каких сетей приходит большое количество роботов на сайт и блокируем подозрительные IP-адреса или целые диапазоны.

Минусы:

  • есть вероятность отрубить диапазон живых пользователей;
  • спамеры купят новые IP-адреса и блокировать придётся регулярно, десятками тысяч.
Как и зачем бороться с прямым роботным трафиком: 5 рабочих вариантов

Вариант 2, подключение CAPTCHA

Ещё один базовый вариант снижения трафика на сайт. Включение CAPTCHA на сайте может помочь убедиться, что посетитель является человеком, а не ботом. Существуют различные формы CAPTCHA, включая текстовые задачи, изображения и последние разработки, такие как reCAPTCHA от Google.

Минусы:

  • может раздражать пользователей и снижать таким образом естественные поведенческие факторы;
  • замедляет работу сайтов, которые находятся на слабых серверах, так как является дополнительным скриптом;
  • простые капчи боты поумнее уже научились обходить.

Вариант 3, фильтрация сетей на уровне DNS

Мы фильтровали DNS-записи типа А, которые основаны на IPv4. Чаще всего спам-атаки ботами идут именно с IP-адресов четвертой версии: их очень много, они дешевые, в большинстве случаев располагаются на неконтролируемых серверах и спамеры покупают их сотнями тысяч. Фильтровать их способом 1 можно, но бессмысленно именно по причине их многочисленности. Поэтому мы у некоторых сайтов, особенно пострадавших от атак прямыми заходами, удалили все записи типа А и оставили только АААА (IPv6). Результат выглядит так:

Как и зачем бороться с прямым роботным трафиком: 5 рабочих вариантов

Минусы:

  • есть вероятность отсечь реальных пользователей, но мы не заметили спада в заявках, а значит пока не стреляли себе в ногу отсекали IP реальных пользователей;
  • резкий спад трафика ведёт к спаду позиций - неизбежному, но временному.

Вариант 4, настройка 301 редиректа

Способ мега-рабочий, если спам-трафик идёт только на одну страницу сайта. В этом случае не принципиально, какая страница страдает – главная, категория или карточка товара.

Когда мы столкнулись впервые с тем, что боты ломятся не равномерно на весь сайт, а на конкретную страницу, хотели по-старинке заблокировать сети IP, но решили провести эксперимент – и не прогадали!

Гипотеза эксперимента состояла в том, что если вследствие наших стандартных работ спамеры заметят смену отклика страницы с 200 на 404, либо пустят новых ботов с новых сетей, либо атакуют другую страницу. А если мы перенаправим этих ботов на любую другую страницу с откликом 200, то с сайта они уйдут, но продолжат “думать”, что задание по атаке выполняется корректно.

Таким образом, мы перенаправили все прямые заходы с пострадавшей главной страницы на карточку организации в Яндекс.Бизнес. Реальные пользователи могли перейти на сайт по ссылке из карточки, боты подмены не заметили, а Яндексу с его ресурсами и алгоритмами, которые игнорируют ботов, такая наша доработка совершенно не повредила.

Результат выглядит так:

Как и зачем бороться с прямым роботным трафиком: 5 рабочих вариантов

Вариант 5, создание на стороны сайта системы типа Cloudflare

Сервисы Cloudflare, работающие как обратный прокси для сайта, служат мощной защитой от DDOS-атак. Их используют многие компании как зарубежом, так и на российском рынке.

Среди плюсов – конкурентная стоимость обслуживания и наличие бесплатного тарифа, надежность, возможность отсечь ботов до их попадания на сайт.

Минусы:

  • прямая зависимость работоспособности сайта от работоспособности сервиса;
  • сложности с оплатой из России – нужна зарубежная карта;
  • возможные проблемы при работе с контролируемым привлечением на сайт роботов для решения разных задач.

Результаты доработки:

Как и зачем бороться с прямым роботным трафиком: 5 рабочих вариантов

Наши программисты настраивают аналогичные Cloudflare системы с нуля на сайтах, для которых ни один для перечисленных выше способов не подходит по крайней мере на 85%. Это долго и достаточно трудозатратно, но эффективно для сайтов, которые регулярно подвергаются нападениям со стороны конкурентов.

Это не исчерпывающий список способов побороть роботные заходы на сайт, но самые действенные, с нашей точки зрения. Также мы применяем и другие варианты, в зависимости от множества параметров сайтов:

  • Использование файла robots.txt. Это стандартный файл, который указывает поисковым системам, какие части сайта следует индексировать. Хотя этот файл не блокирует ботов напрямую, он служит инструкцией для них и может помочь избежать лишней нагрузки на ресурс.
  • Использование сложных JavaScript тестов. Некоторые сайты включают сложные JavaScript вычисления или тесты, которые должен выполнить браузер. Это может помешать работе простых ботов, которые не могут обрабатывать JavaScript.
  • Проверка HTTP-заголовков. Боты часто оставляют уникальные следы в HTTP заголовках своих запросов. Например, многие боты не могут правильно обрабатывать cookie, что можно использовать для настройки системы их блокировки.
  • Списки блокировки и разрешений. Иногда мы используем черные списки IP-адресов не только по их диапазонам или сетям, но и по целым странам, если понимаем, что получаем нецелевые переходы. Да, пользователи могут использовать VPN, и в этом случае необходимо действительно убедиться в правильности настроек перед установкой запрета на переход.

Эти методы можно комбинировать для создания многоуровневой защиты от ботов, дополнять другими и создавать индивидуальные планы защиты под каждый продвигаемый сайт.

Мы перечислили наших фаворитов в борьбе с прям роботным трафиком. А вы сталкивались с резким ростом ботов на сайте? Расскажите в комментариях о своём опыте его исключения и последствиях таких доработок!

1919
22 комментария

ipv4 намного дороже ipv6.
Блокировать по ip нет смысла. Смена ip идёт каждые несколько минут, в средне - от 2 до 5. Банить же целыми подсетями - это даже не выстрел в ногу.
Капчу боты обходят, там подключены сервисы антикапчи.
Вообще говоря, нету сейчас полноценной защиты. Можно лишь максимально усложнить ботоводу жизнь, и надеяться, что он психанет и сайт из списка удалит.

2

ipv4 намного дороже ipv6.
Перечитали. Поняли, что формулировкой запутали. Не сами адреса на IPv4 дешевле, а магистральное оборудование v4 маршрутизации дешевле. Потому их чаще для спама используют.
Блокировать по ip нет смысла. Смена ip идёт каждые несколько минут, в средне - от 2 до 5. Банить же целыми подсетями - это даже не выстрел в ногу.
Тут в большей степени согласны. Банили очевидно спамными сетями после вычислениях их с помощью форумов и масками. Помогло немного, временно, оставили у себя как кейс на благо будущих поколений.
Капчу боты обходят, там подключены сервисы антикапчи.
Зависит от обученности, пожалуй. Нам на нескольких сайтах помогла, но там и роботов было не критично много.
Вообще говоря, нету сейчас полноценной защиты. Можно лишь максимально усложнить ботоводу жизнь, и надеяться, что он психанет и сайт из списка удалит.
Точно! Ждать, пока нечестный игрок выйдет из себя можно, пока параллельно тестируешь разные варианты блокировки. Битва терпеливых интеллектуалов может затянуться, а сайт страдает здесь и сейчас.

Вы упомянули блокировку IP адресов; как избежать случайной блокировки настоящих пользователей?

2

Рекомендуем использовать гибкие настройки блокировки, тщательно отслеживать не только количественные, но и качественные показатели трафика, а также проверять сеть блокируемых IP – в интернете регулярно появляется информация о сетях и списках адресов, которые активно используют для бот-атак.

Какие инструменты наиболее эффективны для выявления роботизированного трафика?

1

В Яндекс.Метрике есть отчеты по роботам и нагрузке сайта, которые можно наложить на отчеты по посещаемости и оценить роботное влияние. Также рекомендуем обращать внимание на качество переходов. В частности, на длительность сеанса и показатель отказов – роботы заходят на сайт и сразу после регистрации посещения с него уходят.

Могли бы вы подробнее объяснить, какие последствия может иметь нефильтрованный роботный трафик для аналитики сайта?

1