Накрутка ПФ: новые фичи и большой апдейт Яндекса

В этой статье я расскажу что происходит с антифродом Яндекса, как эволюционирует накрутка поведенческих факторов, что работает, а что нет, как понизить роботность и заблокировать мусорный трафик на своем сайте. Как обычно: практическая информация, актуальные данные и инструменты. Поехали!

Что будем обсуждать

  • сбой в Яндекс.Метрика - рост роботности и некорректный учёт трафика;
  • новая модель формирования сниппетов в поиске;
  • новый виток развития накрутки ПФ - первые тесты;
  • эффективные методы очистки трафика от ботов и парсеров.

Я ещё застал золотое время когда ПФ крутили без нагуливания cookies и вообще не заморачивались с реальностью профиля в глазах поисковой системы.

Прямыми заходами почти никто не баловался, а термина роботность не существовало в природе. Сайты очень быстро выходили в топ зачастую без серьезных SEO-работ.

Сейчас всё намного усложнилось, но по прежнему продолжает работать, и накрутка помогает занять топ 1-3 в конкурентных тематиках, где есть трафик и деньги.

Яндекс пытается улучшить антифрод поиска

Антифрод — это комплекс мер для определения накруток в результатах поиска, скликивания рекламы, и борьбы с ним.

Накрутка поведенческих факторов стала обыденным явлением в Яндексе и начала процветать массово примерно с 2019 года. Кто-то попадал под массовую скрутку ПФ и прямые заходы, кто-то поставил фаервол на свои сайты и крутил в плюс занимая топы.

Всё линейно и никто ничему не удивляется. Но, 23 сентября великолепного 2021 года инженеры Яндекса решили выкатить новый параметр учета ботного трафика под названием "Роботность".

Всего в Яндексе есть три системы антифрода:

  • Антифрод Поиска;
  • Антифрод Директа;
  • Антифрод Метрики.

Как показала практика - все три системы вообще никак не связаны между собой и существуют изолированно. Они построены на технологиях машинного обучения и используют технические сигналы.

Как работают антифрод-системы Яндекса.
Как работают антифрод-системы Яндекса.

Это три нейронных сети, которые непрерывно получают и агрегируют огромное количество данных, а затем определяют кто робот, кто нет, кто скликал рекламу, кто нет. По мере обучения сетки происходят апдейты и в системах аналитики начинают меняться данные.

После осенних нововведений шло время и роботность при грамотной накрутке ПФ была довольно низкой. Тем более на другие каналы трафика это никак не повиляло. И тем более не влияло на результаты накрутки. ПФ как крутились, так и крутятся до сих пор.

Никаких официальных заявлений от Яндекса на данный момент нет, но 22 июня 2022 года был или большой апдейт или большой сбой.

В роботов теперь начали попадать:

  • все, кто заходит с инкогнито;
  • пользователи, оставившие реальные заявки и даже оплаченные заказы;
  • пользователи из других поисковых систем, в частности - Google;
  • пользователи с нетипичным поведением - кликают на политику конфиденциальности и прочие документы;
  • пользователи с устаревших или непопулярных браузеров;
  • пользователи, которые заходят с ПК через мобильный интернет.

И это только то, что удалось заметить мне по собственным и клиентским проектам. Некоторые сайты не крутили ПФ вообще никогда, при этом на них стоит защита от ботов, трафик был чистейший и тут резко в Метрике всплыло 60% "роботных" заходов.

Ещё одно интересное наблюдение - в отчете "Роботы" пропали строчки с Yandexbot.

Отчет "Роботы" в ЯМ.
Отчет "Роботы" в ЯМ.

При этом я вижу в статистике фаервола, что посещения официального бота Яндекса на мои сайты только увеличились.

Статистика фаервола.
Статистика фаервола.

Бонусом обновленная Метрика начала неверно учитывать трафик из Google. Если сравнивать GSC и GA, то расхождений практически нет. При сравнении аналитики из GA и Метрики данные рознятся в 1,5-2 раза день ото дня.

Данные из Метрики также перестали сходиться и с счетчиком Liveinternet. Фактически миллионы владельцев сайтов могли наблюдать за последнее время стагнацию поискового трафика из всех источников и ломать голову что пошло не так, хотя на самом деле всё в порядке.

Что имеем в сухом остатке на данный момент:

  • Метрика хорошо выявляет ботов, но накрутка ПФ работает как и раньше;
  • Метрика местами искажает данные;
  • много реальных людей идентифицируются как роботы в результате чего мы видим искаженную аналитику.
  • в Яндекс.Вебмастере количество кликов не совпадает с данными из Метрики;
  • после ручного добавления новой страницы в Вебмастер она почти моментально появляется в результатах поиска.

Будут ли все три системы взаимосвязаны? Выложена сырая версия алгоритма? Некорректно настроено обучение нейронок?

Ответы на эти вопросы знают только инженеры. Нам же остается констатировать факты и учитывать, что Яндекс намерен жёстче закрутить гайки на Поиске по тем или иным причинам.

Возможно, инженеры Яндекса осознали, что загнали себя в ловушку отдав приоритет поведенческим факторам при ранжировании в угоду обучения рекламных нейросетей Директа с последующим извлечением прибыли, и теперь хотят как-то выпутаться из этой истории.

Учитывая факт наличия дефицита нового серверного оборудования по вменяемым ценам и невозможностью получения лицензий на определенное ПО, возможен, но очень маловероятен, откат на 10-15 лет назад, когда в Яндексе отлично работали ссылки, а фактор ПФ не играл особой роли. Лично я в это слабо верю.

Поживём - увидим. Действовать нужно на опережение и использовать новейшие наработки по накрутке ПФ, о чём мы и поговорим далее.

Большое обновление сниппетов в Яндексе

С 16 июня 2022 года заметил увеличение размеров сниппетов в разных нишах. Средняя длина символов ранее составляла 190 символов. Сейчас 200.

Ещё одним нововведением являются новые заголовки в результатах поиска. Теперь Яндекс подставляет H2 и даже H3 в зависимости от интента, тем самым ещё больше персонализируя SERM. В Google подобная технология работает отлично, что видно по CTR на поиске и отказам на сайте. Как это будет работать в Яндексе покажет время.

На данный момент обновления по нишам происходят рандомно каждый день. Колебаний CTR вообще никаких замечено не было, но это пока что. Нужно анализировать изменения на больших объёмах трафика и временных отрезках.

Внедряем и тестируем новую методику накрутки ПФ

Накрутка через софт на базе ZennoPoster работает хорошо, можно эмулировать заходы с ПК, смартфонов с тачскрином, использовать разные мобильные прокси.

Результаты есть, но только в Яндексе, и не быстрые. В среднем на прокачку конкурентного кластера может уйти от 4 до 20 недель.

В софте на базе ZennoPoster имеется существенный изъян - генерация фейковых Canvas Fingerprint. Яндекс легко может учитывать эти параметры в антифроде, при этом история профиля, cookies и ip отходят на второстепенный план. Не прошёл проверку на Canvas Fingerprint = добро пожаловать в статистику по роботности.

Что такое Canvas Fingerprint и на что он влияет?

Canvas Fingerprint (CF) - это уникальный ID браузера, который генерируется с помощью HTML5 после скрытой прорисовки графики и анимации на веб-странице в браузере. CF ID используется для систем слежения за пользователями, обучению рекламных алгоритмов, сбору и аналитики информации о пользователях.

Проверить свой CF ID можно тут.

По данному ID можно идентифицировать устройство даже после чистки cookies и смены ip адреса.

Уникальность CF ID на разных устройствах достигается за счет того, что разные браузеры, операционные системы и видеокарты немного по-разному отрисовывают изображения и графику. В среднем уникальность CF ID составляет 90% между всеми пользователями.

Поэтому теперь наличие видеокарты в сервере для накрутки ПФ будет обязательным. Без видеокарты получить белый canvas fingerprint невозможно. При этом мощность и стоимость видеокарты роли не играют.

Canvas Fingerprint вообще не зависит от cookies, ip и режима инкогнито. Можно вычистить всю историю браузера - CF ID останется тот же и системы аналитики, сайты, поисковые системы, будут узнавать устройство.

Canvas Fingerprint используется поисковыми системами для:

  • агрегации данных в системах аналитики, выявлении периодичности визитов, источника трафика, и прочего;
  • обучении антифрода;
  • формирования персонализированной рекламы и результатов поиска;
  • выявлении паттернов поведения пользователей и скрытых интересов.

CF ID уникален в разных браузерах. Например, в Firefox и Google Chrome Canvas Fingerprint будет отличаться.

Как изменить Canvas Fingerprint?

Можно использовать VPN, прокси shadowsocks, отключить Flash, Javascript и WebGL, поставить антидетект браузер, или поставить расширения в браузер для генерации фейкового отпечатка.

В результате будет генерироваться полная неразбериха, при заходе в Яндекс, Google и другие сайты может появиться капча, реклама и поисковая выдача могут быть вообще нерелевантны.

Скачок роботности в Метрике также можно отнести к тому факту, что огромная часть рунета резко ломанулась ставить VPN и прокси на свои устройства в этом году и антифрод благополучно записал часть аудитории в ботов.

С новым софтом и методикой мы решили достигнуть следующих целей:

  • уйти от использования ZennoPoster в пользу Chromium - много багов, платные обновления, сильно нагружает ресурсы сервера;
  • успешно дожимать до топа запросы не только в Яндексе, но и в Google, при этом сократить время;
  • обеспечить разнообразие реальных Fingerprint и Canvas Fingerprint;
  • иметь в рабочем пуле огромное количество разнообразных мобильных и резидентских прокси;
  • выстроить многоуровневую прокачку профилей.

Новый софт представляет из себя десятки серверов с видеокартами, объединённых в единую сеть через центральный сервер. Главный сервер агрегирует и выдаёт задания точкам, обновляет статистику по прокачке профилей, количеству заходов по фразам, и прочие параметры.

Все задания на накрутку ПФ распределяются рандомно между всеми точками в сети. В итоге мы получили разнообразие белых Canvas Fingerprint, многоуровневую прокачку профилей и пул более 160 резидентских и мобильных прокси с отпечатком pOSf Windows.

Для первых тестов на собственных проектах были отобраны все разновидности фраз: ВЧ, СЧ, НЧ.

На данный момент результаты накрутки ПФ в Яндексе новым софтом получились следующие:

Выгрузка истории позиций из KK4.
Выгрузка истории позиций из KK4.

По некоторым фразам в топ-1 встать не получится, там либо сервис Яндекса, либо крупный маркетплейс.

Фразы за топ-15 по опыту крутить не имеет никакого смысла, результатов не будет, но в ходе теста были получены другие данные. Некоторые фразы всё же вышли в десятку. После доработки внутренней оптимизации под проблемный кластер можно дальше дожимать до топа.

Коллега также тестирует накрутку по ВЧ-запросам. Они вышли в топ, после чего начали подтягиваться НЧ-фразы, которых раньше не было в топ-10:

Статистика из сервиса Топвизор по ВЧ фразам.
Статистика из сервиса Топвизор по ВЧ фразам.
Статистика из сервиса Топвизор по НЧ фразам.
Статистика из сервиса Топвизор по НЧ фразам.

Во время теста пошли переходы в Метрике по фразам, которых вообще ранее не было. Стоит отметить, что сайты в эксперименте уже имели трафик, историю и довольно профессионально оптимизированы.

При наличии живого трафика на сайте не все переходы записывались в роботов. Процент разный и рандомный, никакой зависимости вообще не прослеживается.

На данный момент тестирование в Яндексе активно продолжается. Уверен, будут получены интересные данные. Впереди ждёт эксперимент в Google, где предыдущий софт не показал никаких ощутимых результатов.

Эффективные методы очистки трафика от ботов и парсеров

Чистить трафик в нормальных проектах нужно и необходимо. Как минимум - снизится нагрузка на сервер, как максимум - сайту невозможно скрутить ПФ и уронить позиции. Также будет получено тактическое преимущество, если конкуренты попытаются сканировать сайт различными сервисами или софтом.

Со временем мы отказались от использования Cloudflare в качестве первого барьера защиты. Это связано с недоступностью сайта подключенного через клауд на всей сети Мегафон при включенном DoH или Shadowsock, а также веерными блокировками РКН.

В первую очередь рекомендую настроить блокировку самых популярных роботов и парсеров, которые создают избыточную нагрузку на CPU веб-сервера. Если сайт размещен на сервере Apache, то можно воспользоваться 400+ готовыми правилами блокировки, которые находятся в моем аккаунте на GitHub.

Эти правила настраиваются в файле htaccess, который лежит в корневой директории сайта. Прописать данные правила для сайта на конструкторе невозможно.

Для примера покажу как меняется количество запросов к серверу, после настройки блокировки:

График запросов к домену после настройки блокировки роботов.
График запросов к домену после настройки блокировки роботов.

При необходимости защиты сайта от поведенческих ботов, парсеров цен и контента, fake-ботов поисковых систем, ботов с подделкой реферера, и прочего непотребства - рекомендую лучший сервис в рунете - Antibot.Cloud. По эффективности чистки трафика аналогов этому сервису не существует.

Сегодня функционал фаервола существенно доработан. Более подробно про широкие возможности функционала Антибота я писал в этой статье.

В последнее время владельцы сайтов также часто жалуются на копирование их счетчика Метрики на другие сайты никак с ними не связанные. Это искажает почти всю аналитику, может ввести в заблуждение, и уронить сайт под фильтр.

Лечится легко. В настройках счетчика нужно выбрать:

Настройки счетчика ЯМ.
Настройки счетчика ЯМ.

Вместо заключения

На данный момент непонятно чего добивается Яндекс с введением параметра роботности в отчеты Метрики. Как по мне - абсолютно бесполезный функционал, который никогда не сможет со 100% вероятностью отличать бота от человека.

Возможно осенью нас будет ждать непредсказуемый апдейт. Готовить сани надо летом. Чем мы и занимаемся. Тесты нового софта и методики накрутки идут полным ходом. Очень интересно протестировать Google.

Об этом и будет вторая часть.

1919
12 комментариев

Кмк, в роботный влетает трафик, который Яндекс не понимает или считает отличающимся от целевого. К вышеописанным критериям я бы добавил использование адблока или явно аномальное поведение на сайте. Ну грубо: если на сайт стандартно заходила только чужая или своя ботовня, и вдруг зашёл человек, посмотрел и даже что-то купил - попадает в роботы.
Да и с самой выдачей сильно непонятные шаманства происходят. Боты видят сайт в топах, но реально сайта там нет. То есть персонализация. Ощущение, что Яндекс разделяет серпы для разных типов аудитории: ботообразных, с одним шаблоном поведения, и "людей", с другим шаблоном.

4
Ответить

Да местами есть такое. Яндекс видимо забил на развитие нормального поиска.

1
Ответить

Все "улучшения" Яши в последнее время приводит к тому, что втайне хочешь перевести всех пользователей на поиск Google - жаль, это невозможно.)

Шаманства с выдачей и разделение (бот видит сайт в ТОПе, человек не видит), связываю с увеличением количество трафа с впн и прокси. Например, меня Гугол иногда с впн не пускает в выдачу ("зарегистрирован подозрительный трафик"), а Яндекс охотно пускает, не ставя никаких фильтров.

1
Ответить

Подскажите пожалуйста, вы полностью ушли от зенопостера? Каким софтом теперь пользуетесь?

2
Ответить

Комментарий недоступен

1
Ответить

ВЧ с 9 места на первое за 1 день?

Ответить

Нет, крутилось 2 или 3 недели.

1
Ответить