Крутить или не крутить? Вот в чем вопрос! ПФ и YATI – или почему Яндекс никак не победит накрутку?

Разработчики Яндекса в своей эпохальной статье и не менее интересном видео раскрывают суть нейросети YATI, вклад которой в ранжирование, согласно их же доклада уже на момент внедрения составлял более 50%.Что такое YATI? Очень грубо, это BERT (модель трансформер) плюс простая (feed-forward) нейросеть, задача которой предугадывать был ли клик по фразе.

Схема нейросети YATI от самих разработчиков
Схема нейросети YATI от самих разработчиков

Приведу цитату:

Как и BERT, модель сначала учится свойствам языка, решая задачу MLM (Masked Language Model), но делает это сразу на текстах, характерных для задачи ранжирования. Уже на этом этапе вход модели состоит из запроса и документа, и мы с самого начала обучаем модель предсказывать ещё и вероятность клика на документ по запросу. Удивительно, но тот же самый таргет «переформулировок», который был разработан ещё для feed-forward-сетей, отлично показывает себя и здесь. Обучение на клик существенно увеличивает качество при последующем решении семантических задач ранжирования.

Вот эту вторую нейросеть, Яндекс изначально обучил на исторических данных, которых у него масса, но модель нужно периодически переобучать, то есть добавлять новые пары запрос => вероятность клика

А, что будет, если начать искусственно крутить ПФ по некоторым фразам?

Правильно модель может сломаться. И в этом, как мне кажется, и лежало то изначально агрессивное неприятие накрутки ПФ. Но времена меняются, за накрутку не банят, но тогда возникает вопрос, а, что же такого смог придумать Яндекс, что отфильтровать влияние накрутки?

Как бы я поступил, будучи разработчиком?

Я бы ввел как минимум 3-х ступенчатый алгоритм. На первом этапе всем подозрительным ботам я бы скармливал капчу, отсеивая таким образом львиную долю «тупого» трафика. Во-вторых я бы ввел некий показатель «подходящести» посетителя (прошу не докапываться до фразы) конкретному запросу. Ну и в-третьих я бы ввел показатель «трастовости» и завязал бы его тупо на кол-во денег потраченных на Яндекс такси, музыке и прочих сервисах. Оговорюсь - третья гипотеза - моё предположние не более того. НО!

Спойлер - Яндекс давно про вас всё знает!

У Яндекса всё давно уже есть, предлагаю посмотреть вот это занимательное видео.

Каждого посетителя Яндекс видит как эмбеддинг (матрицу с цифрами) в которую зашифрованны историческе данные. Такие как, информация о том, какие сайты вы посещали и какие запросы в Яндекс задавали задавали и прочие факторы. При выборе сайтов, которые он показывает вам в персонифицированной выдаче, он берет одну часть релевантности из Yati, а другую часть релевантности из нейросети отвечающей за персонализацию и сгружает это все в финальную нейросеть сборку.

Рекомендательная модель от Яндекса. Приведена для наглядности, сейчас используется более сложная модель SemiSplit трансформер
Рекомендательная модель от Яндекса. Приведена для наглядности, сейчас используется более сложная модель SemiSplit трансформер

Делаем выводы?

Всё то, о чем говорят ПФщики, а именно, нагул профилей по долгосрочным интересам, разный «вес» кликов от живого человека и от бота – в некоторой степени подтверждается информацией публикуемой Яндексом. ОК, тогда в чем проблема, спросите вы?

Если Яндекс так здорово научился вычислять фейковых посетителей, почему он тогда не прикроет лавочку окончательно?

Проблема в ресурсах и их стоимости, вернее, даже не столько в ресурсах, сколько в возможности быстрой обработки всей необходимой информации. Посетитель не будет ждать, пока Яндекс проверит вашу историю покупок и историю всех ваших посещений. Пруф в той же статье и в этом видео где как раз объясняется с какими проблемами они столкнулись при использовании больших моделей в рантайме (боевом режиме). Спойлер - они их максимально упростили и измерили качество, качество их устроило.Таким образом у нас классический «меч против щита».

И Яндекс и ПФщики ограниченны ресурсами. Рубануть сходу не получается видимо теряется качество, жестко фильтровать – экономически невыгодно, вот и приходится балансировать между фильтрами и финансами.

PS ссылка на моих бесплатных SEO ботов, которые помогают буквально в 2 клика найти LSI фразы.

Мой канал Python SEO 2 Нейрона в котором я, на пальцах и примерах объясняю как работают нейросети и как это использовать в SEO.

55
9 комментариев

То, что технически Яндекс может вычислять роботные профили – правда. Но судя по всему, это либо слишком затратно по вычислительным ресурсам, либо понятно, что нечем потом будет отчитываться перед руководством и инвесторами, поскольку именно роботный трафик и преобладает.
Максимум, что они могут – снижать и перетасовывать веса отдельных поведенческих метрик. Ну или вот как сейчас: убить общую выдачу, заменить её персонализированной.
Про векторизацию профилей пользователей не задумывался. А красиво.

1

Они сейчас всё векторизуют, видимо настолько им зашла эта технология

Резюме: да нет наверное.

Ну SEO оно всё живет по такому принципу ) Как там? Сделал, посмотрел, сделал посмотрел помолился)

1

Спойлер - Яндекс давно про вас всё знает! - Ох я в этом сомневаюсь, они и о себе мало что знают))

Кажется, у них все из под контроля вышло. ПФщиков фильтровать не научились и при этом выдачу испортили своими изменениями.

Вопрос, как они измеряют качество выдачи? Если объёмом своего кармана и откручиваемого директа - ничего не испортили )))