В сеть утекли данные о факторах ранжирования в Яндекс

На днях в сети произошла утечка на исходный код некоторых документов от Яндекс, в том числе такой интересный для SEOшников документ как "Факторы ранжирования в поиске". Я ознакомился с данным документом и хочу поделиться с вами небольшим обзором!

Факторы, которые я показывал в обзоре:

В одной ссылке есть все слова запроса
В ссылках есть все слова запроса
TfIdf обычный TF*IDF по ссылкам. Частота слова в ссылках умножается на обратную документную частоту и суммируется по всем словам, потом нормируется на длину документа.
Есть точная форма всех слов запроса в тексте/линках
Есть лемма всех слов запроса в тексте/линках
Спам карма имени антиспамеров - вероятность того, что хост – спам; основан на информации whois
число ссылок, точно совпадающих с запросом
Длина документа в предложениях
Коммерческость запроса по словарю фраз от Директа: 0 - максимальная коммерческость, 1 - минимальная.
Линковая релевантность с учетом тематичности
Не используется Дуплицированность контента. 'Плохость' хоста (от 0 до 1) – пропорциональна числу вторичного контента на хосте.'Плохость' хоста (от 0 до 1) – пропорциональна числу вторичного контента на хосте.
Длина текста страницы в словах
Средний возраст ссылок, внесших что-то в LR LinkAge=Min(log(средний возраст ссылки)/7, 1), за 1 принято 3 года
Страница недостижима по ссылкам с морды.
Магазинность страницы
Характеризует раскрученность сайта линковыми кольцами. Значение - доля внешних ссылок, которые входят в линковые кольца и линкообменники.
Доля трафика с поисковых систем доля заходов на сайт не по ссылкам (набор руками или с закладок)
среднее по пользователям число активных действий (клики, нажатия клавиш) при непрерывном нахождении пользователя (в сек) на страницах хоста.
Количество уникальных посетителей урла
Степень разнообразия запросов, по которым кликают данный урла
Доля входящих продажных ссылок. Реализован алгоритм распознавания коммерческих ссылок. Фактор ремапится на [0,1] если доля таких ссылок > 50%, иначе 0. ((http://wiki.yandex-team.ru/SvetlanaShorina/topseolinks выборка накрученных сайтов
Степень выраженности задания запросов в разное время суток
Характеризует частоту слов в ссылках. Фактор большой, если слово, сыгравшее в линковой релевантности, редкое для ссылок.
Процент числа слов внутри тега <a>..</a> от числа всех слов
Процент числа слов, являющихся 200 самыми частыми словами языка, от числа всех слов текста
Логарифм среднего геометрического вероятностей триграмм в тексте. (вероятность триграммы - число ее встречаний в тексте, деленное на число всех триграмм) , отображается в [0,1] по формуле -x(x+A)
Количество различных внутренних ссылок на страницу
URL является сюжетом Яндекс новостей
Фактор про то, наскоько хороший сниппет может получиться.
Хитрый BM25 в скользящем окне. Размер окна задается в предложениях. Используются «джокеры» для заголовков и начала документа. Учитывается морфологическая близость и структура текста. Вес окна затухает с удалением от начала документа.
доля урлов, которые отвечают без ошибок
Оценивает минимальное расстояние между парами слов запроса с учетом удаленности пары от начала документа (Minimal Pair Size with Attenuation). Под парами понимаются все последовательные биграммы слов запроса.
Число входящих ссылок с морд
Показы урлов в выдаче для запросов, по которым ушли искать в другие поисковики
В последней версии базы маркета есть офферы с данного хоста.
Средняя позиция урла по всем запросам / Средняя позиция хоста по всем запросам
Ранг качества сайта, используемый для бустов московской коммерческой формулы
Количество переходов на урл с Википедии
Хотя бы у одного оффера из распаршенной схемы есть статус о доступности
На owner'е есть покупка по ECOMу.
Количество возвратившихся в течение месяца пользователей
Ранк качества текстов на хосте. Чем выше — тем больше вероятность того, что хост полон статей - рерайта, плохого копирайта, заказанного на биржах контента. Жжёт сильнее как позапросная агрегация.
1 if host include js from googleapis.com 1 if host include js from google-analytics.com 1 if host include js from mc.yandex.ru
Документ имеет протокол https
адаптирован ли этот хост под мобильные устройства

11
7 комментариев

ГЛАВНЫЙ ВЫВОД:
Как топить конкурентов по этим факторам – загоняем много ссылок с Википедии на сайт конкурента с релевантных страниц. Сайт попадает в спам лист. Оттуда не реально его вытянуть – нет алгоритма проверки и доказать, что это не я не возможно. Бан навсегда, не бывает такого, что бан на месяц или полгода! Конкурент попробует что-то объяснить модераторам – это бессмысленно – там нет ответственных и компетентных сотрудников, они сидят как на форуме ноунейм и никнейм "перетирают" между собой)))). Так что дерзайте и все получится!!!! Это работает!!!

3

Спасибо за обратную связь!) Позволю себе не согласиться. Во-первых, не так легко попасть в википедию, во-вторых, с чего вы взяли, что за ссылки с википедии мы попадаем в спам-лист? Википедия, наоборот, источник, который показывает о качестве сайта, на который идет ссылка.

Сайт в результате этого попадает в спам-лист самой Википедии. Даже если он реально полезный или даже научный. Модераторы Википедии "борются" за то чтобы обнаружить спам. Стимулом для них являются "плюшки" в виде новых "званий" и статистики. Поэтому наши цели полностью совпадают с целями модераторов Википедии!!!
Проверено на реальных примерах.
Вытащить из спам-листа не возможно. По срокам бана - НАВСЕГДА!!!

3

Гениально! Отличный совет, будем пользоваться

1

А, вы про бан на самой википедии... Да, такое вполне возможно