Новая Tesla Model Y
Grok vs ChatGPT vs Claude
Роботы за $40 млрд
Экзоскелет для подъёма в горы
iPhone 17 Air
Apple Event 19.02

В сеть утекли данные о факторах ранжирования в Яндекс

На днях в сети произошла утечка на исходный код некоторых документов от Яндекс, в том числе такой интересный для SEOшников документ как "Факторы ранжирования в поиске". Я ознакомился с данным документом и хочу поделиться с вами небольшим обзором!

Факторы, которые я показывал в обзоре:

В одной ссылке есть все слова запроса
В ссылках есть все слова запроса
TfIdf обычный TF*IDF по ссылкам. Частота слова в ссылках умножается на обратную документную частоту и суммируется по всем словам, потом нормируется на длину документа.
Есть точная форма всех слов запроса в тексте/линках
Есть лемма всех слов запроса в тексте/линках
Спам карма имени антиспамеров - вероятность того, что хост – спам; основан на информации whois
число ссылок, точно совпадающих с запросом
Длина документа в предложениях
Коммерческость запроса по словарю фраз от Директа: 0 - максимальная коммерческость, 1 - минимальная.
Линковая релевантность с учетом тематичности
Не используется Дуплицированность контента. 'Плохость' хоста (от 0 до 1) – пропорциональна числу вторичного контента на хосте.'Плохость' хоста (от 0 до 1) – пропорциональна числу вторичного контента на хосте.
Длина текста страницы в словах
Средний возраст ссылок, внесших что-то в LR LinkAge=Min(log(средний возраст ссылки)/7, 1), за 1 принято 3 года
Страница недостижима по ссылкам с морды.
Магазинность страницы
Характеризует раскрученность сайта линковыми кольцами. Значение - доля внешних ссылок, которые входят в линковые кольца и линкообменники.
Доля трафика с поисковых систем доля заходов на сайт не по ссылкам (набор руками или с закладок)
среднее по пользователям число активных действий (клики, нажатия клавиш) при непрерывном нахождении пользователя (в сек) на страницах хоста.
Количество уникальных посетителей урла
Степень разнообразия запросов, по которым кликают данный урла
Доля входящих продажных ссылок. Реализован алгоритм распознавания коммерческих ссылок. Фактор ремапится на [0,1] если доля таких ссылок > 50%, иначе 0. ((http://wiki.yandex-team.ru/SvetlanaShorina/topseolinks выборка накрученных сайтов
Степень выраженности задания запросов в разное время суток
Характеризует частоту слов в ссылках. Фактор большой, если слово, сыгравшее в линковой релевантности, редкое для ссылок.
Процент числа слов внутри тега <a>..</a> от числа всех слов
Процент числа слов, являющихся 200 самыми частыми словами языка, от числа всех слов текста
Логарифм среднего геометрического вероятностей триграмм в тексте. (вероятность триграммы - число ее встречаний в тексте, деленное на число всех триграмм) , отображается в [0,1] по формуле -x(x+A)
Количество различных внутренних ссылок на страницу
URL является сюжетом Яндекс новостей
Фактор про то, наскоько хороший сниппет может получиться.
Хитрый BM25 в скользящем окне. Размер окна задается в предложениях. Используются «джокеры» для заголовков и начала документа. Учитывается морфологическая близость и структура текста. Вес окна затухает с удалением от начала документа.
доля урлов, которые отвечают без ошибок
Оценивает минимальное расстояние между парами слов запроса с учетом удаленности пары от начала документа (Minimal Pair Size with Attenuation). Под парами понимаются все последовательные биграммы слов запроса.
Число входящих ссылок с морд
Показы урлов в выдаче для запросов, по которым ушли искать в другие поисковики
В последней версии базы маркета есть офферы с данного хоста.
Средняя позиция урла по всем запросам / Средняя позиция хоста по всем запросам
Ранг качества сайта, используемый для бустов московской коммерческой формулы
Количество переходов на урл с Википедии
Хотя бы у одного оффера из распаршенной схемы есть статус о доступности
На owner'е есть покупка по ECOMу.
Количество возвратившихся в течение месяца пользователей
Ранк качества текстов на хосте. Чем выше — тем больше вероятность того, что хост полон статей - рерайта, плохого копирайта, заказанного на биржах контента. Жжёт сильнее как позапросная агрегация.
1 if host include js from googleapis.com 1 if host include js from google-analytics.com 1 if host include js from mc.yandex.ru
Документ имеет протокол https
адаптирован ли этот хост под мобильные устройства

11
реклама
разместить
7 комментариев

ГЛАВНЫЙ ВЫВОД:
Как топить конкурентов по этим факторам – загоняем много ссылок с Википедии на сайт конкурента с релевантных страниц. Сайт попадает в спам лист. Оттуда не реально его вытянуть – нет алгоритма проверки и доказать, что это не я не возможно. Бан навсегда, не бывает такого, что бан на месяц или полгода! Конкурент попробует что-то объяснить модераторам – это бессмысленно – там нет ответственных и компетентных сотрудников, они сидят как на форуме ноунейм и никнейм "перетирают" между собой)))). Так что дерзайте и все получится!!!! Это работает!!!

3

Спасибо за обратную связь!) Позволю себе не согласиться. Во-первых, не так легко попасть в википедию, во-вторых, с чего вы взяли, что за ссылки с википедии мы попадаем в спам-лист? Википедия, наоборот, источник, который показывает о качестве сайта, на который идет ссылка.

Сайт в результате этого попадает в спам-лист самой Википедии. Даже если он реально полезный или даже научный. Модераторы Википедии "борются" за то чтобы обнаружить спам. Стимулом для них являются "плюшки" в виде новых "званий" и статистики. Поэтому наши цели полностью совпадают с целями модераторов Википедии!!!
Проверено на реальных примерах.
Вытащить из спам-листа не возможно. По срокам бана - НАВСЕГДА!!!

3

Гениально! Отличный совет, будем пользоваться

1

А, вы про бан на самой википедии... Да, такое вполне возможно

День 1092: онлайн-кинотеатры начали переговоры с ушедшими голливудскими киностудиями, «Автозавод Санкт-Петербург» сократит выпуск машин Xcite

Собираем новости, события и мнения о рынках, банках и реакциях компаний.

Источник: «Автозавод Санкт-Петербург»
66
22
реклама
разместить
Новые кандидаты: кто они и как с ними общаться?
Новые кандидаты: кто они и как с ними общаться?

Рынок труда постоянно меняется, а вместе с ним меняются кандидаты — и к каждому соискателю нужно найти подход! В новом материале перечислили ролевые модели, которые все чаще встречаются нам на пути. Здесь и слишком подозрительные герои, и чересчур робкие, и знающие себе цену… Рассказываем, как с ними взаимодействовать, чтобы это было максимально эф…

«На уровне o1-pro» и «немного лучше DeepSeek»: первые впечатления от модели Grok 3 от xAI

Глава компании Илон Маск назвал Grok 3 «самым умным ИИ на Земле».

2222
1010
66
22
22
Так deepseek бесплатна и открыта всем, остальные платные и открыты только для нескольких стран. Неужели у Маска в бошке это не укладывается
РСПП предложил ввести семейное налогообложение и индексировать пороги доходов для начисления НДФЛ

Чтобы налог рассчитывался исходя из семейного положения, а порог для прогрессивного налога рос каждый год.

5555
3030
33
22
22
11
11
Моё мнение такое: главное — качество, а не только количество. Увеличение рождаемости должно сопровождаться улучшением качества жизни коренного/местного населения: доступным жильём, качественным образованием, медицинским обслуживанием и поддержкой семей. Без этого рост населения может привести к увеличению бедности и социальной напряжённости, а ещё хуже — к постоянному завозу в страну большого количества мигрантов которые только сделают временный рост экономики (на бумаге) а после запустят механизм деградации. Ни один мигрант не считает себя русским человеком после получения гражданства, что подрывает развитие страны. Молодое и растущее население — это двигатель экономики! Инвестирование в рождаемость запустить процесс окупаемости для государства и даст больше трудоспособных граждан а это означает: - Увеличение потребительского спроса. - Рост налоговых поступлений. - Развитие отраслей, таких как образование, здравоохранение и строительство.
Топ-10 акций по Альфа-рейтингу в феврале 2025

Альфа-рейтинг от Альфа-Инвестиций учитывает все основные аспекты оценки акций. В её основе — взгляды различных инвестиционных домов, собранные в одном месте. Оценка сочетает анализ прошлых показателей с оценкой будущих перспектив. Каждая акция получает интегрированную оценку от 1 до 10 баллов на основе анализа ключевых факторов. Посмотрим, что это…

Топ-10 акций по Альфа-рейтингу в феврале 2025
1717
Как продвинуть новый сайт в топ поисковых систем
Продвижение молодого сайта
Мы все должны уходить с работы вовремя. Вот почему

Причины задержек на работе надо искать в организации труда, методах управления и корпоративной культуре. Мы изучили, как устроены процессы в разных компаниях, выяснили, в чём проблема, и нашли способ победить сверхурочные.

Мы все должны уходить с работы вовремя. Вот почему
1717
22
11
11
[]