{"id":14271,"url":"\/distributions\/14271\/click?bit=1&hash=51917511656265921c5b13ff3eb9d4e048e0aaeb67fc3977400bb43652cdbd32","title":"\u0420\u0435\u0434\u0430\u043a\u0442\u043e\u0440 \u043d\u0430\u0442\u0438\u0432\u043e\u043a \u0438 \u0441\u043f\u0435\u0446\u043f\u0440\u043e\u0435\u043a\u0442\u043e\u0432 \u0432 vc.ru \u2014 \u043d\u0430\u0439\u0434\u0438\u0441\u044c!","buttonText":"","imageUuid":""}

SEO-археология: забытые термины

Поисковые алгоритмы меняются, а вместе с ними – и средства поискового продвижения. Регулярное чтение статей о SEO позволяет заметить негативную динамику: контент такого рода сильно упростился, и чаще всего сводится к каким-то всем известным трюизмам. Не спамьте, думайте о пользователе, делайте сайт лучше. Но разве это имеет отношение к информационному поиску вообще и SEO – в частности?

В этой статье вспомним и разберем некоторые термины и понятия, уже основательно забытые «олдами» и уже неизвестные новым поколениям «сеошников». А заодно попробуем оценить, насколько актуальны эти термины и методы SEO, основанные на них.

tf-idf

Показатель, оценивающий значимость слова в документе с оценкой данных в коллекции документов. Этот алгоритм – база поисковых алгоритмов, помогающая построить векторы для информационного поиска.

Основная проблема: векторы tf-idf благодаря своим свойствам не способны работать с семантическим смыслом. Его формула, например, никак не учитывает длину документа. Даже при использовании модифицированной формулы (BM-25) полноценно работать со смыслом документа нельзя, поскольку работает он только с ключевыми словами и их вхождениями.

Значит ли это, что расчёты tf-idf абсолютно не нужны? – Нет, просто оценивать с их помощью стоит лишь отдельные текстовые зоны (тайтл, зона текстов, зона анкоров и т.п.) на самой ранней стадии работы с документом. Кроме того, известно, что tf-idf и BM-25 использовались Яндексом для оценки ссылочных анкоров.

Это может быть вспомогательным инструментом оптимизатора, но не нужно ожидать от использования старых формул слишком многого. Например, хорошо известный всем Джон Мюллер уточнил, что нет смысла фокусироваться на таких формулах, а в рамках алгоритма tf-idf используется для отсева стоп-слов (источник).

Резюме. tf-idf, BM-25 и другие методы обработки текста для выявления ключевых слов и отсева стоп-слов остаются частью поисковых алгоритмов. В рамках современных практик SEO вы можете спокойно их игнорировать, и вообще не иметь понятия об их формулах. Однако в ряде случаев они всё ещё могут быть полезны – для выявления выраженных аномалий, разработки собственных программных инструментов, программной обработки данных парсинга и т.п.

Переколдовка запроса

Переколдовка – это изменение пользовательского запроса таким образом, чтобы изменились веса некоторых слов запроса для получения более релевантной выдачи. Пользователь обращался к поиску с запросом, алгоритм менял формулировку, добавляя синонимы и просчитывая веса слов (IDF) в запросе, и лишь после этого формировал выдачу.

Для чего это было нужно? Прежде всего, для исправления опечаток и ошибок в запросах без изменения смысла этого запроса. Кроме того, переколдовка запроса с помощью выделения самых весомых слов вообще должна была помочь Яндексу понять, что у него спрашивают.

Такое до сих пор продвигается совершенно всерьёз. А когда-то раздавались советы вставлять прямые вхождения ключей с ошибками и опечатками – и это использовалось.

В рамках SEO довольно быстро было обнаружено, что почти идентичные на первый взгляд запросы переколдовываются Яндексом по-разному, и выдача по ним отличается. А значит, надо было искать способ понять алгоритм переколдовки, чтобы найти идеальные сочетания слов в запросах. Это использовалось для работы текстовыми метриками, в том числе – при проработках анкор-листов. Например, синонимы вполне могли подразумевать разные кластеры, и даже порядок слов в запросе может влиять на кластеризацию.

Способ работать с колдунщиками нашёлся быстро: результат переколдовки можно было вытащить из URL сохраненной копии в параметрах ссылки после декодирования вместе с абсолютными весами каждого слова в запросе. (Этот способ давно не работает).

Как видите, в рамках топ-10 разницы нет, но в топ-20 позиции уже могут отличаться.

Резюме. Переколдовка запросов никуда не исчезла и сейчас, хотя работа с ней во многом потеряла смысл в большинстве случаев. По любым частотным ключам системой накоплены колоссальные объёмы данных, и поисковик может понять, что у него пытаются спросить, даже если запрос набран не в той раскладке, с опечатками и ошибками. Как минимум, нет никакого смысла добавлять ошибочные вхождения на страницу, хотя вы должны убедиться, что выдача по запросам «айфоны» и “iphone” не отличается. Подробно о переколдовке.

Веса слов в запросе

В 2010 году Евгений Трофименко обнаружил баг в Яндекс-XML, связанный с переколдовкой запросов (см. выше), и выкачал базу по 1,3 млн. популярных ключей с дополнительными словами и весами слов. В 2011 баг был устранен, однако база использовалась практиками довольно долго. Каждое слово в запросе отличается по весу. Стоп-слова по умолчанию имеют значение, обратное частоте употребления этого слова в анализируемом корпусе (в данном случае – в рамках всех документов рунета).

Ради чего всё было нужно: более «легкие» слова отбирались для разбавления анкор-листа арендных ссылок. Вот у вас три рубля в качестве бюджета на «Сапу», вот пачка сайтов, никак не связанных тематически и по контексту с продвигаемым, вот анкор-лист на сотню ссылок. И из этого надо извлечь максимум выгоды от ссылочного.

Другой способ применения – кластеризация. Её алгоритм подразумевал учёт «весов», а не только пересечения по «серпу», куда залетали сайты благодаря совсем другим метрикам – хостовым, поведенческим и т.п. Способ показал себя очень ресурсоёмким при очень малой выгоде для работы.

Резюме. Фактически, веса слов как характеристика сохранились, но работать с ними сейчас – не самая простая задача. Преимущественно такие базы используются для работы со стоп-словами. Процесс анализа весов очень зашумлен ручными правками, склеиванием отдельных словоформ, а главное – сменой приоритетов в факторах ранжирования. Текстовые метрики в целом давно уступили своё значение коммерческим и поведенческим факторам ранжирования.

Монолитный и запросный индексы

Под монолитным индексом принято понимать список ключевых слов, связанных с конкретным документом, и включающих как текст на странице, так и ключи в анкорах внешних ссылок. Благодаря связям документа с ключевыми словами, входящими во внешние ссылки, документ может ранжироваться по фразам, которых на самой странице нет – и без всякой NLP, на самых примитивных алгоритмах. Классический пример – это ранжирование биографии Дж. Буша-младшего по запросу “miserable failure” («жалкий неудачник») на официальном сайте Белого Дома. Разумеется, страница не содержала таких слов, но ссылочные анкоры своё дело делали. Google не мог справиться с проблемой 4 года.

Если запросный индекс – это перечень всех ключевых слов, по которым ресурс вообще имел видимость, монолитный индекс имеет прямое отношение к текстовым характеристикам документа. То есть в одном случае речь идёт более о хостовых метриках, влияющих на соответствие заданной тематике. В другом – о возможности ранжирования документа по большому количеству ключей, большему, чем позволяют объёмы самого документа.

Оба индекса сохраняют важность для поисковой оптимизации. Если у вас для небольшой посадочной страницы подразумевается около сотни ключевых слов (а то и выше) анкоры ссылок помогут вам «подклеить» эти ключи к странице без необходимости добавлять их непосредственно в текст и шинглы на странице. Есть ли в этом реальная необходимость после ввода BERT и YATI? – Иногда есть, особенно в случаях, когда контент продвигаемой страницы пересекается по ключам с другими страницами, или поисковой системе просто позарез нужно прямое вхождение.

Запросный же индекс, составляемый из логов поисковых систем, в принципе помогает поисковику оценить релевантность документа по объёмам входящих ссылок, качеству трафика по ним и общей связи ресурса с другими узлами веб-графа.

Резюме. Понятие монолитного и запросного индекса сохраняют важность в SEO, поскольку влияют на релевантность как сайта в целом, так и отдельных страниц на уровне тематики и конкретных групп запросов. Техники оптимизации, связанные с этими понятиями, помогают решить многие проблемы, не решаемые другими способами.

«Пифаунд» (PFound)

PFound – метрика качества ранжирования, разработанная командой Яндекс и определяющая релевантность документа запросу с учетом вероятности его просмотра пользователем с выдачи. Формула учитывает влияние асессорских оценок (потерявших актуальность), а сама нормализация топов давно выполняется совсем другими средствами, наподобие catboost (градиентного бустинга).

Формула pFound

PFound использовался прежде всего для настроек и корректировок поисковых алгоритмов после каждого обновления алгоритма. Как можно догадаться по формуле, PFound относится к ручной формуле, участвующей в обучении алгоритма. Насколько мне известно, асессорский отдел Яндекса после расформирования был окончательно заменен сервисом «Толока», а принципы обучения нейросети серьёзно изменены. И есть ощущения, что сама по себе ручная формула серьёзно «усохла» до какого-то текстового анализа на уровне Fast-Rank (но это, разумеется, неточно).

Резюме. Термин интересен более как история алгоритмов ранжирования, и достоин почетного места в музее SEO. Однако если вы интересуетесь MachineLearning – тему стоит внимательно изучить.

Supplemental Index («сопли»)

В древности, когда интернет был ещё сравнительно мал, Google мог позволить себе сканировать и индексировать всё подряд. И более того: он даже явный мусор не выбрасывал с отвращением, а бережно записывал в особый «дополнительный индекс» (Supplemental Index).

Ничего странного: информационный поиск в принципе не должен иметь других критериев, кроме соответствия запросу пользователя. Поэтому даже список «некачественных» документов в те дикие времена был доступен при желании, тем более что в этот индекс попадали вообще все страницы, с которыми у гуглобота возникли какие-то проблемы, в том числе – технического характера.

Вебмастера рунета с любовью окрестили Supplemental Index ласковым именем «Сопли Гугла»: попавшие в дополнительный индекс страницы вытянуть в основной было задачей трудной. Чаще всего подразумевалось, что страницу нужно кардинально переделать, дополнить, возможно – изменить URL, и дать понять поисковику, что страница на самом-то деле достаточно хороша.

Официально Supplemental Index прекратил существование ещё в 2007 году, но лишь пару лет назад он действительно исчез как явление даже при использовании оператора “site:”.

Резюме. Актуально ли это сейчас? – Пожалуй, нет. Google больше не выводит ссылку на скрытые результаты, а ссылки на проблемные страницы доступны только из Search Console. При этом SC содержит чуть больше информации о том, что не так со страницей (видел, но ещё не смотрел, смотрел – но не счёл нужным индексировать, и т.п.).

Запросный кворум

Чтобы документ мог ранжироваться по заданному ключевому слову, он должен пройти заданный кворум, набрав определенную долю суммарного веса слов из запроса. Чтобы пройти кворум, документ может использовать как слова в рамках самого документа, так и ключи в анкорах входящих ссылок (см. выше «Монолитный индекс»).

Формула расчёта запросного кворума включала коэффициент мягкости, подразумевающая, что документ может ранжироваться по какому-то запросу, даже если не все слова из запроса встречаются в самом документе или в анкорах входящих ссылок. Подробно о кворуме из первоисточника.

Анализ актуальной выдачи показывает, что в запросах общего характера, по которым у поисковых систем накоплены колоссальные объёмы информации, запросный кворум практически утратил своё значение, особенно для ключевых слов с малой частотностью. Текстовые характеристики явно имеют намного меньшее значение, чем поведенческие, и возможно – чем тот же запросный индекс: если ранее на сайт были неотказные визиты по каким-то ключам без точных вхождений, сайт всё равно будет ранжироваться по этим ключевым словам.

Резюме. Соответствие документа запросу после появления алгоритмов, оценивающих смысл и интент запроса на базе полученных ранее данных о посетителе, как минимум снижают важность существования запросного кворума. Однако это вовсе не значит, что он не применяется хотя бы на стадии первичной индексации, когда алгоритм применяет самые грубые текстовые метрики для оценки контента страницы. Имеет смысл оценить усредненные количества вхождений важнейших ключей до того, как страница будет отправлена в индекс.

Сателлиты

Под сайтами-сателлитами принято понимать любые дополнительные сайты, объединенные в сеть и связанные с продвигаемым. Их используют для передачи ссылочного веса, охвата большего среза продвигаемой семантики, а также просто для того, чтобы занять максимальное количество позиций в топе поисковой выдачи.

PBN: эффективно, но недешево

Устарела ли эта практика? – Нет, напротив, она лишь набирает обороты, просто «сателлит» стал устаревшим термином. Вместо этого сейчас используют заимствованную аббревиатуру PBN – Private Blog Network. (Почему «блог»? – Да просто потому, что изначально для создания сеток использовались сайты на WordPress, и были это именно блоги).

Актуальная и самая распространенная схема достаточно проста: перехватывается домен, или просто выкупается дроп (брошенный владельцем домен с хорошими характеристиками, историей и ссылочным профилем). На нём создаётся небольшой по объёмам сайт с использованием восстановленного из веб-архивов контента – это дешевле, чем создавать новый абсолютно с нуля.

Дальнейшее использование сетки зависит от задач бизнеса и целевой поисковой системы. Чаще всего PBN выстраивают для продвижения в Google, как первый или второй слой многоуровневого ссылочного профиля (в зависимости от качества созданной «сетки»).

Резюме. Само понятие сателлитов – живее всех живых, поскольку такой метод продвижения не утратил эффективности и позволяет добиться результатов в решении множества задач.

Заключение

Как видите, большая часть понятий и терминов, горячо обсуждавшихся ещё 15 лет назад, всё ещё сохранила актуальность и значимость для практики, хотя и в меньшей мере, чем было когда-то. Ничто не исчезает из поисковых алгоритмов насовсем, просто утрачивает важность или сферу применения. А многие основательно подзабытые практики просто возвращаются окольными путями и под новыми именами, фактически не меняясь по сути.

Разумеется, невозможно в одной статье охватить весь забытый арсенал средств и методов, да и незачем. Любой старый форум, посвященный SEO, хранит тонны полезной информации, и если вас интересует тема продвижения сайтов в поиске – не пренебрегайте этими источниками. Всё новое – это хорошо забытое старое, и как минимум, вы наверняка найдёте для себя несколько красивых идей, которые сможете эффективно применять на практике.

В оформлении использована работа Алехандро Бурдизио «Деревня роботов».

0
55 комментариев
Написать комментарий...
Wexx Ebrilo

Спасибо, Виктор. Как всегда супер информативно и профессионально

Ответить
Развернуть ветку
Виктор Петров
Автор

Благодарю за оценку.
Тут, объективно, практической пользы немного, это скорее радиопередача "Этот день в истории". Я просто уже несколько месяцев не могу избавиться от ощущения общей деградации инфо-каналов в этой тематике - сплошной маркетинг во всех смыслах.

Ответить
Развернуть ветку
Артем Бирюков

Я думаю дело не только в деградации. Уже очень давно всё инфопросранство представляет из себя переписывание уже написаного кем-то ранее. Своеобразный рерайт. Чем дольше ты в сфере, тем более это заметно и тем сильнее ситуация надоедает. Сейчас к этому ещё добавились репосты одной новости/статьи в каждый канал в итоге везде написано одно и тоже.

А генерация чего то действительно нового и ценного для сферы это сложная задача. И когда она решена, встаёт вопрос, а стоит ли этой новинкой вообще делиться? Особенно если она действительно ставит сайты в топ.

Вот такой выходит казус)

Ответить
Развернуть ветку
52 комментария
Раскрывать всегда