Google начал раскрывать нюансы работы алгоритмов поиска? Часть 1

На днях Google выпустил на Google Search Central статью под названием «A guide to Google Search ranking systems» («Руководство по системам ранжирования в поиске Google»). Google раскрыл секреты алгоритмов ранжирования или же это очередная справочная статья?

Коротко о чем статья?

Google решил поделиться информацией, описывающей свои наиболее известные системы ранжирования (то есть скорее всего то, что итак публично освещалось в новостях).

Эти системы ранжирования являются частью основных систем ранжирования (основные = core, те самые Core Update, которые полностью перетряхивают выдачу раз в несколько месяцев).

И далее в статье последовательно рассказывается о некоторых уже известных системах ранжирования и ранее не звучавших в публичном поле.

Ниже подробнее про самые интересные из них, на мой взгляд.

BERT

Система искусственного интеллекта, которая помогает Google понимать как сочетания слов выражают различные значения и намерения. То есть вместо идеи искать текст по отдельным словам, BERT берет во внимание сочетание отдельных слов и учится понимать как эта комбинация выражает более сложную идею.

Например, в запросе BERT учитывает последовательность слов в запросе и как они соотносятся друг с другом. Например, по запросу [can you get medicine for someone pharmacy] BERT не просто поймет, что вы хотите заказать лекарство в аптеке, но и что вы хотите это сделать для другого человека.

Google начал раскрывать нюансы работы алгоритмов поиска? Часть 1

До BERT Google не принимал во внимание этот предлог «for someone», который по факту полностью меняет смысл запроса.

Deduplication system

По факту это системы, которые из группы похожих страниц выбирают некий канонический результат, а все остальные похожие страницы скрываются за ссылкой «Некоторые результаты были скрыты».

Google начал раскрывать нюансы работы алгоритмов поиска? Часть 1

Если вы находите страницы своего сайта под такой «плашкой», то это говорит, что контент на них надо переписывать (если текст скопировали у вас, то добиваться удаления с сайта-копипастера).

Exact match domain system

Барабанная дробь!! Сколько было новостей и споров влияют ли ключевые слова в названии домена на релевантность ответа? Все-таки влияют.

Правда Google уточняет, что здесь есть механизмы, которые призваны бороться с накруткой вида создать домен с полным вхождением ключевой фразы «продвижениесайтоввмоскве.рф»

Helpful content system

А вот это из свеженького. Совсем недавно выпущенный «Helpful content update». Google тут говорит что-то про оригинальность и полезность... кажется мы это уже слышали.

Тем не менее вот некоторые факты из справки Google:

  • фактор рассчитывается на уровне всего сайта, но использоваться будет при ранжировании конкретных страниц по конкретным запросам
  • если на сайте много некачественного контента, то качественный также «попадает под раздачу». Поэтому удаление некачественного контента с сайта позволит улучшить позиции вообще по всем страницам хоста
  • это не фильтр/санкция. Это один из многих факторов, по которым Google высчитывает итоговое значение релевантности страницы запросу. Это объясняет почему на первых местах Google можно найти сайты с некачественным контентом.
  • также тут не бинарная оценка «плохо/хорошо». Чем больше некачественного контента будет на сайте, тем сильнее будет проседание трафика
  • пока фактор работает только в англоязычной выдаче по всему миру
  • чтобы улучшить значение данного фактора требуется не просто убрать весь некачественный контент «сегодня», но и в течение нескольких месяцев вновь не добавлять некачественный контент

О том, что в понимании Google «бесполезный контент» описано тут.

Link analysis systems and PageRank

Ну куда же без ссылок и PageRank, который по словам Google претерпел сильные изменения с момента его первой разработки. И даются ссылочки на патенты (тут и тут).

В общем бюджеты на ссылки под Google очень актуально -).

Neural matching

Призван понимать более неявные понятия (понимать более широкие концепции) скрытые в запросе и странице, а затем сопоставлять их.

Это позволяет находить не только документы со словами из запроса, а расширить поиск и по тем концепциям, которые алгоритм выявил при анализе запроса.

Например, по запросу [insights how to manage a green] обычному пользователю покажется, что это просто набор слов. Но на самом деле тут скрыт более глубокий смысл - «поиск руководства по личной эффективности на основании цвета».

Google начал раскрывать нюансы работы алгоритмов поиска? Часть 1

Passage ranking system

Этот алгоритм был сделан специально для тех 7% кто задает самые сложные запросы -). Иногда ответы на самые сложные запросы кроются при всем большом объеме текста в одном предложении.

Для этого потребовалось научиться оценивать релевантность отрывков текста (привычно для SEO-специалиста «пассажа») на странице одновременно с релевантностью страницы в целом.

Данная технология относится к ранжированию страниц, а не формирования сниппетов. В данном случае Passage ranking system позволила не просто выдать общую страницу в ответ на запрос, а найти отрывок текста, в котором представлен ответ на запрос.
Данная технология относится к ранжированию страниц, а не формирования сниппетов. В данном случае Passage ranking system позволила не просто выдать общую страницу в ответ на запрос, а найти отрывок текста, в котором представлен ответ на запрос.

RankBrain

По предназначению похож на Neural matching, но более ранняя модель (теперь неплохо уживаются вместе). Аналогично цель - увидеть за словами скрытые понятия. Это позволяет искать не только страницы со словами из запроса, но и по связанным с запросом словам.

Например, по запросу [what’s the title of the consumer at the highest level of a food chain] система, заранее увидев слова запроса на разных страницах, поймет, что говоря про пищевую цепочку имеются в виду сегмент животных.
Например, по запросу [what’s the title of the consumer at the highest level of a food chain] система, заранее увидев слова запроса на разных страницах, поймет, что говоря про пищевую цепочку имеются в виду сегмент животных.

Прочие системы ранжирования

  • Crisis information systems. Здесь больше о понимании запросов, в которых люди столкнулись с личным кризисом/стихийным бедствием и отображении в SERP контактов и сайтов доверенных специализированных организаций и служб спасения.
  • Freshness systems. Это системы, которые призваны понимать по каким запросам нужно показать больше свежего контента (например, по недавно вышедшим фильмам люди ищут свежие обзоры), а по каким можно показать и более старые авторитетные статьи.
  • Local news systems. Здесь больше про показ местных новостей по требующим того запросам.
  • MUM. В тысячу раз более мощный чем BERT. Позволяет как лучше понимать язык, так его и генерировать. Google говорит, что не особо использует MUM в общем ранжировании. Применяется больше для специфичных задач, например, для формирования выдачи по запросам про вакцины от Covid и формирования избранных сниппетов.
  • Original content systems. Эта система касается определения первоисточника материала и показа его в выдачи выше сайтов, которые просто скопировали материал.
  • Removal-based demotion systems. Здесь больше про жалобы за нарушение авторских прав и использование личной информации без согласия. Если на сайт поступает много таких жалоб Google может к ним прислушаться.
  • Page experience system. Про это писали весь предыдущий год везде -) Скорость загрузки страницы, удобство для мобильных устройств, отсутствие на страницах навязчивых межстраничных объявлений и безопасность. Фактор не сильно весомый и актуален, когда по остальным факторам страницы примерно одинаковой релевантности.
  • Product reviews system. Также часто мелькают в новостных лентах-) Речь про ранжирование по запросам про отзывы/обзоры товаров. Например, подтверждение реальности использования товара (чек, фото) будет играть в плюс.

В следующей статье мы закончим обзор следующих алгоритмов:

  • Reliable information systems
  • Site diversity system
  • Spam detection systems
  • Retired systems
  • Hummingbird
  • Mobile-friendly ranking system
  • Page speed system
  • Panda system
  • Penguin system
  • Secure sites system

Если есть пожелание рассмотреть какой-то алгоритм подробнее, то пишем в комментарии -)

1010
8 комментариев

Спасибо за положительную оценку)

2

Лаконично, но полезно.

1

Спасибо, за вашу обратную связь, Виктор

Иногда ответы на самые сложные запросы кроются при всем большом объеме текста в одном предложении.42

1

Да-) Яндекс также со своими Нейросетями в текстовом ранжировании примерно о том же говорил. Что условно страница с текстом занимает высокую позицию по факту из-за ответа в одном предложении.