BERT – крупнейшее обновление Google. Как оптимизировать ваш сайт под BERT

BERT - это нейросеть, созданная Google в 2018 году и обновление алгоритма поиска в 2019 году. DrMax
BERT - это нейросеть, созданная Google в 2018 году и обновление алгоритма поиска в 2019 году. DrMax

BERT - это нейросеть, созданная Google в 2018 году и уже доказавшая преимущества в ряде практических задач. Используя её можно решать целый ряд задач: анализировать текст, отвечать на вопросы, создавать переводчики, выявлять спам, создавать системы предиктивного ввода текста и т.д. В октябре 2019 года Google добавила нейронную сеть BERT в ядро алгоритмов поиска Google для английского языка, а в декабре – для более чем 70 языков. Новое обновление поиска получило название BERT и затронуло 10% всех поисковых запросов.

1. BERT - нейронная сеть, созданная Google

Научить компьютеры понимать естественный текст, как это делает человек, является интересной и крайне сложной задачей. Ведь в естественном языке много нюансов, разобраться в которых с трудом могут даже люди. В информатике есть целый подраздел Natural Language Processing (далее – NLP) – методы обработки естественного языка. NLP позволяет применять алгоритмы машинного обучения для текста и речи.

Сегодня у многих из нас есть смартфоны с распознаванием речи – в них используется именно NLP. Также, многие люди используют ноутбуки и компьютеры со встроенным в ОС распознаванием речи.

Итак, в 2018 году Google анонсирует новейшую нейронную сеть BERT (Bidirectional Encoder Representations from Transformers). BERT использует Transfer learning (трансферное обучение), что позволяет использовать его основную языковую модель, дополнительно обучив её под свои конкретные задачи, самым разнообразным компаниям. Это означает, что обучение нейронной сети происходит в два этапа. Сначала долго и дорого её обучают на огромном корпусе в миллиарды слов (это называется pre-training). На втором этапе сеть можно быстро дообучить под разные задачи.

Ранее, одним из основных инструментов претренинга было нечто вроде словаря, использующего векторное представление слов, описывавших связи между словами в виде цифр. Однако прошедшая претренинг на векторном словаре нейросеть не понимала смысл слов. С её точки зрения, предложения «человек укусил собаку» и «собака укусила человека» идентичны.

В Google разработали уникальную систему претренинга для обеспечения нейросети более богатыми правилами – не только словарём, но и синтаксисом с контекстом. Исследователи начали обучать нейросети на более общей задаче под названием языковое моделирование, скармливая нейросетям огромные объёмы текста – миллиарды слов, расставленных в грамматически корректные предложения. После этого нейросеть должна уметь предсказать следующее слово в тексте самостоятельно.

По сути, BERT состоит из трех важнейших составляющих. Во-первых - это прошедшая претренинг языковая модель. Во-вторых – возможность решить, какие из особенностей предложения являются наиболее важными. В-третьих, в отличие от других прошедших претренинг языковых моделей, созданных посредством обработки нейросетями терабайтов текста, читаемого слева направо, модель BERT читает и справа налево, и одновременно слева направо, и обучается предсказывать, какие слова случайным образом были исключены из предложений.

Каждый из трёх этих составляющих – глубокая модель языка с претренингом, внимание и двунаправленность – существовали до BERT по отдельности. Но до тех пор, пока Google не выпустил свой алгоритм в конце 2018 года, никто не скомбинировал их таким успешным образом.

2.Внедрение BERT в основной алгоритм поиска Google

В октябре 2019 года Google «выкатил» обновление ядра алгоритмов поиска под названием BERT. Отныне, одноименная нейросеть будет работать в качестве составляющего ядра алгоритмов поиска. По заверению Google - это крупнейшее обновление ядра со времен RankBrain.

Многие вебмастера не заметили скачков трафика после внедрения нового алгоритма, хотя Google заверяет, что оно коснулось 10% всех поисковых запросов. Чтобы понять, почему вебмастера не ощутили значительных колебаний трафика, еще раз рассмотрим как работает BERT и на какие запросы он влияет.

Типичный вебмастер, в основном, сфокусирован на СЧ или даже ВЧ запросы, которые достаточно коротки (1-3 слово). BERT сфокусирован на обработке длинных запросов. Именно поэтому большинство вебмастеров пока не замечают колебания, которое оказал BERT на выдачу.

Итак, BERT лучше понимает и интерпретирует НЧ и микро-НЧ запросы, длинный хвост запросов. В частности, - это могут подтвердить дорвейщики, которые ощутили резкие колебания трафика и некоторые вебмастера, плотно работающие с 3-5-словниками, что характерно для продуктовых партнерок, например работающих под Amazon.

Необходимо понимать, что BERT – это не фактор ранжирования. Непосредственно на ранжирование органической выдачи она не влияет. Однако, нейросеть позволяет Google лучше интепретировать запросы пользователей, лучше понимать интент. Именно это может достаточно сильно повлиять на Ваш трафик, после дальнейшего обучения нейросети.

Если вы не заметили значительных флуктуаций в выдаче, это не означает, что их не было. Вы просто их не искали.

3. Как найти запросы, на которые повлиял BERT и как оптимизировать сайты под них

Методика поиска запросов, на которые оказал влияние алгоритм BERT – достаточно стандартна и я расписывал её неоднократно за последние несколько лет.

Смотрите например в статье про YMYL в разделе «Как найти некачественный контент на сайте».

Еще один способ есть непосредственно в разделе статьи про BERT, где ищем запросы используя Search Console.

В целом алгоритм очень прост. Для поиска запросов, на которые оказал влияние BERT можно использовать Google Analytics или Google Search Console.

Даты релиза алгоритма нам известны - 21 октября 2019 для англоязычных и 9 декабря для русскоязычных сайтов. Отсчитываем 3-4 недели после даты релиза (можно и больше) и сравниваем его с аналогичным предыдущим периодом.

Для поиска используем каналы (органическую выдачу Google). И далее строим разрез по ключевым словам.

Нам интересны запросы, которые существовали в предыдущем периоде, а в новом периоде (после внедрения алгоритма) не имеют показов. Так мы найдем утерянные запросы. Отсортировав результат по отсутствующим в предыдущем периоде и появившемся в новом (после релиза ядра алгоритмов), мы увидим, какие запросы появились, как теперь Google осмысляет контент.

Если в указанный период на сайт добавлялся контент, то запросы, подходящие новому контенту необходимо исключить из анализа.

Получив список запросов можно приступать к оптимизации вашего сайта.

Как известно, сотрудники Google утверждают, что оптимизация под BERT - невозможна. Об этом высказался и Дэнни Салливан и Джон Мюллер.

«Запросы не являются чем-то, на что вы можете повлиять в плане SEO», – сообщил Мюллер.

«Если есть что-то, что вы можете сделать для оптимизации под алгоритм BERT, так это убедиться, что на ваших страницах естественный текст… Вместо того, чтобы использовать как можно больше ключевых слов, пишите естественно».

Не густо, не правда-ли?

Итак, чтобы «оптимизировать» под алгоритм BERT, рекомендую изучить ваш набор данных по приобретенным и потерянным ключевым словам и провести традиционную оптимизацию контента, чтобы улучшить или восстановить позиции запросов.

Сначала вам нужно определить ключевые слова, которые вы потеряли после обновления BERT и заняться редакцией контента для их восстановления. При этом вовсе не нужно добавлять в контент эти поисковые запросы. Иногда достаточно добавить несколько предлогов и перефразировать пару предложений.

В случае «пропажи» запросов, скорее всего страница перестала ранжироваться из-за «смещения акцентов» в смысле контента, совсем как в примере про преподавателя и студента. Обновление BERT помогает Google лучше понимать семантику (значение слов и фраз). Это означает, что если вы ранее ранжировались по фразе с длинным хвостом, но потеряли позиции после внедрения BERT, то, вероятно, страница соответствовала ключевым словам в запросе, но на самом деле не соответствовала цели поиска (интенту). Необходимо добавить смысла тем фразам и акцентировать внимание на тех словах, которые соответствуют интенту пользователя.

Говоря попросту, ранее страница незаслуженно ранжировалась по утерянным запросам. Новый алгоритм BERT помог Google это понять. Вам придется немного постараться, обновляя контент, чтобы вернуть утерянные запросы.

Улучшайте ваш контент и для тех ключей, которые появились после обновления BERT. Изучите, что именно пишут конкуренты и как они расставляют акценты в своих текстах. Используйте идеи конкурентов, чтобы сделать свой контент более «ценным», чем у них. Необходимо отвечать на конкретные запросы в своем контенте лучше, чем конкуренты.

Огромное количество способов оптимизации приведено в моей книге «SEO Монстр 2020». На более чем 700 страницах раскрыты все важнейшие факторы ранжирования и методы воздействия на них с практическими примерами.

Хороший рост показали информационные сайты, построенные по SILO-структуре. Здесь изолированные кластеры запросов более точно давали ответы на НЧ запросы за счет наличия значительного числа «поддерживающих» страниц.

Заключение

Внедрение нейросети BERT в ядро алгоритмов поиска Google - очередной шаг корпорации к улучшению понимания запросов пользователей, заданных на естественном языке.

Нейросеть будет развиваться на всех уровнях. Уверен, что она пройдет не только post но pre- тренинг, будет постоянно обучаться, в том числе и силами асессоров, контролирующих качество органической выдачи. Все это скажется в дальнейшем на стратегиях продвижения сайтов и способах манипуляции ранжирующими факторами.

И обратите внимание, что русскоязычная языковая модель, по сравнению с англоязычной, на порядок хуже прошла пре-тренинг и показывает гораздо худшие результаты. Это означает, что основные обновления как языковой модели, так и обученной нейросети BERT еще впереди.

Готовьтесь и читайте правильную литературу, чтобы понимать, как нужно оптимизировать свой сайт.

Источник: DrMax.su

11
1 комментарий

"Сначала вам нужно определить ключевые слова, которые вы потеряли после обновления BERT и заняться редакцией контента для их восстановления".
Это понятно, а как исправлять (что делать)? Кстати, что вы думаете об этой статье?

Ответить