Правильно собрать семантическое ядро для продвижения сайта

Подробная инструкция от руководителя оптимизаторов в «Ашманов и партнёры» Никиты Тарасова.

Семантическое ядро — основа поискового продвижения. Если допустить ошибки на этом этапе, дальнейшая работа по SEO пойдёт под откос. Это руководство поможет собрать семантику для проекта любого масштаба и ничего не упустить.

Правильно собрать семантическое ядро для продвижения сайта

Сбор семантического ядра состоит из четырёх последовательных этапов:

получение маркеров* и работа с ними;
парсинг запросов;
чистка запросов;
распределение запросов и кластеризация .

*Маркером (или маркерным запросом) называют слово или словосочетание наиболее точно отражающее суть конкретной страницы сайта. Обычно в качестве основного «маркерного» запроса для страницы берётся содержимое заголовка h1. У одной страницы может быть несколько маркерных запросов.

На рисунке изображена последовательность действий по подбору и обработке маркеров:

Последовательность подбора и обработки маркеров

Собирать заголовки вручную долго и муторно, особенно если сайт состоит из тысяч страниц. Процесс можно автоматизировать и ускорить с помощью «пауков».

«Пауки» — программы, которые эмулируют роботов поисковых систем: обходят все страницы на сайте, получают список URL-адресов и заголовков h1. Список экспортируется в любой удобный формат, например, в Excel. Вот ссылки на наиболее популярные программы:

Убедитесь, что собранные маркерные запросы обладают частотностью. Если частотность вызывает сомнения, сверьтесь с «Вордстатом», а потом скорректируйте запрос или найдите более частотный.

Не используйте несколько интентов (потребностей пользователей) для продвижения на одной странице. Например, на сайте магазина мебели есть раздел «Кресла и стулья». Но пользователи так не ищут, поэтому эффективней создать два отдельных раздела «Кресла» и «Стулья».

Не проектируйте структуру сайта так, чтобы в разных разделах дублировались одинаковые страницы, как на скриншоте ниже.

Страница «Смесители» дублируется в разделах «Ванная» и «Душ»

В примере выше для раздела «Душ» можно оставить ссылку на раздел «Смесители для ванны и душа», но она должна вести на страницу: http://www.domain.ru/catalog/vannaya/smesiteli-dlya-vanny-i-dusha/.

Не создавайте отдельные страницы под синонимичные группы запросов вроде «дешевые матрасы», «недорогие матрасы». Они могут быть восприняты поисковыми системами как нечёткие дубли. Это может привести к проблемам с индексацией сайта: часть страниц будет исключена из поиска.

Чтобы определить, какие запросы можно продвигать на одной странице, а какие — нет, воспользуйтесь сервисом кластеризации*.

*Кластеризация — принцип группировки запросов на основании общего числа URL в поисковой выдаче.

Суть кластеризации в том, чтобы изучить, как распределены запросы у сайтов, уже находящихся в верхней десятке поисковых систем. Для определения совместимости интентов идеально подойдёт такой сервис. А про методы кластеризации подробнее расскажу ниже.

Когда мы получили маркеры, дальше собираем ключевые слова с помощью «Вордстата». Стоит учесть, что «Вордстат» отображает только 41 страницу со статистикой по запросу.

Если мы имеем дело с частотным маркером (например, «Диван»), то есть вероятность, что весь пул запросов мы не охватим.

<p>Как видно, запросы ещё есть, но на следующей странице результаты не отображаются</p>

Поэтому стоит подготовить список уточняющих запросов, характерных для конкретной тематики: например, «диван купить», «диван цена» и так далее.

Готовые тематические подборки можно найти на этой странице.

Получить маркеры, сцепленные с дополнительными словами, можно при помощи формулы =СЦЕПИТЬ(A1;" ";$E$1).

Маркеры не должны содержать символы .,"?!()- и другие знаки. Замените символы в Excel на пробел, используя сочетание клавиш Ctrl и H, а затем проверьте список маркерных запросов на орфографию.

Проанализируйте сайты конкурентов, находящиеся в топе выдачи по интересующим вас запросам. В ходе анализа особенно интересно получить заголовки «теговых страниц», которые заточены под конкретный пользовательский интент.

Заголовки сайтов-конкурентов можно просканировать «пауками», о которых говорилось выше (например, Screaming frog SEO spider).

Этот подход поможет расширить структуру сайта и подобрать новые запросы для семантического ядра.

Под нормализацией понимается определение наиболее частотной формы запроса. Это нужно, чтобы не упустить запросы с высокой частотой, приносящие больше трафика на сайт.

Если запросов немного, они состоят из двух слов, то определить наиболее частотный запрос можно в «Вордстате» при помощи операторов: "[!поисковый !запрос]".

Например:

Если запрос состоит из трех и более слов, а запросов больше ста, проверка вручную займёт много времени. Чтобы автоматически выявлять наиболее частотную словоформу, я сделал специальный парсер на базе А-parser.

Логика работы парсера в следующем:

в «Вордстате» запросы выводятся в порядке убывания частоты;
каждый запрос, подаваемый на вход, заключается в кавычки, тем самым анализируются все словоформы запроса;
в качестве результата берётся первый запрос из левой колонки, то есть наиболее частотная из словоформ.

Как видно из примера ниже, наиболее частотной словоформой является «купить диван», что подтверждается точной частотой запросов из примеров выше.

Когда мы провели работы, описанные в разделе, у нас получается список маркерных запросов, удовлетворяющий следующим критериям:

нет опечаток;
нет символов и знаков препинания;
все маркерные запросы частотные;
часть маркеров содержит дополнительные слова и словосочетания, характерные для конкретной тематики;
в списке присутствуют наиболее частотные словоформы запросов;

Список маркеров, который мы получили, нужно расширить дополнительными словами — «хвостами». Это поможет нам максимально охватить семантику в поисковой нише, в которой продвигается сайт. Дополнительные слова можно взять из источников, указанных на схеме ниже.

Наиболее популярные источники для парсинга поисковых запросов

Коротко разберу особенности некоторых источников.

Основное преимущество подсказок в том, что их база намного больше, чем база того же «Вордстата».

В подсказки попадают запросы, обладающие частотой, которые реально запрашивают пользователи. В «Вордстате» же есть доля мусорных и автосгенерированных запросов, не обладающих реальным поисковым спросом.

Подсказки в «Яндексе» можно получать в формате json. В этом случае каждой поисковой подсказке присваивается определенный тип.

Ниже приведены наиболее часто встречающиеся типы подсказок:

B и T обозначают «обычные» подсказки;
W — это перестановка слов;
In — автодополнение;
Pb — порно-подсказка;
Nav — навигационный запрос;
Rich — расширенная подсказка-сниппет, появляется для «Википедии»;
Tail_word — как правило, означает, что подсказка дополняется не с конца, а с начала;
Art, Fast_w, Fresh_console, Fast — неизвестные типы.

Например, после сбора можно сразу удалить все подсказки с типом «In», что существенно уменьшит число мусорных запросов. Для сбора подсказок с указанием типов я использую парсер.

В «Вебмастере» есть раздел, в котором можно получить рекомендованные поисковые запросы. Достаточно нажать на кнопку и через некоторое время список будет доступен для скачивания.

Рекомендованные поисковые запросы в «Яндекс.Вебмастере»

Часть запросов можно выгрузить из отчёта «Яндекс.Метрики»: «Стандартные отчеты» → «Источники» → «Поисковые запросы».

Выгрузка поисковых запросов из «Яндекс.Метрики»

В Google Analytics также есть данные о запросах, но с 2011 года Google начал шифровать запросы пользователей, поэтому собрать большой объём информации из данного источника не получится.

Выгрузка поисковых запросов из Google Analytics

На рынке есть готовые базы ключевых слов для различных тематик. Например:

«Букварикс»;
pastukhov.com.

У готовых баз есть два недостатка: они обновляются нерегулярно и содержат много мусорной и автосгенерированной семантики.

Тем не менее предпочтительнее использовать базу «Букварикс». Как показали исследования коллег из Rush Analytics, она содержит минимум мусорных запросов и к тому же бесплатная.

SaaS-решения (software as a service) помогают выгружать списки запросов, по которым находится в выдаче ваш сайт или сайты конкурентов. Ниже список наиболее популярных сервисов:

Когда получим «хвосты» для маркерных запросов, нужно объединить данные из всех источников в один список и избавиться от дублей.

Для автоматизации сбора запросов можно воспользоваться программами:

И сервисами:

В процессе сбора хвостов в списки неизбежно попадают мусорные запросы. Избавится от них можно с помощью функции «Стоп слова» программы Key collector.

В качестве стоп-слов можно использовать готовые тематические подборки.

С помощью функции «Анализ групп» можно найти и удалить нецелевую семантику.

Часть собранных запросов может быть автосгенерированными или низкочастотными (менее трех запросов). Если такие запросы попадут в семантическое ядро, то с высокой вероятностью для них будут созданы отдельные страницы на сайте. Значимого объема трафика они не принесут, но будут отнимать краулинговый бюджет.

Краулинговый бюджет — количество страниц, которые поисковый бот может обойти за период времени.

Нижний порог частоты запроса определяется отдельно для каждой тематики. Брать в работу микро- и низкочастотные запросы стоит лишь в исключительных ситуациях (например, если продукт супермаржинальный). Пример: разработка и внедрение ERP-систем, продажа нефтеперерабатывающего оборудования и так далее.

Для определения точной частоты запросов можно воспользоваться одной из программ — Key collector или A-parser, либо сервисами:

После чистки вы получите список целевых запросов, обладающих достаточной частотой.

Основная идея кластеризации — выяснить, как распределены запросы у сайтов, находящихся в первой десятке поисковой выдачи.

Наиболее широкое распространение данная методология получила около четырёх лет назад. Правда, некоторые оптимизаторы до сих пор предпочитают распределять запросы вручную, а зря.

Кластеризация позволяет решить ряд проблем при распределении запросов по страницам сайта. Она особенно полезна на больших объемах — от 1000 запросов и более.

Запросы «пудра» и «пудра купить» на первый взгляд про одно и тоже. Но в первом случае поисковая выдача заполнена преимущественно информационными сайтами.

Исключение составляют два сайта: pudra.ru и «Подружка»: https://www.podrygka.ru/catalog/makiyazh/litso-1/pudra/. Их в расчет не берем, так как первый ранжируется за счет вхождения запроса в домен. А второй — за счёт своей популярности и больших объёмов прямого трафика на сайт.

По запросу «пудра» лидируют в основном информационные сайты

По запросу «пудра купить» десятку результатов поисковой выдачи занимают в основном интернет-магазины.

Можно сделать вывод, что продвинуть оба запроса на одной странице не получится. Для продвижения запроса «пудра» нужна информационная статья с достаточным объемом текста и иллюстрациями. А для продвижения запроса «пудра купить» — небольшой текст и каталог товаров с ценами.

Результаты выдачи поисковых систем — особенно «Яндекса» — достаточно сильно типизированы. Выдача состоит либо преимущественно из коммерческих сайтов, либо из информационных. Кластеризация позволяет с большой точностью отделить коммерческие запросы от информационных.

Теперь проанализируем выдачу по запросы «люстры купить» и «люстры интернет-магазин», которые также похожи. Видно, что по запросу «люстры купить» топ занимают внутренние страницы сайтов, а по запросу «люстры интернет-магазин» — главные страницы.

По запросу типа «люстры купить» приоритет отдается внутренним страницам сайтов

Следовательно, по запросу «люстра купить» продвигаем внутренние страницы с каталогом люстр, а по запросу «люстры интернет магазин» — главную страницу сайта.

На скриншоте ниже видно, что запросы «угловые диваны» и «недорогие диваны» не имеют между собой ни одного общего URL. Для достижения лучших результатов эти запросы стоит продвигать на отдельных страницах.

Кластеризация — инструмент аналитики, который не даёт готового решения. Он собирает данные в удобном отображении для дальнейшей постобработки и анализа.

Существует два метода кластеризации:

Hard — используется для продвижения по позициям, а также для продвижения в конкурентных тематиках. Количество запросов в кластере меньше, но точность выше.

Условие, соблюдаемое при hard-кластеризации, — у всех запросов в кластере должен быть общий набор URL.

Soft — в основном используется для трафикового продвижения. Количество запросов в кластере больше, но точность ниже.

Условие, соблюдаемое при soft-кластеризации, — запросы сравниваются на предмет общих URL у всех запросов в группе. Например, у запроса А есть общий набор URL с запросом В, у запроса В есть общий набор URL с запросом С.

Схематичное изображение методов hard- и soft-кластеризации

Приведу несколько популярных сервисов кластеризации:

Spyserp — сервис, платный;
Rush analytics — сервис, платный;
«Топвизор» — сервис, платный;
coolakov.ru/tools/razbivka/ — сервис, бесплатный;
Keyassort — программа, платная.

Для постобработки кластеризованной семантики можно воспользоваться бесплатной надстройкой для Excel.

Если проект содержит тысячи посадочных страниц, лучше собирать семантику отдельно для каждого раздела, учитывая приоритеты бизнеса и сезонность. А затем последовательно собирать семантическое ядро для двух–трёх разделов за каждую итерацию. Такой подход позволит собрать качественное семантическое ядро и не упустить целевые запросы

Если же собирать семантическое ядро сразу под весь проект, то на выходе получатся тысячи или даже десятки тысяч кластеров запросов, которые будет сложно обработать.

На первом шаге, описанном в статье, мы выгружали табличный список «Маркерный запрос — URL». Если сохранить URL после всех корректировок с маркерными запросами, то с помощью функции ВПР в Excel можно привязать часть URL-адресов к уже раскластеризованной семантике.

То есть — если маркерный запрос находится в кластере с другими запросами и у маркерного запроса уже известен URL, то можно считать, что все запросы кластера принадлежат к этому URL.

Не стоит бояться развивать структуру сайта. Если по результатам сбора запросов и их кластеризации вы понимаете, что под часть запросов не хватает посадочных страниц, лучше создать их или в крайнем случае отказаться от продвижения части запросов. Это будет эффективнее, чем вести несколько групп запросов (часто с несовместимыми интентами) на одну страницу сайта.

25 комментариев

Алексей Титов

18.03.2019

Спасибо за статью. Что-то стало понятно и, главное, есть определенный, вполне съедобный маршрут (простите мой клатчский). Но, чуть попроще бы? Вот что бы совсем для вчерашних завхозов, которые сегодня узнали, что помимо отопления ещё и за сайт отвечают.

Ответить

Ашманов и партнеры

Автор

Вам спасибо! Попробуем :)

Taras Yurchyshyn

Отличная статья! Частотку и кластеризацию, кстати, у Spyserp можно получить на триальной версии. Ну а если захочется еще и позиции проверять - тогда уже придется хоть и немного, но доплачивать

Alexey Korovin

19.03.2019

Умничка. Столько всего полезного написал что тяжко прочитать все сразу) В закладки)

Аккаунт удален

Комментарий недоступен

Nikita Tarasov

Здесь стоит смотреть конкретный проект – возможно маркеры присутствуют в title или в заголовках более низкого уровня <h2>…<h6>
Если на сайте есть «хлебные крошки» - возможно взять конечный элемент из хлебных крошек за основу маркерного запроса
Так же в Screaming Frog SEO Spider есть встроенный парсер http://joxi.ru/p273jYxsKWB9G2, который позволяет получить элементы со страницы и использовать их в качестве маркеров

joxi.ru

Screaming Frog SEO Spider 11.1 - List Mode (27 kb) закачан 18 марта 2019 г. Joxi

20.03.2019

Нужно понимать, что после сбора семантического ядра остается еще большой список работ по сайту, которые нужно выполнить для достижения результата. На изображении в самом начале статьи это наглядно отражено - после сбора ядра необходимо выполнить:
проверку сайта на наличие технических ошибок, устранить все обнаруженные ошибки
скорректировать текстовую составляющую
провести аудит и корректировку (при необходимости) внешней ссылочной массы
проверить корректно ли настроена гео-привязка сайта к конкретному региону
проверить наличие необходимого коммерческого функционала, характерного для конкретной поисковой ниши ( в случае если продвижение идет по транзакционным запросам и в продвижении находится коммерческий ресурс)
провести usability аудит ресурса
проверить наложены ли на сайт санкции со стороны поисковых систем

Выше описал весь "туман в XXX". Одной статьи явно не хватит, чтобы подробно описать все перечисленные выше работы. Более подробно кстати про все аспекты поискового продвижения можно прочесть в книге https://www.ashmanov.com/education/book/
Резюмируя все выше сказанное - могу сказать, что SEO в текущих реалиях - это комплекс работ, при том взаимосвязанных друг с другом.

Касательно текста YYY - как уже писал в комментарии выше стоит воспользоваться сервисом текстового анализа. Сервисов, которые позволяют подобный анализ достаточно много на рынке.

Основная идея тут следующая - сервисы текстового анализа (ТА) анализируют страницы сайтов, находящиеся в ТОП-10 конкретной поисковой системы по заданному списку запросов. Далее выкачивают страницы и подсчитывают среднее количество вхождений запросов и слов запроса в областях страницы (title/h1/тексты ссылок/тексты/текстовые фрагменты).

ТА так же как и кластеризаторы - аналитические инструменты, автоматизирующие рутинные действия и предоставляющие информацию в удобном виде. Составление ТЗ по корректировке текстовой составляющей всегда остается за оптимизатором.