SEO-специалист и разработчик SEO Semantic Lab. Делюсь практикой по кластеризации, стратегии, структуре сайта и текстовой релевантности.
Виктор, хороший комментарий.
Согласен, что без онтологии и без учёта интересов самого поисковика любая кластеризация быстро вырождается в механическую группировку запросов.
Я бы только разделил два слоя:
1. Архитектура спроса — сущности, интенты, связи между темами, типы страниц.
2. Архитектура SERP — что по этому спросу реально отдают поисковики: свои вертикали, агрегаторы, фиды, категории, статьи, карточки и т.д.
И вот нормальная кластеризация, на мой взгляд, должна стоять на пересечении этих двух слоёв.
Не “какие слова похожи”, а какой спрос есть, какой тип страницы подтверждается выдачей и есть ли вообще смысл заходить туда внешним сайтом.
Виктор, согласен: XML сейчас шумит сильнее, чем раньше, и персонализация там точно добавляет хаоса.
Но я бы из этого не делал вывод, что кластеризация по выдаче умерла. Скорее, classic hard/soft уже не всегда хватает.
Проблема hard/soft в том, что они могут склеить запросы по пересечениям URL на 7–10 местах, хотя в топ-3 у запросов уже разные паттерны и по факту разные центры кластера. Для структуры сайта это критично.
Поэтому мне ближе подход через URL-лидера:
сначала ищем повторяемый паттерн в верхней части выдачи, потом распределяем фразы по лидерам с учётом весов, а мелкие/спорные группы уже дособираем по пересечениям лидеров и top-1.
Плюс можно:
— брать не только полный топ-10, но и частичный;
— смешивать гео;
— смешивать Яндекс и Google;
— отсекать шум через выбранных конкурентов, тип сайтов, ИКС и т.д.
Идеала это не даёт, но на практике такая логика обычно быстрее и точнее раскладывает спрос в рабочую структуру, чем классический hard/soft “в лоб”.