Скачайте этот Excel-файл и проверяйте семантику на полноту математически

Поделились внутренним инструментом, который анализирует собранные фразы и показывает, где и что еще можно добрать.

1515

Кластеризации делается на основе выдаче. У вас какой странный подход. В одном кластере два совершенно разных интента.

Ответить

Максим, кластеризацию на основе выдачи используем на стадии формирования сегмента. Ссылка есть в статье. Здесь задача — проверить семантику на полноту, поэтому в столбце grp3 указываем один кластер на все запросы. Если не проверим семантику сразу и упустим что-то важное, а потом обнаружим это на стадии формирования сегмента, то придется пересобирать и переделывать кластеры, что займет в разы больше времени. Семантический кластер — это «материнская» фраза со всеми ее хвостами в рамках выборки. Функционал сделан для наглядности и проверки.

Ответить