Пути семантиста неисповедимы

У каждого, конечно, свой путь.

В публикации обозначена чистка СЯ, но по сути речь идет о кластеризации. И тогда неясен такой алгоритм. Я бы ещё поняла, если это реклама сервисов Арсенкина (очень уважаю). Иначе очень неудобная схема -- запутанная, чрезмерно усложненная и в целом костыльная.

К тому же в связи с наличием более простых альтернатив хотелось бы увидеть, скока всё это стоило. Потому что даже простой фильтрацией руками в Экселе можно сократить количество запросов для обработки. А ведь запросы нынче везде дОроги.

И да, в Экселе можно разделить по столбцам (например, по слешам) -- без всяких формул.

Вообще не вижу смысла морочиться с доменами (привет Саше Ожгибесову, который записывал видео про это 100 лет назад -- правда, там речь шла об оценке конкурентности; не уверена, что он автор метода, но рассказывал хорошо).

Имхо, с массивом фраз проще поступить так:

1) получить уникальные слова: ключевые маркеры и модификаторы; отсеять совсем ненужное. Но нужно быть осторожным и не полагаться на собственное представление. Маркер может быть нецелевым в связке с модификатором М1, но целевым в связке М1+М2;

*вариантов выделения уников много, например, такие (для тех, у кого нет Кейколлектора):

разделить данные в Экселе по столбцам, удалить дубликаты;
закинуть данные в соответствующий инструмент (гуглите, есть и бесплатные).

2) для оставшихся фраз собрать поисковую выдачу и кластеризовать (где угодно).