На следующем этапе желательно также по маскам разделить на листинги, карточки товаров или другие типы страниц. Причем можно использовать маски не только по URL, но и по другим элементам, шаблонам оптимизации, наличию на страницах у сайта определенных элементов кода, которые можно задать в парсинге. Это нужно, например, если на сайте есть несколько типов карточек товаров или листингов, но у них имеются принципиальные отличия, которые важно учесть, а по маске в URL этого нельзя сделать. Здесь в качестве маркировки можно найти уникальный элемент на сайте и при парсинге в программе указать его, тогда мы с самого начала разметим все нужные нам страницы.
Любой способ сбора семантики (запросов, по которым пользователи ищут что-либо где-либо) имеет право на существование. Тут как с выбором движка — важно понимать, что и для чего ты делаешь. И не забывать показывать и объяснять клиенту варианты, чтобы клиент понимал, что его ждёт.
Раздутое ядроНет такого понятия. Есть полное ядро (относительно, поскольку любое ядро можно дополнить, а через год любое ядро однозначно не будет полным). И есть разные подходы к созданию ядра, которые зависят в том числе от объёма семантики.
Вы предлагаете использовать синтетику/генеренку? Без оценки спроса, семантических связей, интентов?
да, что-то можешь возразить?))
годно! осталось только собрать частотку, удалить "нули" и загнать в кластеризатор
Ага. Но если собирать по описанным выше вариантам, то кластеризация обычно не нужна :)
Одни плюсы (нет).