Спасибо за статью, видно не формально подходите к написанию. Виктор, подскажите, как сейчас Вы анализируете текстовые факторы конкурентов? Какие инструменты, какая логика анализа. Например, вот у меня страница сайта услуг за топ 50 или не релевантная. Нужно работать с вхождениями на документе когда позиции в топ 20?
При вхождении документа в топ-30 с текстовой релевантностью, как правило, уже всё неплохо, если речь о довольно конкурентной теме. В гиперконкурентной речь может идти о топ-50, скажем, там все сайты вылизаны. На минималках и в топ-10-15 бывает полный бардак. Инструменты - ну, для старта можно использовать любой толковый текстовый анализатор, работающий по зонам документа. Все они в основном ущербны в какой-то мере, и не охватывают ряд важных зон для анализа: а) Нет оценки контекстных векторов (то, что называется LSI в народе) б) Нет оценки уникальности документа в рамках коллекции (то есть отдельной посадки в рамках всего сайта) в) Нет способа оценить отдельный узел в рамках всего графа с аналогичными узлами в рамках конкурентного анализа. То есть сравнить одну посадку с топовыми - можно. Уже удается понять, где нужно подспамить, где убрать. Для прохождения кворума - вполне достаточно, но понять, насколько охвачена семантика - уже нельзя. Плюс к этому - коммерческие факторы. Они оцениваются на базе текстовых, но просчитываются отдельно. В общем, приходится мудрить с использованием готового инструментария ("Мегаиндекс", Just-Magic, можно попробовать Relevantus), много парсить с использованием XPath, отфильтровывать мусорные сигналы и ресурсы и т.п. Задачка комплексная, и единого программного решения пока я не знаю.
Спасибо за статью, видно не формально подходите к написанию. Виктор, подскажите, как сейчас Вы анализируете текстовые факторы конкурентов? Какие инструменты, какая логика анализа. Например, вот у меня страница сайта услуг за топ 50 или не релевантная.
Нужно работать с вхождениями на документе когда позиции в топ 20?
При вхождении документа в топ-30 с текстовой релевантностью, как правило, уже всё неплохо, если речь о довольно конкурентной теме. В гиперконкурентной речь может идти о топ-50, скажем, там все сайты вылизаны. На минималках и в топ-10-15 бывает полный бардак.
Инструменты - ну, для старта можно использовать любой толковый текстовый анализатор, работающий по зонам документа. Все они в основном ущербны в какой-то мере, и не охватывают ряд важных зон для анализа:
а) Нет оценки контекстных векторов (то, что называется LSI в народе)
б) Нет оценки уникальности документа в рамках коллекции (то есть отдельной посадки в рамках всего сайта)
в) Нет способа оценить отдельный узел в рамках всего графа с аналогичными узлами в рамках конкурентного анализа.
То есть сравнить одну посадку с топовыми - можно. Уже удается понять, где нужно подспамить, где убрать. Для прохождения кворума - вполне достаточно, но понять, насколько охвачена семантика - уже нельзя.
Плюс к этому - коммерческие факторы. Они оцениваются на базе текстовых, но просчитываются отдельно.
В общем, приходится мудрить с использованием готового инструментария ("Мегаиндекс", Just-Magic, можно попробовать Relevantus), много парсить с использованием XPath, отфильтровывать мусорные сигналы и ресурсы и т.п. Задачка комплексная, и единого программного решения пока я не знаю.