Давно отлично справляются в облаках такие поиски, https://sonar.network Искал там дубли и отсутсвующие канонические ссылки. Так же проверяет с www и без www. Да вообще много что проверяет. Без танцев с бубном
Ничего хорошего на этом сервисе не нашел. Они явно пытались скопировать отличный seoto.me, но получилось плохо. Часть ошибок – вообще вода и ни к чему, какая-то муть :) Сеото в этом плане более понятный, структурированный, гораздо больше функционала и полезной информации без всякой дичи вроде "отсутствует keywords" или "пустые или не содержащие параметра href ссылки".
Зачем готовить типы страниц, если те же нетпик спайдер и скриминг фрог могут найти дубли без таких плясок? а если на сайте есть какой-то тип страниц о котором я не знаю?
Почитайте внимательно статью. Там четко указано: что на практике очень часто встречается ситуация, когда ни внутренних, ни внешних ссылок на сайте на страницы дублей нет, а вот поисковые системы их индексируют. И тут никакой паук вам не поможет.
Да и просто проверить внедрение рекомендаций, как ведут себя несуществущие страницы и страницы дублей с помощью сервиса намного проще. Для пауков нужно генерить данные страницы ручками. Есть время - генерьте.
1) В результатах не хватает колонки с наличием и значением rel=canonical.
2) Также неплохо было проверять robots.txt на закрытие "дубля" к индексации.
3) Стоит визуально выделять найденные дубли в результатах хоть как-то.
4) С index.php в конце иногда отрабатывает некорректно. Показывает сразу 200, хотя в Хроме(!) сначала видно 301, а потом уже 200 у конечной страницы без index.php. Хотя посмотр другими тулзами тоже показывает только 200 у страницы с index.php. :)
1. 2. В планах есть реализовать данные пункты + забыли про meta robots) Вообще много планов по его развитию. Так как реально сервис за небольшой период времени уже позволил сэкономить уйму времени.
Материал серьезный, правда остается непонятным - где именно создаются все эти варианты полных или частичных дублей - в какой конкретно CMS и как. К тому же, есть проект в котором .html дублей (статики) предостаточно, и первые шаги по устранению, выявили необходимость писать и переписывать объемный php скрипт, анализирующий _контент_ - с кучей, как выше замечено, regexp и попутно исправлением ошибок в html коде ... дошли где-то до середины и сдались (на время), т.к. утонули в лабиринте ветвлений условий - вот приблизительно как у Вас с кучей пунктов и подпунктов.
Все эти страницы в итоге могут появляться в индексе, если они отдают 200 код. Как их находят поисковые системы? Это другой вопрос. Как вариант проанализируйте проиндексированные страницы в Яндекс Вебмастере и Google Search Console - увидете много интересно. Почти у каждого проекта находятся дубли, указанные в статье. Поэтому на начальном этапе продвижения проекта лучше обезопасить себя от их индексирования.
Ну и тут активное движение, много всего полезного по мимо дублей страниц. Свой вклад и я внесу (может кому будет полезно), тут ребят читал, очень много полезного в управлению интернет-магазина, много лайфхаков: https://neoseo.com.ua/developing-e-shop
Давно отлично справляются в облаках такие поиски, https://sonar.network
Искал там дубли и отсутсвующие канонические ссылки. Так же проверяет с www и без www.
Да вообще много что проверяет. Без танцев с бубном
Ничего хорошего на этом сервисе не нашел. Они явно пытались скопировать отличный seoto.me, но получилось плохо. Часть ошибок – вообще вода и ни к чему, какая-то муть :) Сеото в этом плане более понятный, структурированный, гораздо больше функционала и полезной информации без всякой дичи вроде "отсутствует keywords" или "пустые или не содержащие параметра href ссылки".
Зачем готовить типы страниц, если те же нетпик спайдер и скриминг фрог могут найти дубли без таких плясок?
а если на сайте есть какой-то тип страниц о котором я не знаю?
Почитайте внимательно статью. Там четко указано: что на практике очень часто встречается ситуация, когда ни внутренних, ни внешних ссылок на сайте на страницы дублей нет, а вот поисковые системы их индексируют. И тут никакой паук вам не поможет.
Да и просто проверить внедрение рекомендаций, как ведут себя несуществущие страницы и страницы дублей с помощью сервиса намного проще. Для пауков нужно генерить данные страницы ручками. Есть время - генерьте.
1) В результатах не хватает колонки с наличием и значением rel=canonical.
2) Также неплохо было проверять robots.txt на закрытие "дубля" к индексации.
3) Стоит визуально выделять найденные дубли в результатах хоть как-то.
4) С index.php в конце иногда отрабатывает некорректно. Показывает сразу 200, хотя в Хроме(!) сначала видно 301, а потом уже 200 у конечной страницы без index.php.
Хотя посмотр другими тулзами тоже показывает только 200 у страницы с index.php. :)
Спасибо за коммент.
1. 2. В планах есть реализовать данные пункты + забыли про meta robots) Вообще много планов по его развитию. Так как реально сервис за небольшой период времени уже позволил сэкономить уйму времени.
3. Уточните, не совсем понятно о чем речь.
4. Да, есть такой момент. Думаем как его решить.
По поводу ламоды.
Недавно выкатили изменения с багами.
Но под ботами вы не зайдёте на страницу без последнего слеша)
Надо было сразу и регэкспы дать по каждому пункту на удаление
Материал серьезный, правда остается непонятным - где именно создаются все эти варианты полных или частичных дублей - в какой конкретно CMS и как.
К тому же, есть проект в котором .html дублей (статики) предостаточно, и первые шаги по устранению, выявили необходимость писать и переписывать объемный php скрипт, анализирующий _контент_ - с кучей, как выше замечено, regexp и попутно исправлением ошибок в html коде ... дошли где-то до середины и сдались (на время), т.к. утонули в лабиринте ветвлений условий - вот приблизительно как у Вас с кучей пунктов и подпунктов.
остается непонятным - где именно создаются все эти варианты полных или частичных дублей
Все эти страницы в итоге могут появляться в индексе, если они отдают 200 код. Как их находят поисковые системы? Это другой вопрос. Как вариант проанализируйте проиндексированные страницы в Яндекс Вебмастере и Google Search Console - увидете много интересно. Почти у каждого проекта находятся дубли, указанные в статье. Поэтому на начальном этапе продвижения проекта лучше обезопасить себя от их индексирования.
Комментарий удалён модератором
Когда 5 топовых CMS в рунете решат свои seo проблемы, 99% сеошников лишаться работы.
rel=canonical решает все проблемы, хоть //// хоть /index.php хоть с www или без. Если правильно прописан canonical то дело в шляпе!
Еще robots txt в котором можно clean param у указывать для фильтров и сортировки
Т.е достаточно прописать canonical для товара или статьи + clean param для категории где есть сортировка и всё
Ну и тут активное движение, много всего полезного по мимо дублей страниц.
Свой вклад и я внесу (может кому будет полезно), тут ребят читал, очень много полезного в управлению интернет-магазина, много лайфхаков: https://neoseo.com.ua/developing-e-shop
Вот это лайфхак! (нет). Как будто в 2008 вернулся