Итак, мы определились, что проект не должен содержать дубли. Точка. Особенно критично, когда дубли начинают индексироваться поисковыми системами. И чтобы этого не случилось, а также для предотвращения других негативных последствий, их нужно выявлять и устранять. О том, как с ними бороться, можно найти много материалов, но если в комментариях будут просьбы рассказать подробнее, то я обязательно это сделаю в одной из следующих статей.
Давно отлично справляются в облаках такие поиски, https://sonar.network
Искал там дубли и отсутсвующие канонические ссылки. Так же проверяет с www и без www.
Да вообще много что проверяет. Без танцев с бубном
Ничего хорошего на этом сервисе не нашел. Они явно пытались скопировать отличный seoto.me, но получилось плохо. Часть ошибок – вообще вода и ни к чему, какая-то муть :) Сеото в этом плане более понятный, структурированный, гораздо больше функционала и полезной информации без всякой дичи вроде "отсутствует keywords" или "пустые или не содержащие параметра href ссылки".
Зачем готовить типы страниц, если те же нетпик спайдер и скриминг фрог могут найти дубли без таких плясок?
а если на сайте есть какой-то тип страниц о котором я не знаю?
Почитайте внимательно статью. Там четко указано: что на практике очень часто встречается ситуация, когда ни внутренних, ни внешних ссылок на сайте на страницы дублей нет, а вот поисковые системы их индексируют. И тут никакой паук вам не поможет.
Да и просто проверить внедрение рекомендаций, как ведут себя несуществущие страницы и страницы дублей с помощью сервиса намного проще. Для пауков нужно генерить данные страницы ручками. Есть время - генерьте.
1) В результатах не хватает колонки с наличием и значением rel=canonical.
2) Также неплохо было проверять robots.txt на закрытие "дубля" к индексации.
3) Стоит визуально выделять найденные дубли в результатах хоть как-то.
4) С index.php в конце иногда отрабатывает некорректно. Показывает сразу 200, хотя в Хроме(!) сначала видно 301, а потом уже 200 у конечной страницы без index.php.
Хотя посмотр другими тулзами тоже показывает только 200 у страницы с index.php. :)
Спасибо за коммент.
1. 2. В планах есть реализовать данные пункты + забыли про meta robots) Вообще много планов по его развитию. Так как реально сервис за небольшой период времени уже позволил сэкономить уйму времени.
3. Уточните, не совсем понятно о чем речь.
4. Да, есть такой момент. Думаем как его решить.
По поводу ламоды.
Недавно выкатили изменения с багами.
Но под ботами вы не зайдёте на страницу без последнего слеша)