Олег Скрып
8 581
Блоги

Лайфхак: как быстро найти дубли страниц

Я расскажу, как быстро найти дубли страниц и обезопасить себя от негативных последствий, к которым они могут привести.

Поделиться

В избранное

В избранном

Материал в первую очередь будет полезен как практикующим SEO-специалистам, так и владельцам сайтов. Но для начала давайте совсем быстро пробежимся по теории.

Немного теории

Наверняка многие слышали, что дубли страниц — это плохо. Подробно останавливаться на данном вопросе не буду, так как тема популярная, и качественной информации в интернете, даже появившейся в последнее время, много. Отмечу только неприятности, которые могут появиться у сайта при наличии дублей:

  • проблемы с индексацией (особенно актуально для крупных сайтов);
  • размытие релевантности и ранжирование нецелевых страниц;
  • потеря естественных ссылок, которые могут появляться на страницах дублей;
  • общая пессимизация проекта и санкции поисковых систем.

Поэтому в процессе продвижения проектов этому вопросу должно уделяться особое внимание.

Также стоит вкратце остановится на двух разновидностях дублей:

  • Частичные дубли — когда страницы имеют общую семантику, решают одни и те же задачи пользователей и имеют похожий контент, но не являются полными дублями. Да, получилось достаточно запутанно, поэтому предлагаю рассмотреть пример: https://vc.ru/category/телеграм и https://vc.ru/category/telegram.

Обе страницы имеют общую семантику, похожий контент и решают одни и те же задачи пользователей, но при этом не являются полными дублями, так как содержимое страниц разное.

Выявить полные дубли намного проще, да и проблем они могут привести куда больше из-за своей массовости, а вот с неполными дублями нужно работать точечно и избавляться от них при формировании правильной структуры сайта. Далее в этой статье под дублями будут подразумеваться полные дубли.

Итак, мы определились, что проект не должен содержать дубли. Точка. Особенно критично, когда дубли начинают индексироваться поисковыми системами. И чтобы этого не случилось, а также для предотвращения других негативных последствий, их нужно выявлять и устранять. О том, как с ними бороться, можно найти много материалов, но если в комментариях будут просьбы рассказать подробнее, то я обязательно это сделаю в одной из следующих статей.

Чтобы никого не запутать, сейчас опустим момент с формированием нужных дублей (например, страниц с UTM-метками).

Выявление полных дублей

Обычно специалисты проверяют у продвигаемого проекта наличие следующих дублей:

1. Дубли страниц с разными протоколами: http и https.

Выше уже был указан пример такого дубля: http://www.foxtrot.com.ua/ и https://www.foxtrot.com.ua/.

2. С www и без www.

Например: http://oknadeshevo.ru/ и http://www.oknadeshevo.ru/.

3. Со слешем на конце URL и без него.

Например: https://www.1tv.ru/live и https://www.1tv.ru/live/.

Еще пример: https://www.lamoda.ru/p/wa007ewbhbj9/clothes-wallis-bryuki и https://www.lamoda.ru/p/wa007ewbhbj9/clothes-wallis-bryuki/.

При этом каждая страница содержит canonical на себя.

4. Строчные и прописные буквы во вложенностях URL.

Например: https://www.mosokna.ru/info/osteklenie-detskikh-sadov/ и https://www.mosokna.ru/info/OSTEKLENIE-DETSKIKH-SADOV/.

При том, что страница https://www.mosokna.ru/PLASTIKOVYE-OKNA/ отдаёт 404-й код ответа сервера:

Это пример того, как на разных типах страниц один и тот же принцип формирования дублей обрабатывается по-разному.

5. Добавления в конце URL:

index.php

home.php

index.html

home.html

index.htm

home.htm

Например: https://www.eldorado.ru/cat/378830466/ и https://www.eldorado.ru/cat/378830466/index.html/.

Как видно, оба URL проиндексированы в «Яндексе»:

А разве это все возможные дубли?

В своей практике я сталкивался с огромным количеством примеров формирования дублей, и самые популярные, которые встречались не единожды, я укажу ниже:

6. Множественное добавление ////////////////// в конце URL.

Например, http://www.banki.ru/ и http://www.banki.ru////////.

7. Множественное добавление ////////////////// между вложенностями.

Например, https://moskva.beeline.ru/customers/products/mobile/services/details/nomer-na-vybor/krasivie-nomera/ и https://moskva.beeline.ru/customers///////products///////mobile///////services///////details///////nomer-na-vybor///////krasivie-nomera/.

Ещё пример: https://f.ua/hewlett-packard/15-bs006ur-1zj72ea.html и https://f.ua/hewlett-packard///////15-bs006ur-1zj72ea.html.

Очень часто встречающаяся ошибка.

8. Добавление произвольных символов в конец URL, формируя новую вложенность.

Например, https://apteka.ru/moskva/apteki/doktor-stoletov_16/ и https://apteka.ru/moskva/apteki/doktor-stoletov_16/Lfz/.

9. Добавление произвольных символов в существующую вложенность.

Например, https://www.dochkisinochki.ru/brands/nutrilon/ и https://www.dochkisinochki.ru/brands/nutrilonbY5I/.

10. Добавление вложенности с произвольными символами.

Например, https://www.utkonos.ru/news/item/1343 и https://www.utkonos.ru/news/wg/item/1343.

Не совсем дубль, но страница отдаёт 200-й код ответа сервера, что позволит ей попасть в индекс.

11. Добавление * в конце URL.

Например, https://www.sportmaster.ru/product/10137329/ и https://www.sportmaster.ru/product/10137329/*/.

Ещё пример: https://docdoc.ru/clinic/set-evropeyskiy-medicinskiy-centr и https://docdoc.ru/clinic/set-evropeyskiy-medicinskiy-centr/*.

12. Замена нижнего подчеркивания на тире и наоборот.

Например, https://mamsy.ru/filter/zhenshinam_tovary_bolshie_razmery/ и https://mamsy.ru/filter/zhenshinam-tovary-bolshie-razmery/.

13. Добавление произвольных цифр в конце URL, формируя новую вложенность.

Например, https://apteka.ru/moskva/apteki/doktor-stoletov_16/ и https://apteka.ru/moskva/apteki/doktor-stoletov_16/2488/.

Такие дубли часто формируются со страниц публикаций на WordPress.

14. Замена вложенностей местами.

Например https://www.toy.ru/catalog/producers/BARBIE-Mattel/ и https://www.toy.ru/producers/catalog/BARBIE-Mattel/.

15. Отсутствие внутренней вложенности.

Например, https://www.toy.ru/catalog/producers/BARBIE-Mattel/ и https://www.toy.ru/producers/BARBIE-Mattel/.

Пункты 14 и 15 опять же не являются полными дублями, но аналогично пункту 10 отдают 200 код ответа сервера.

16. Копирование первой вложенности и добавление её в конец URL.

Например, https://www.dochkisinochki.ru/brands/nutrilon/ и https://www.dochkisinochki.ru/brands/nutrilon/brands/.

17. Дубли .html, .htm или .php для страниц, которые заканчиваются на один из этих расширений.

Например:

Все приведённые выше типы дублей были выявлены в индексе поисковых систем более чем у нескольких проектов. Хотите ли вы рисковать появлением такого огромного количества дублей? Думаю, нет. Поэтому и важно выявить те дубли, которые формируются и обезопасить себя от попадания их в индекс поисковых систем. А практика показывает, что рано или поздно они находят и индексируют такие страницы, хотя ни внутренних, ни внешних ссылок на данные страницы нет.

Проверять вручную все эти дубли очень долго. К тому же важно проверять каждый тип страниц на наличие дублей. Почему? Да потому, что страницы категории товаров и страница определённого товара могут иметь разные дубли. Пример уже был ранее рассмотрен.

Также в большинстве сайтов могут использоваться разные CMS для разного типа контента. Нормальная практика, когда, например, интернет-магазин на OpenCart подключает блог на WordPress. Соответственно и дубли страниц этих CMS будут кардинально отличаться.

Поэтому мы и разработали сервис, который формирует все возможные страницы дублей и указывает их ответ сервера. В первую очередь сервис делали для своих нужд, ведь он экономит огромное количество времени специалистов, но с радостью готовы с ним поделиться.

Как с ним работать и как читать его результаты — сейчас будем разбираться.

Онлайн-сервис поиска дублей страниц

1. Для начала перейдите по ссылке.

Сервис поиска дублей URL

2. Подготовьте разные типы страниц сайта, у которого хотите выявить возможные дубли.

Давайте рассмотрим на примере интернет-магазина http://www.foxtrot.com.ua/.

Рекомендуемые к анализу типы страниц и их примеры:

Для новостных и информационных ресурсов это могут быть:

3. Вбиваем данные страницы в форму ввода и нажимаем кнопку «Отправить запрос»:

4. Запускается процесс обработки скрипта:

Процесс обработки данных

Немного ожидаем и получаем результат его работы по всем внедрённым страницам:

Таблица с результатами

5. Анализируем результаты и подготавливаем рекомендации веб-программисту по устранению дублей.

Например, из вышеуказанного примера можно сделать следующие выводы:

  • наличие дублей страниц с протоколами http и https;
  • редирект со страницы без www на www происходит с помощью 302 редиректа (временный редирект);
  • наличие дублей с добавление множественных слешей.

Соответственно, необходимо подготовить следующие рекомендации веб-разработчику:

1. Определиться, какой протокол всё же основной, и на страницы с этим протоколом настроить 301 редирект.

Например, если основной протокол https, то страница http://www.foxtrot.com.ua/ должна перенаправлять с помощью 301-го редиректа на https://www.foxtrot.com.ua/.

2. Изменить 302 редирект на 301 при перенаправлении страниц без www на аналогичные с www.

3. Настроить 301 редирект страниц со множественным добавлением слешей в конце URL на целевые страницы.

Например, страница http://www.foxtrot.com.ua//////// должна с помощью 301 редиректа перенаправлять на http://www.foxtrot.com.ua/.

Важно понимать, что помимо шаблонных формирований дублей, указанных в данной статье, у вашего проекта могут формироваться уникальные дубли. Поэтому не забывайте мониторить страницы, которые попадают в индекс поисковых систем. Помогут в этом «Яндекс.Вебмастер» и Google Search Console.

Проиндексированные страницы в Google Search Console

Update

Сервис будет дорабатываться и дополняться полезными функциями. Так, выкатили обновление, позволяющее перед публикацией статьи определить изменения URL от исходного значения:

Функциональность отличия URL от исходного значения

Если материал вам был полезен, прошу оценить его стрелкой вверх.

До скорых встреч и берегите ваши проекты.

#инструменты #seo

{ "author_name": "Олег Скрып", "author_type": "self", "tags": ["\u0438\u043d\u0441\u0442\u0440\u0443\u043c\u0435\u043d\u0442\u044b","seo"], "comments": 40, "likes": 85, "favorites": 58, "is_advertisement": false, "section_name": "blog", "id": "37009", "is_wide": "" }
{ "is_needs_advanced_access": false }

Комментарии Комм.

Популярные

По порядку

0

Прямой эфир

Подписаться на push-уведомления
[ { "id": 1, "label": "100%×150_Branding_desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox_method": "createAdaptive", "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "ezfl" } } }, { "id": 2, "label": "1200х400", "provider": "adfox", "adaptive": [ "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "ezfn" } } }, { "id": 3, "label": "240х200 _ТГБ_desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fizc" } } }, { "id": 4, "label": "240х200_mobile", "provider": "adfox", "adaptive": [ "phone" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "flbq" } } }, { "id": 5, "label": "300x500_desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "ezfk" } } }, { "id": 6, "label": "1180х250_Interpool_баннер над комментариями_Desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "pp": "h", "ps": "bugf", "p2": "ffyh" } } }, { "id": 7, "label": "Article Footer 100%_desktop_mobile", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fjxb" } } }, { "id": 8, "label": "Fullscreen Desktop", "provider": "adfox", "adaptive": [ "desktop", "tablet" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fjoh" } } }, { "id": 9, "label": "Fullscreen Mobile", "provider": "adfox", "adaptive": [ "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fjog" } } }, { "id": 10, "disable": true, "label": "Native Partner Desktop", "provider": "adfox", "adaptive": [ "desktop", "tablet" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "clmf", "p2": "fmyb" } } }, { "id": 11, "disable": true, "label": "Native Partner Mobile", "provider": "adfox", "adaptive": [ "phone" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "clmf", "p2": "fmyc" } } }, { "id": 12, "label": "Кнопка в шапке", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "p1": "bscsh", "p2": "fdhx" } } }, { "id": 13, "label": "DM InPage Video PartnerCode", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "adfox_method": "createAdaptive", "adfox": { "ownerId": 228129, "params": { "pp": "h", "ps": "bugf", "p2": "flvn" } } }, { "id": 14, "label": "Yandex context video banner", "provider": "yandex", "yandex": { "block_id": "VI-223676-0", "render_to": "inpage_VI-223676-0-1104503429", "adfox_url": "//ads.adfox.ru/228129/getCode?pp=h&ps=bugf&p2=fpjw&puid1=&puid2=&puid3=&puid4=&puid8=&puid9=&puid10=&puid21=&puid22=&puid31=&puid32=&puid33=&fmt=1&dl={REFERER}&pr=" } }, { "id": 15, "label": "Плашка на главной", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "adfox": { "ownerId": 228129, "params": { "p1": "byudx", "p2": "ftjf" } } }, { "id": 16, "label": "Кнопка в шапке мобайл", "provider": "adfox", "adaptive": [ "tablet", "phone" ], "adfox": { "ownerId": 228129, "params": { "p1": "byzqf", "p2": "ftwx" } } }, { "id": 17, "label": "Stratum Desktop", "provider": "adfox", "adaptive": [ "desktop" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fzvb" } } }, { "id": 18, "label": "Stratum Mobile", "provider": "adfox", "adaptive": [ "tablet", "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fzvc" } } } ]