Проверяем сайт на «вшивость»

Пригодится всем, у кого есть сайт, особенно если этот сайт интернет-магазин.

Не буду пичкать вас теорией ибо непосредственно ей посвящены тысячи статей, но мало где даются более-менее практические советы. Я попробую дать если не исчерпывающую инструкцию, то хотя бы ряд советов, которые позволят осуществить проверку и при необходимости устранить проблему. После проведения «санитарных» работ, качество ресурса в «глазах» поисковиков существенно повысится и это скажется на позициях в поиске.

Проверяем сайт на «вшивость»

Проблема, о которой пойдет речь, заключается в наличии некачественных страниц в индексе поисковых систем. Если Google как-то брезгует мусором, то Яндекс менее привередлив и индексирует очень много некачественных страниц. Данной проблемой страдают в особенности старые сайты, работающие на старых CMS. Последнее время мне стали чаще попадаться сайты, у которых количество мусорных страниц превышает количество полезных в десятки, в сотни, а то и в тысячи раз. В большинстве случаев эти сайты - интернет-магазины, ибо благодаря фильтрам каталога товаров сайт превращается в генератор дублей и малоинформативных страниц, особенно если владелец или разработчик не удосужились заполнить robots.txt и закрыть от индексации хотя бы очевидные моменты.

Беглый осмотр

Для того, чтобы определить наличие проблемы и её масштаб, нам потребуется заглянуть в Яндекс Вебмастер. Нам необходимо пройти на страницу «Страницы в поиске».

Проверяем сайт на «вшивость»

Если вас встретила картина как на изображении выше, то в принципе пока нет причин паниковать. Крутим колесиком и под графиком жмем кнопку «Исключенные страницы».

Как видите некоторые проблемы есть и у меня, вызвано это утратой директивы запрещающей индексацию загруженных файлов.
Как видите некоторые проблемы есть и у меня, вызвано это утратой директивы запрещающей индексацию загруженных файлов.

Если в колонке «Статус» фигурируют «Редирект», «Ошибка 404», «Запрешщено тем-то», то можете спать спокойно, у вашего сайта нет серьезных проблем. Полное отсутствие проблем можно констатировать только после глубокого анализа сайта, но это уже есть смысл доверить профессионалам в области SEO.

Но если же вашему взору открылась подобная картина:

Проверяем сайт на «вшивость»

Начинайте кричать «Аааааа!» и в панике бегать по помещению. Если вашим сайтом при этом занимается SEOшники, то начинайте прорабатывать планы по отрыванию им рук, которые растут скорее всего из попы. Лишним доказательством серьезных проблем будет вот такая картина при нажатии кнопки «Исключенные страницы»:

Проверяем сайт на «вшивость»

Если в поле «Статус» фигурируют слова «Дубль», «Недостаточно качественная», начинайте рвать волосы, если они конечно у вас есть. Обратите внимание на значения пагинации внизу страницы, чем больше число страниц, тем серьезнее проблема.

Проверяем сайт на «вшивость»

Как видите у моего подопытного (2500х20) свыше 50 000 страниц исключено по разным причинам. Сказать что это серьезная проблема - не сказать ничего. Мне, в такой момент, хочется оторвать руки разработчикам этого гавнасайта. Две недели я буду тупо удалять «плохие ссылки» из индекса.

Но это не самый страшный случай. с месяц назад мне предложили заняться сайтом, который продает запчасти для мобильных устройств. Там, по моим прикидкам, на удаление мусора ушло бы 40-50 дней (по 500 в день). При том, что договор оформляется на два месяца и за эти два месяца я должен повысить им продажи. Если продажи подрастут, то договор продлевается на более выгодных условиях, если же результата особого нет, я возвращаю деньги заплаченные по договору. Пожелал ребятам удачи. К слову сказать над их сайтом много лет трудились крутые, по их мнению, SEOшники. Ну-ну...

Первый шаг: определяем характерные особенности «мусорных» ссылок

Для этого смотрим ссылки из списка исключенных. Если мы говорим о проблеме вызванной фильтрацией, то это как правило набор параметров после знака «?», поскольку именно они делают ссылку «уникальной» при том, что заголовок и содержимое не отличается. Второй, по популярности, причиной являются страницы пагинации, но избавиться от них иногда сложно из-за некоторых технических особенностей. Если в ссылке из пагинации отсутствуют явные признаки типа ?page=4 или /page/3, например так /blog/3, то в этом случае не обойтись без хирургического вмешательства, директивами в robiots.txt закрыть от индексации будет невозможно.

В случае с моим подопытным все довольно просто. Все ссылки с параметрами являются бесполезными и их все смело можно скрыть от индексации. Остается только понять их ключевые признаки.

  • /catalog/dveri-iz-massiva?158=***
  • /mezhkomnatnye-dveri?sort=price&162=***
  • /catalog/stalnye-dveri/torex?156=***
  • /catalog/mezhkomnatnye-dveri?162=***&161=***
  • /products?page=23
  • /catalog/mezhkomnatnye-dveri/sibir-profil?162=***&sort=name
  • /catalog/dveri-s-plenkoj-pvh/?162=***

Если бы разработчики этого гамнадвижка были бы сообразительнее, то сделали бы набор параметров массивом:

  • /catalog/mezhkomnatnye-dveri/sibir-profil?filter[162]=***&filter[sort]=name

Или каждый параметр сопроводили бы префиксом:

  • /catalog/mezhkomnatnye-dveri/sibir-profil?filter_162=***&filter_sort=name

В обоих случая можно было бы прикрыть все страницы одной директивой «Disalow: *filter*». Но поскольку криворукие программисты, коих процентов 80 от общего числа, забили в принципе на все, что связано с индексацией и прочими бесполезными вещами, то мне пришлось в robots.txt перечислять все возможные параметры. Хорошо, что их в принципе не так много. Конечно я мог залезть в код и внести необходимые коррективы, но любое вмешательство может привести к непредвиденным последствиям.

В конечном счете получился примерно вот такой список директив:

  • Disallow: *sort=*
  • Disallow: *page=*
  • Disallow: *153=*
  • Disallow: *154=*
  • Disallow: *155=*
  • Disallow: *156=*

Проверить правильность работы директив можно проверить на странице «Инструменты -> Анализ robots.txt». Там в самом низу есть поле, копируем туда ссылку и жмем кнопку «Проверить».

Результат проверки разрешения URL
Результат проверки разрешения URL

Если в колонке «Результат» мы видим параметр директивы красного цвета - ссылка запрещена, а если мы видим зеленую галку, то данная ссылка не запрещена файлом robots.txt.

Главное тут не натворить делов и не закрыть от индексации важные страницы. Как-то в попытках убрать «хвосты» после переноса сайта с WIX, я закрыл от индексации весь сайт. Приятным бонусом было то, что «хвосты» таки отвалились.

Второй шаг: удаление «мусора»

Тут у нас два пути, первый - забить на это и ждать пока Яндекс сам повыкидывает все из индекса, второй - ускорить этот процесс и вручную по удалять ссылки. Первый вариант может затянуться на месяцы, а то и год-два, если количество ссылок очень большое. Второй вариант тоже не самый быстрый, но он быстрее первого. Единственный минус - это ограничение количества удаляемых URL в количестве 500 штук.

Поскольку вручную сидеть и копипастить ссылки из раздела «Страницы в поиске» в поле для удаления ссылок то ещё занятие, то для этих целей я запилил простенький скрипт, который выворачивает практически весь индекс из поиска Яндекса и на основе указанных параметров выдергивает нужные нам ссылки и складывает их в файлик. Дальше нам остается только вырезать из этого файла ссылки и вставлять их в поле для удаления.

Но и в этом случае есть одно «но», скрипт работает на основе Яндекс XML и перед использованием скрпита необходимо со своего аккаунта в Яндекс настроить этот сервис, получить ключ и вставить его в скрипт. Только после этого он будет готов к работе. Ключ необходимо скопировать из ссылки, которая указана в верхней части страницы с настройками.

Проверяем сайт на «вшивость»

Обратите внимание на лимиты, прежде чем приступать к работе со скриптом. Необходимо убедиться что лимит запросов к сервису достаточно велик. Ни в коем случае не запускайте скрипт на хостинге, ничего хорошего это не даст.

Получив файл со списком ссылок, нам остается только раз в день открывать Яндекс.Вебмастер и Google Console, и в разделах «Удаление URL» копипастить ссылки пачками.

Если есть вопросы, пишите мне в вк или на мыло.

P.S. Больше всего повезло обладателям сайтов (интернет-магазинам) на Битриксе, поскольку там разработчики отличаются большей сообразительностью и там уже искаропки идет robots.txt заполненный как надо. Как пример сайт buldoors.ru, из 17к страниц в индексе, мусорных у него всего 60+. Казалось бы можно расслабиться, но увы, большое количество страниц говорит явно о каких-то проблемах, выяснение которых требует более глубокого анализа.

1515
9 комментариев

Прекрасный материал для просвещения заказчиков, кмк!

2
Ответить

Хороший материал для новичков

1
Ответить

В примере видно, что, как недостаточно качественные страницы, Яндекс отметил изображения сайта. Не берусь определять, каким образом он оценил качество. Хочу понимать, нужно ли что-то делать с ними. Прошу по возможности ответить автора материала.

1
Ответить

Это глюк, который сам Я признал. У меня тоже все .jpg, .png и .pdf свалились в некачественные.

Ответить