Проверяем сайт на «вшивость»

Пригодится всем, у кого есть сайт, особенно если этот сайт интернет-магазин.

Не буду пичкать вас теорией ибо непосредственно ей посвящены тысячи статей, но мало где даются более-менее практические советы. Я попробую дать если не исчерпывающую инструкцию, то хотя бы ряд советов, которые позволят осуществить проверку и при необходимости устранить проблему. После проведения «санитарных» работ, качество ресурса в «глазах» поисковиков существенно повысится и это скажется на позициях в поиске.

Проблема, о которой пойдет речь, заключается в наличии некачественных страниц в индексе поисковых систем. Если Google как-то брезгует мусором, то Яндекс менее привередлив и индексирует очень много некачественных страниц. Данной проблемой страдают в особенности старые сайты, работающие на старых CMS. Последнее время мне стали чаще попадаться сайты, у которых количество мусорных страниц превышает количество полезных в десятки, в сотни, а то и в тысячи раз. В большинстве случаев эти сайты - интернет-магазины, ибо благодаря фильтрам каталога товаров сайт превращается в генератор дублей и малоинформативных страниц, особенно если владелец или разработчик не удосужились заполнить robots.txt и закрыть от индексации хотя бы очевидные моменты.

Для того, чтобы определить наличие проблемы и её масштаб, нам потребуется заглянуть в Яндекс Вебмастер. Нам необходимо пройти на страницу «Страницы в поиске».

Если вас встретила картина как на изображении выше, то в принципе пока нет причин паниковать. Крутим колесиком и под графиком жмем кнопку «Исключенные страницы».

Как видите некоторые проблемы есть и у меня, вызвано это утратой директивы запрещающей индексацию загруженных файлов.

Если в колонке «Статус» фигурируют «Редирект», «Ошибка 404», «Запрешщено тем-то», то можете спать спокойно, у вашего сайта нет серьезных проблем. Полное отсутствие проблем можно констатировать только после глубокого анализа сайта, но это уже есть смысл доверить профессионалам в области SEO.

Но если же вашему взору открылась подобная картина:

Начинайте кричать «Аааааа!» и в панике бегать по помещению. Если вашим сайтом при этом занимается SEOшники, то начинайте прорабатывать планы по отрыванию им рук, которые растут скорее всего из попы. Лишним доказательством серьезных проблем будет вот такая картина при нажатии кнопки «Исключенные страницы»:

Если в поле «Статус» фигурируют слова «Дубль», «Недостаточно качественная», начинайте рвать волосы, если они конечно у вас есть. Обратите внимание на значения пагинации внизу страницы, чем больше число страниц, тем серьезнее проблема.

Как видите у моего подопытного (2500х20) свыше 50 000 страниц исключено по разным причинам. Сказать что это серьезная проблема - не сказать ничего. Мне, в такой момент, хочется оторвать руки разработчикам этого гавнасайта. Две недели я буду тупо удалять «плохие ссылки» из индекса.

Но это не самый страшный случай. с месяц назад мне предложили заняться сайтом, который продает запчасти для мобильных устройств. Там, по моим прикидкам, на удаление мусора ушло бы 40-50 дней (по 500 в день). При том, что договор оформляется на два месяца и за эти два месяца я должен повысить им продажи. Если продажи подрастут, то договор продлевается на более выгодных условиях, если же результата особого нет, я возвращаю деньги заплаченные по договору. Пожелал ребятам удачи. К слову сказать над их сайтом много лет трудились крутые, по их мнению, SEOшники. Ну-ну...

Для этого смотрим ссылки из списка исключенных. Если мы говорим о проблеме вызванной фильтрацией, то это как правило набор параметров после знака «?», поскольку именно они делают ссылку «уникальной» при том, что заголовок и содержимое не отличается. Второй, по популярности, причиной являются страницы пагинации, но избавиться от них иногда сложно из-за некоторых технических особенностей. Если в ссылке из пагинации отсутствуют явные признаки типа ?page=4 или /page/3, например так /blog/3, то в этом случае не обойтись без хирургического вмешательства, директивами в robiots.txt закрыть от индексации будет невозможно.

В случае с моим подопытным все довольно просто. Все ссылки с параметрами являются бесполезными и их все смело можно скрыть от индексации. Остается только понять их ключевые признаки.

/catalog/dveri-iz-massiva?158=***
/mezhkomnatnye-dveri?sort=price&162=***
/catalog/stalnye-dveri/torex?156=***
/catalog/mezhkomnatnye-dveri?162=***&161=***
/products?page=23
/catalog/mezhkomnatnye-dveri/sibir-profil?162=***&sort=name
/catalog/dveri-s-plenkoj-pvh/?162=***

Если бы разработчики этого гамнадвижка были бы сообразительнее, то сделали бы набор параметров массивом:

/catalog/mezhkomnatnye-dveri/sibir-profil?filter[162]=***&filter[sort]=name

Или каждый параметр сопроводили бы префиксом:

/catalog/mezhkomnatnye-dveri/sibir-profil?filter_162=***&filter_sort=name

В обоих случая можно было бы прикрыть все страницы одной директивой «Disalow: *filter*». Но поскольку криворукие программисты, коих процентов 80 от общего числа, забили в принципе на все, что связано с индексацией и прочими бесполезными вещами, то мне пришлось в robots.txt перечислять все возможные параметры. Хорошо, что их в принципе не так много. Конечно я мог залезть в код и внести необходимые коррективы, но любое вмешательство может привести к непредвиденным последствиям.

В конечном счете получился примерно вот такой список директив:

Disallow: *sort=*
Disallow: *page=*
Disallow: *153=*
Disallow: *154=*
Disallow: *155=*
Disallow: *156=*

Проверить правильность работы директив можно проверить на странице «Инструменты -> Анализ robots.txt». Там в самом низу есть поле, копируем туда ссылку и жмем кнопку «Проверить».

Если в колонке «Результат» мы видим параметр директивы красного цвета - ссылка запрещена, а если мы видим зеленую галку, то данная ссылка не запрещена файлом robots.txt.

Главное тут не натворить делов и не закрыть от индексации важные страницы. Как-то в попытках убрать «хвосты» после переноса сайта с WIX, я закрыл от индексации весь сайт. Приятным бонусом было то, что «хвосты» таки отвалились.

Тут у нас два пути, первый - забить на это и ждать пока Яндекс сам повыкидывает все из индекса, второй - ускорить этот процесс и вручную по удалять ссылки. Первый вариант может затянуться на месяцы, а то и год-два, если количество ссылок очень большое. Второй вариант тоже не самый быстрый, но он быстрее первого. Единственный минус - это ограничение количества удаляемых URL в количестве 500 штук.

Поскольку вручную сидеть и копипастить ссылки из раздела «Страницы в поиске» в поле для удаления ссылок то ещё занятие, то для этих целей я запилил простенький скрипт, который выворачивает практически весь индекс из поиска Яндекса и на основе указанных параметров выдергивает нужные нам ссылки и складывает их в файлик. Дальше нам остается только вырезать из этого файла ссылки и вставлять их в поле для удаления.

Но и в этом случае есть одно «но», скрипт работает на основе Яндекс XML и перед использованием скрпита необходимо со своего аккаунта в Яндекс настроить этот сервис, получить ключ и вставить его в скрипт. Только после этого он будет готов к работе. Ключ необходимо скопировать из ссылки, которая указана в верхней части страницы с настройками.

Обратите внимание на лимиты, прежде чем приступать к работе со скриптом. Необходимо убедиться что лимит запросов к сервису достаточно велик. Ни в коем случае не запускайте скрипт на хостинге, ничего хорошего это не даст.

Получив файл со списком ссылок, нам остается только раз в день открывать Яндекс.Вебмастер и Google Console, и в разделах «Удаление URL» копипастить ссылки пачками.

Скрипт тут: https://yadi.sk/d/d3IRM_vv3ZQkww

Если есть вопросы, пишите мне в вк или на мыло.

P.S. Больше всего повезло обладателям сайтов (интернет-магазинам) на Битриксе, поскольку там разработчики отличаются большей сообразительностью и там уже искаропки идет robots.txt заполненный как надо. Как пример сайт buldoors.ru, из 17к страниц в индексе, мусорных у него всего 60+. Казалось бы можно расслабиться, но увы, большое количество страниц говорит явно о каких-то проблемах, выяснение которых требует более глубокого анализа.

Проверяем сайт на «вшивость»

Беглый осмотр

Первый шаг: определяем характерные особенности «мусорных» ссылок

Второй шаг: удаление «мусора»