Офтоп Денис Бидюков
3 584

Проверяем сайт на «вшивость»

Пригодится всем, у кого есть сайт, особенно если этот сайт интернет-магазин.

В закладки

Не буду пичкать вас теорией ибо непосредственно ей посвящены тысячи статей, но мало где даются более-менее практические советы. Я попробую дать если не исчерпывающую инструкцию, то хотя бы ряд советов, которые позволят осуществить проверку и при необходимости устранить проблему. После проведения «санитарных» работ, качество ресурса в «глазах» поисковиков существенно повысится и это скажется на позициях в поиске.

Проблема, о которой пойдет речь, заключается в наличии некачественных страниц в индексе поисковых систем. Если Google как-то брезгует мусором, то Яндекс менее привередлив и индексирует очень много некачественных страниц. Данной проблемой страдают в особенности старые сайты, работающие на старых CMS. Последнее время мне стали чаще попадаться сайты, у которых количество мусорных страниц превышает количество полезных в десятки, в сотни, а то и в тысячи раз. В большинстве случаев эти сайты - интернет-магазины, ибо благодаря фильтрам каталога товаров сайт превращается в генератор дублей и малоинформативных страниц, особенно если владелец или разработчик не удосужились заполнить robots.txt и закрыть от индексации хотя бы очевидные моменты.

Беглый осмотр

Для того, чтобы определить наличие проблемы и её масштаб, нам потребуется заглянуть в Яндекс Вебмастер. Нам необходимо пройти на страницу «Страницы в поиске».

Если вас встретила картина как на изображении выше, то в принципе пока нет причин паниковать. Крутим колесиком и под графиком жмем кнопку «Исключенные страницы».

Как видите некоторые проблемы есть и у меня, вызвано это утратой директивы запрещающей индексацию загруженных файлов.

Если в колонке «Статус» фигурируют «Редирект», «Ошибка 404», «Запрешщено тем-то», то можете спать спокойно, у вашего сайта нет серьезных проблем. Полное отсутствие проблем можно констатировать только после глубокого анализа сайта, но это уже есть смысл доверить профессионалам в области SEO.

Но если же вашему взору открылась подобная картина:

Начинайте кричать «Аааааа!» и в панике бегать по помещению. Если вашим сайтом при этом занимается SEOшники, то начинайте прорабатывать планы по отрыванию им рук, которые растут скорее всего из попы. Лишним доказательством серьезных проблем будет вот такая картина при нажатии кнопки «Исключенные страницы»:

Если в поле «Статус» фигурируют слова «Дубль», «Недостаточно качественная», начинайте рвать волосы, если они конечно у вас есть. Обратите внимание на значения пагинации внизу страницы, чем больше число страниц, тем серьезнее проблема.

Как видите у моего подопытного (2500х20) свыше 50 000 страниц исключено по разным причинам. Сказать что это серьезная проблема - не сказать ничего. Мне, в такой момент, хочется оторвать руки разработчикам этого гавнасайта. Две недели я буду тупо удалять «плохие ссылки» из индекса.

Но это не самый страшный случай. с месяц назад мне предложили заняться сайтом, который продает запчасти для мобильных устройств. Там, по моим прикидкам, на удаление мусора ушло бы 40-50 дней (по 500 в день). При том, что договор оформляется на два месяца и за эти два месяца я должен повысить им продажи. Если продажи подрастут, то договор продлевается на более выгодных условиях, если же результата особого нет, я возвращаю деньги заплаченные по договору. Пожелал ребятам удачи. К слову сказать над их сайтом много лет трудились крутые, по их мнению, SEOшники. Ну-ну...

Первый шаг: определяем характерные особенности «мусорных» ссылок

Для этого смотрим ссылки из списка исключенных. Если мы говорим о проблеме вызванной фильтрацией, то это как правило набор параметров после знака «?», поскольку именно они делают ссылку «уникальной» при том, что заголовок и содержимое не отличается. Второй, по популярности, причиной являются страницы пагинации, но избавиться от них иногда сложно из-за некоторых технических особенностей. Если в ссылке из пагинации отсутствуют явные признаки типа ?page=4 или /page/3, например так /blog/3, то в этом случае не обойтись без хирургического вмешательства, директивами в robiots.txt закрыть от индексации будет невозможно.

В случае с моим подопытным все довольно просто. Все ссылки с параметрами являются бесполезными и их все смело можно скрыть от индексации. Остается только понять их ключевые признаки.

  • /catalog/dveri-iz-massiva?158=***
  • /mezhkomnatnye-dveri?sort=price&162=***
  • /catalog/stalnye-dveri/torex?156=***
  • /catalog/mezhkomnatnye-dveri?162=***&161=***
  • /products?page=23
  • /catalog/mezhkomnatnye-dveri/sibir-profil?162=***&sort=name
  • /catalog/dveri-s-plenkoj-pvh/?162=***

Если бы разработчики этого гамнадвижка были бы сообразительнее, то сделали бы набор параметров массивом:

  • /catalog/mezhkomnatnye-dveri/sibir-profil?filter[162]=***&filter[sort]=name

Или каждый параметр сопроводили бы префиксом:

  • /catalog/mezhkomnatnye-dveri/sibir-profil?filter_162=***&filter_sort=name

В обоих случая можно было бы прикрыть все страницы одной директивой «Disalow: *filter*». Но поскольку криворукие программисты, коих процентов 80 от общего числа, забили в принципе на все, что связано с индексацией и прочими бесполезными вещами, то мне пришлось в robots.txt перечислять все возможные параметры. Хорошо, что их в принципе не так много. Конечно я мог залезть в код и внести необходимые коррективы, но любое вмешательство может привести к непредвиденным последствиям.

В конечном счете получился примерно вот такой список директив:

  • Disallow: *sort=*
  • Disallow: *page=*
  • Disallow: *153=*
  • Disallow: *154=*
  • Disallow: *155=*
  • Disallow: *156=*

Проверить правильность работы директив можно проверить на странице «Инструменты -> Анализ robots.txt». Там в самом низу есть поле, копируем туда ссылку и жмем кнопку «Проверить».

Результат проверки разрешения URL

Если в колонке «Результат» мы видим параметр директивы красного цвета - ссылка запрещена, а если мы видим зеленую галку, то данная ссылка не запрещена файлом robots.txt.

Главное тут не натворить делов и не закрыть от индексации важные страницы. Как-то в попытках убрать «хвосты» после переноса сайта с WIX, я закрыл от индексации весь сайт. Приятным бонусом было то, что «хвосты» таки отвалились.

Второй шаг: удаление «мусора»

Тут у нас два пути, первый - забить на это и ждать пока Яндекс сам повыкидывает все из индекса, второй - ускорить этот процесс и вручную по удалять ссылки. Первый вариант может затянуться на месяцы, а то и год-два, если количество ссылок очень большое. Второй вариант тоже не самый быстрый, но он быстрее первого. Единственный минус - это ограничение количества удаляемых URL в количестве 500 штук.

Поскольку вручную сидеть и копипастить ссылки из раздела «Страницы в поиске» в поле для удаления ссылок то ещё занятие, то для этих целей я запилил простенький скрипт, который выворачивает практически весь индекс из поиска Яндекса и на основе указанных параметров выдергивает нужные нам ссылки и складывает их в файлик. Дальше нам остается только вырезать из этого файла ссылки и вставлять их в поле для удаления.

Но и в этом случае есть одно «но», скрипт работает на основе Яндекс XML и перед использованием скрпита необходимо со своего аккаунта в Яндекс настроить этот сервис, получить ключ и вставить его в скрипт. Только после этого он будет готов к работе. Ключ необходимо скопировать из ссылки, которая указана в верхней части страницы с настройками.

Обратите внимание на лимиты, прежде чем приступать к работе со скриптом. Необходимо убедиться что лимит запросов к сервису достаточно велик. Ни в коем случае не запускайте скрипт на хостинге, ничего хорошего это не даст.

Получив файл со списком ссылок, нам остается только раз в день открывать Яндекс.Вебмастер и Google Console, и в разделах «Удаление URL» копипастить ссылки пачками.

Скрипт тут: https://yadi.sk/d/d3IRM_vv3ZQkww

Если есть вопросы, пишите мне в вк или на мыло.

P.S. Больше всего повезло обладателям сайтов (интернет-магазинам) на Битриксе, поскольку там разработчики отличаются большей сообразительностью и там уже искаропки идет robots.txt заполненный как надо. Как пример сайт buldoors.ru, из 17к страниц в индексе, мусорных у него всего 60+. Казалось бы можно расслабиться, но увы, большое количество страниц говорит явно о каких-то проблемах, выяснение которых требует более глубокого анализа.

Материал опубликован пользователем. Нажмите кнопку «Написать», чтобы поделиться мнением или рассказать о своём проекте.

Написать
{ "author_name": "Денис Бидюков", "author_type": "self", "tags": [], "comments": 9, "likes": 25, "favorites": 62, "is_advertisement": false, "subsite_label": "flood", "id": 42317, "is_wide": false, "is_ugc": true, "date": "Sat, 21 Jul 2018 08:52:37 +0300" }
{ "id": 42317, "author_id": 128979, "diff_limit": 1000, "urls": {"diff":"\/comments\/42317\/get","add":"\/comments\/42317\/add","edit":"\/comments\/edit","remove":"\/admin\/comments\/remove","pin":"\/admin\/comments\/pin","get4edit":"\/comments\/get4edit","complain":"\/comments\/complain","load_more":"\/comments\/loading\/42317"}, "attach_limit": 2, "max_comment_text_length": 5000, "subsite_id": 199791, "possessions": [] }

9 комментариев 9 комм.

Популярные

По порядку

Написать комментарий...
2

Прекрасный материал для просвещения заказчиков, кмк!

Ответить

1

Хороший материал для новичков

Ответить

1

В примере видно, что, как недостаточно качественные страницы, Яндекс отметил изображения сайта. Не берусь определять, каким образом он оценил качество. Хочу понимать, нужно ли что-то делать с ними. Прошу по возможности ответить автора материала.

Ответить

0

Это глюк, который сам Я признал. У меня тоже все .jpg, .png и .pdf свалились в некачественные.

Ответить
0

Ладно, обращусь в ТП вебмастера. Из-за таких "некачественных" изображений теряется трафик из яндекс.картинок

Ответить

0

500 удаляемых ссылок в день - это ограничение Яндекса или возможностей человека? Если второе, то можно написать скрипт на Autoit или использовать Selenium driver для более тяжелых случаев, запустить и идти пить чай.

Ответить

0

есть canonical которые ставят на дубли страниц и пагинации, и clean-param: для фильтров. Вообще все проблемы с дублями решаются за 10-15 минут максимум даже на самых кривожопых CMS

Ответить

0

Набросайте пожалуйста свою статью. Это не ирония. Действительно интересно.

Ответить
0

например вот https://yandex.ru/support/webmaster/controlling-robot/robots-txt.html#clean-param и вот https://webmaster.yandex.ru/blog/10371

clean-param довольно сложно понять с наскока, поэтому проще применять canonical

Ответить

0
{ "page_type": "article" }

Прямой эфир

[ { "id": 1, "label": "100%×150_Branding_desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox_method": "createAdaptive", "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "ezfl" } } }, { "id": 2, "label": "1200х400", "provider": "adfox", "adaptive": [ "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "ezfn" } } }, { "id": 3, "label": "240х200 _ТГБ_desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fizc" } } }, { "id": 4, "label": "240х200_mobile", "provider": "adfox", "adaptive": [ "phone" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "flbq" } } }, { "id": 5, "label": "300x500_desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "ezfk" } } }, { "id": 6, "label": "1180х250_Interpool_баннер над комментариями_Desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "pp": "h", "ps": "bugf", "p2": "ffyh" } } }, { "id": 7, "label": "Article Footer 100%_desktop_mobile", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fjxb" } } }, { "id": 8, "label": "Fullscreen Desktop", "provider": "adfox", "adaptive": [ "desktop", "tablet" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fjoh" } } }, { "id": 9, "label": "Fullscreen Mobile", "provider": "adfox", "adaptive": [ "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fjog" } } }, { "id": 10, "disable": true, "label": "Native Partner Desktop", "provider": "adfox", "adaptive": [ "desktop", "tablet" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "clmf", "p2": "fmyb" } } }, { "id": 11, "disable": true, "label": "Native Partner Mobile", "provider": "adfox", "adaptive": [ "phone" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "clmf", "p2": "fmyc" } } }, { "id": 12, "label": "Кнопка в шапке", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "p1": "bscsh", "p2": "fdhx" } } }, { "id": 13, "label": "DM InPage Video PartnerCode", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "adfox_method": "createAdaptive", "adfox": { "ownerId": 228129, "params": { "pp": "h", "ps": "bugf", "p2": "flvn" } } }, { "id": 14, "label": "Yandex context video banner", "provider": "yandex", "yandex": { "block_id": "VI-223676-0", "render_to": "inpage_VI-223676-0-1104503429", "adfox_url": "//ads.adfox.ru/228129/getCode?pp=h&ps=bugf&p2=fpjw&puid1=&puid2=&puid3=&puid4=&puid8=&puid9=&puid10=&puid21=&puid22=&puid31=&puid32=&puid33=&fmt=1&dl={REFERER}&pr=" } }, { "id": 15, "label": "Плашка на главной", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "adfox": { "ownerId": 228129, "params": { "p1": "byudx", "p2": "ftjf" } } }, { "id": 16, "label": "Кнопка в шапке мобайл", "provider": "adfox", "adaptive": [ "tablet", "phone" ], "adfox": { "ownerId": 228129, "params": { "p1": "byzqf", "p2": "ftwx" } } }, { "id": 17, "label": "Stratum Desktop", "provider": "adfox", "adaptive": [ "desktop" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fzvb" } } }, { "id": 18, "label": "Stratum Mobile", "provider": "adfox", "adaptive": [ "tablet", "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fzvc" } } }, { "id": 19, "label": "Тизер на главной", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "p1": "cbltd", "p2": "gazs" } } } ]
Приложение-плацебо скачали
больше миллиона раз
Подписаться на push-уведомления
{ "page_type": "default" }