Как правильно запрещать Google индексировать ваш сайт

Indexed, though blocked by robots.txt знакомо? Это когда бот Google пылесосит в индекс страницы, которых там не должно быть. Вы их предусмотрительно закрыли в robots.txt, а он все равно решил, что в индексе им будет комфортно и уютно. Почему так происходит и что с этим делать?

Умели же делать
Умели же делать

Оглавление

Для тех, кто не хочет читать базу и перейти сразу к кейсу - волшебная ссылка Капкан индексации

Способы закрытия страниц от индексации

Существует 3 варианта, как вы можете закрыт поисковым ботам доступ к индексации страниц вашего сайта:

1. HTTP заголовок X-Robots-Tag. Самый изящный способ. Его не найти в исходном коде страницы, но можно увидеть используя консоль разработчика. Настраивается на стороне сервера и чаще всего силами DevOps команды либо силами админа сервера.

Чтобы увидеть X-Robots-Tag, необходимо использовать вкладку Network в developer tools
Чтобы увидеть X-Robots-Tag, необходимо использовать вкладку Network в developer tools

2. Meta robots. Способ надежный, как швейцарские часы. В секцию добавляется мета тег robots с атрибутами на ваш вкус. Я обычно прописываю noindex, follow.

Железобетонный способ сказать Google о том, что не нужно индексировать
Железобетонный способ сказать Google о том, что не нужно индексировать

А как же robots.txt?

Вопреки распространенному заблуждению, эта директива не запрещает индексировать страницы вашего сайта, о чем Google прямо и говорит тут - https://developers.google.com/search/docs/crawling-indexing/robots/intro

Твердо и четко
Твердо и четко

Данная директива предназначена для того, чтобы запретить сканирование разделов. Но Google легко может добавить в индекс контент, который вы не желаете видеть в выдаче.

Твердо и четко - 2
Твердо и четко - 2

Капкан индексации

А теперь собственно зачем я все это пишу. На продвигаемом мной сайте произошла ситуация, при которой в индекс добавилось огромное количество страниц с get-параметрами, которые наплодили рефералы.

Ох уж эти рефералы
Ох уж эти рефералы

Чтобы не усложнять жизнь горячо любимым мной инженерам разработчикам, я решил быстренько закрыть такие страницы в robots.txt и переключиться на другие задачи и проблемы. Как вы уже понимаете, проблему это не решило - страницы продолжили прибывать. Нашелся даже один умник, который посоветовал открыть их обратно и забить, мол Google сам разберется. Ага, сиди и жди, пока само пройдет.

А чо делать-то?

Чтобы выкинуть из индекса мусор, вам необходимо:

1. Закрыть целевые разделы от индекса один из 2-х способов, указанных тут Способы закрытия страниц от индексации

2. Открыть боту сканирование этих разделов в robots.txt

3. Дождаться, пока все целевые разделы и страницы будут деиндексированы

4. Закрыть их в robots.txt, дабы они не будоражили понапрасну Google и не тратили ваш краулинговый бюджет

Заключение

Мораль у данной статьи всего одна - всегда курите документацию. Ваши проблемы она не решит, но на мысли о правильном решении скорее всего наведет.

Если вам необходима профессиональная консультация по SEO - пишите в ЛС или оставляйте комментарий под этой статьей. Статья подготовлена автором канала SEO PM

2
Начать дискуссию