Как правильно запрещать Google индексировать ваш сайт
Indexed, though blocked by robots.txt знакомо? Это когда бот Google пылесосит в индекс страницы, которых там не должно быть. Вы их предусмотрительно закрыли в robots.txt, а он все равно решил, что в индексе им будет комфортно и уютно. Почему так происходит и что с этим делать?
Оглавление
Для тех, кто не хочет читать базу и перейти сразу к кейсу - волшебная ссылка Капкан индексации
Способы закрытия страниц от индексации
Существует 3 варианта, как вы можете закрыт поисковым ботам доступ к индексации страниц вашего сайта:
1. HTTP заголовок X-Robots-Tag. Самый изящный способ. Его не найти в исходном коде страницы, но можно увидеть используя консоль разработчика. Настраивается на стороне сервера и чаще всего силами DevOps команды либо силами админа сервера.
2. Meta robots. Способ надежный, как швейцарские часы. В секцию добавляется мета тег robots с атрибутами на ваш вкус. Я обычно прописываю noindex, follow.
Подробнее в документации - https://developers.google.com/search/docs/crawling-indexing/robots-meta-tag
А как же robots.txt?
Вопреки распространенному заблуждению, эта директива не запрещает индексировать страницы вашего сайта, о чем Google прямо и говорит тут - https://developers.google.com/search/docs/crawling-indexing/robots/intro
Данная директива предназначена для того, чтобы запретить сканирование разделов. Но Google легко может добавить в индекс контент, который вы не желаете видеть в выдаче.
Капкан индексации
А теперь собственно зачем я все это пишу. На продвигаемом мной сайте произошла ситуация, при которой в индекс добавилось огромное количество страниц с get-параметрами, которые наплодили рефералы.
Чтобы не усложнять жизнь горячо любимым мной инженерам разработчикам, я решил быстренько закрыть такие страницы в robots.txt и переключиться на другие задачи и проблемы. Как вы уже понимаете, проблему это не решило - страницы продолжили прибывать. Нашелся даже один умник, который посоветовал открыть их обратно и забить, мол Google сам разберется. Ага, сиди и жди, пока само пройдет.
А чо делать-то?
Чтобы выкинуть из индекса мусор, вам необходимо:
1. Закрыть целевые разделы от индекса один из 2-х способов, указанных тут Способы закрытия страниц от индексации
2. Открыть боту сканирование этих разделов в robots.txt
3. Дождаться, пока все целевые разделы и страницы будут деиндексированы
4. Закрыть их в robots.txt, дабы они не будоражили понапрасну Google и не тратили ваш краулинговый бюджет
Заключение
Мораль у данной статьи всего одна - всегда курите документацию. Ваши проблемы она не решит, но на мысли о правильном решении скорее всего наведет.
Если вам необходима профессиональная консультация по SEO - пишите в ЛС или оставляйте комментарий под этой статьей. Статья подготовлена автором канала SEO PM