{"id":14271,"url":"\/distributions\/14271\/click?bit=1&hash=51917511656265921c5b13ff3eb9d4e048e0aaeb67fc3977400bb43652cdbd32","title":"\u0420\u0435\u0434\u0430\u043a\u0442\u043e\u0440 \u043d\u0430\u0442\u0438\u0432\u043e\u043a \u0438 \u0441\u043f\u0435\u0446\u043f\u0440\u043e\u0435\u043a\u0442\u043e\u0432 \u0432 vc.ru \u2014 \u043d\u0430\u0439\u0434\u0438\u0441\u044c!","buttonText":"","imageUuid":""}

SEO блиц

2 ноя 2018 2.11.2018

Настройка правильного файла robots.txt

Файл robots.txt отвечает за правильный обход сайта поисковыми роботами Яндекс и Google. Его отсутствие или некорректная настройка может привести к неверной индексации, что в свою очередь окажет негативное влияние на позиции сайта в поисковых системах.

Принцип настройки

Создать в текстовом редакторе файл robots.txt.
Прописать необходимые правила.
Перенести документ в корневой каталог сайта.
Проверить правильность настройки файла через сервис Яндекс.Вебмастер «Анализ robots.txt».

Как настраивать

1. Создаем записи, которые определяют, для каких поисковых роботов представлены правила:

«User-agent: *» (для всех поисковых роботов);
«User-agent: Yandex» (для всех поисковых роботов Яндекса, например YandexImages, YandexNews и др).

2. Определяем страницы, которые необходимо закрыть от индексации. В общем случае, это:

страницы с GET-параметрами (фильтрация, сортировка, поиск, сравнение товаров);
пользовательские страницы (личный кабинет, регистрация, авторизация, оформление заказ);
системные каталоги и файлы;
дубликаты.

Важно! Страницы пагинации должны быть открыты для индексации! Подробнее об индексации пагинации можете прочитать в нашей заметке «Как настроить правильную индексацию страниц пагинации».

3. C помощью директив Disallow и Allow прописываем правила для корректной индексации сайта для каждого User-agent.

Disallow запрещает к индексации указанные после него файлы, а Allow — разрешает. Кроме этого, в данных правилах могут использоваться регулярные выражения с символами «*» и «$». Знак «*» означает любую последовательность символов после него, а знак «$» ее останавливает.

На примере ниже мы запретили к индексации страницу раздела «Статьи» и все страницы, расположенные во вложенном каталоге «SEO».

Стоит отметить, что задав выражение как на скриншоте ниже, мы открываем все вложенные категории и страницы.

Еще один важный момент — определение применяемого правила для страницы, если она подходит под несколько директив. Для этого они сортируются по возрастанию длины префикса URL и применяются по порядку.

Например, у нас есть набор следующих директив:

Чтобы понять, будет ли третье правило применяться, надо их отсортировать по возрастанию длины префикса URL:

Делаем вывод, что страница «Как настроить robots.txt» разрешена к индексированию, а остальные страницы данного раздела — нет.

4. С помощью инструмента «Проверка оптимизации для мобильных устройств» определяем, какие файлы необходимы поисковым роботам для правильной индексации сайта на мобильных устройствах и открываем их для индексации:

5. Добавление директивы Host. С марта 2018 года Яндекс отказался от использования данной директивы. Теперь для указания главного зеркала достаточно настройки 301 редиректов. Указывать директиву Host в robots.txt более не нужно.

6. В конце файла прописываем путь с актуальной картой сайта sitemap.xml.

7. Проверяем правильность заполнения файла robots.txt. Для этого:

заходим в инструмент Яндекс.Вебмастер «Анализ robots.txt»;
загружаем обновленный файл robots.txt;
формируем список страниц для проверки;
анализируем результат и вносим правки при необходимости.

Пример правильного файла robots.txt

В качестве примера можно ознакомиться с настройкой данного файла по ссылке:

https://arealidea.ru/robots.txt

Подробные инструкции по настройке robots.txt Вы сможете найти на страницах «Использование robots.txt» от Яндекса и «О файлах robots.txt» от Google.

Ждите новые заметки в блоге или ищите на нашем сайте.

6 показов

12K открытий

3 комментария

Galina Bakusheva

2.11.2018

Не могу не добавить, что прежде, чем закрывать параметры и страницы с файле robots.txt важно в хэдере использовать x-robots-rag ради чтобы сэкономить крулинговый бюджет. Если вы закроете только в роботс.тхт, то обходы роботов все-равно будут совершаться и страница будет видна.

SEO Дайджест: ТОП 50+ лучших постов из телеграм

Тщательно отобранные посты из телеграм-каналов по SEO от Михаила Шакина, Сергея Кокшарова, Ленара…

seospeciali.st

Ответить

Развернуть ветку

Аккаунт удален

2.11.2018

Комментарий недоступен

Ответить

Развернуть ветку

Аккаунт удален

26.09.2019

Комментарий недоступен

Ответить

Развернуть ветку

Написать комментарий...

0 комментариев

Раскрывать всегда