{"id":14275,"url":"\/distributions\/14275\/click?bit=1&hash=bccbaeb320d3784aa2d1badbee38ca8d11406e8938daaca7e74be177682eb28b","title":"\u041d\u0430 \u0447\u0451\u043c \u0437\u0430\u0440\u0430\u0431\u0430\u0442\u044b\u0432\u0430\u044e\u0442 \u043f\u0440\u043e\u0444\u0435\u0441\u0441\u0438\u043e\u043d\u0430\u043b\u044c\u043d\u044b\u0435 \u043f\u0440\u043e\u0434\u0430\u0432\u0446\u044b \u0430\u0432\u0442\u043e?","buttonText":"\u0423\u0437\u043d\u0430\u0442\u044c","imageUuid":"f72066c6-8459-501b-aea6-770cd3ac60a6"}

Настройка правильного файла robots.txt

Файл robots.txt отвечает за правильный обход сайта поисковыми роботами Яндекс и Google. Его отсутствие или некорректная настройка может привести к неверной индексации, что в свою очередь окажет негативное влияние на позиции сайта в поисковых системах.

Принцип настройки

  • Создать в текстовом редакторе файл robots.txt.
  • Прописать необходимые правила.
  • Перенести документ в корневой каталог сайта.
  • Проверить правильность настройки файла через сервис Яндекс.Вебмастер «Анализ robots.txt».

Как настраивать

1. Создаем записи, которые определяют, для каких поисковых роботов представлены правила:

  • «User-agent: *» (для всех поисковых роботов);
  • «User-agent: Yandex» (для всех поисковых роботов Яндекса, например YandexImages, YandexNews и др).

2. Определяем страницы, которые необходимо закрыть от индексации. В общем случае, это:

  • страницы с GET-параметрами (фильтрация, сортировка, поиск, сравнение товаров);
  • пользовательские страницы (личный кабинет, регистрация, авторизация, оформление заказ);
  • системные каталоги и файлы;
  • дубликаты.

Важно! Страницы пагинации должны быть открыты для индексации! Подробнее об индексации пагинации можете прочитать в нашей заметке «Как настроить правильную индексацию страниц пагинации».

3. C помощью директив Disallow и Allow прописываем правила для корректной индексации сайта для каждого User-agent.

Disallow запрещает к индексации указанные после него файлы, а Allow — разрешает. Кроме этого, в данных правилах могут использоваться регулярные выражения с символами «*» и «$». Знак «*» означает любую последовательность символов после него, а знак «$» ее останавливает.

На примере ниже мы запретили к индексации страницу раздела «Статьи» и все страницы, расположенные во вложенном каталоге «SEO».

Стоит отметить, что задав выражение как на скриншоте ниже, мы открываем все вложенные категории и страницы.

Еще один важный момент — определение применяемого правила для страницы, если она подходит под несколько директив. Для этого они сортируются по возрастанию длины префикса URL и применяются по порядку.

Например, у нас есть набор следующих директив:

Чтобы понять, будет ли третье правило применяться, надо их отсортировать по возрастанию длины префикса URL:

Делаем вывод, что страница «Как настроить robots.txt» разрешена к индексированию, а остальные страницы данного раздела — нет.

4. С помощью инструмента «Проверка оптимизации для мобильных устройств» определяем, какие файлы необходимы поисковым роботам для правильной индексации сайта на мобильных устройствах и открываем их для индексации:

5. Добавление директивы Host. С марта 2018 года Яндекс отказался от использования данной директивы. Теперь для указания главного зеркала достаточно настройки 301 редиректов. Указывать директиву Host в robots.txt более не нужно.

6. В конце файла прописываем путь с актуальной картой сайта sitemap.xml.

7. Проверяем правильность заполнения файла robots.txt. Для этого:

  • заходим в инструмент Яндекс.Вебмастер «Анализ robots.txt»;
  • загружаем обновленный файл robots.txt;
  • формируем список страниц для проверки;
  • анализируем результат и вносим правки при необходимости.

Пример правильного файла robots.txt

В качестве примера можно ознакомиться с настройкой данного файла по ссылке:

Подробные инструкции по настройке robots.txt Вы сможете найти на страницах «Использование robots.txt» от Яндекса и «О файлах robots.txt» от Google.

Ждите новые заметки в блоге или ищите на нашем сайте.

0
3 комментария
Galina Bakusheva

Не могу не добавить, что прежде, чем закрывать параметры и страницы с файле robots.txt важно в хэдере использовать x-robots-rag ради чтобы сэкономить крулинговый бюджет. Если вы закроете только в роботс.тхт, то обходы роботов все-равно будут совершаться и страница будет видна.

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
0 комментариев
Раскрывать всегда