{"id":14276,"url":"\/distributions\/14276\/click?bit=1&hash=721b78297d313f451e61a17537482715c74771bae8c8ce438ed30c5ac3bb4196","title":"\u0418\u043d\u0432\u0435\u0441\u0442\u0438\u0440\u043e\u0432\u0430\u0442\u044c \u0432 \u043b\u044e\u0431\u043e\u0439 \u0442\u043e\u0432\u0430\u0440 \u0438\u043b\u0438 \u0443\u0441\u043b\u0443\u0433\u0443 \u0431\u0435\u0437 \u0431\u0438\u0440\u0436\u0438","buttonText":"","imageUuid":""}

Как закрыть сайт от индексации

Существует несколько способов закрыть сайт от индексации.

Запрет в файле robots.txt

Файл robots.txt отвечает за индексацию сайта поисковыми роботами. Найти его можно в корневой папке сайта. Если же его не существует, то его необходимо создать в любом текстовом редакторе и перенести в нужную директорию. В файле должны находиться всего лишь две строчки:

User-agent: *
Disallow: /

Остальные правила должны быть удалены.

Этот метод самый простой для скрытия сайта от индексации.

С помощью мета-тега robots

Прописав в шаблоне страниц сайта в теге <head> следующее правило

<meta name="robots" content="noindex, nofollow"/>

или

<meta name="robots" content="none"/>

вы запретите его индексацию.

Как закрыть зеркало сайта от индексации

Зеркало — точная копия сайта, доступная по другому домену. То есть два разных домена настроены на одну и ту же папку с сайтом. Цели создания зеркал могут быть разные, но в любом случае мы получаем полную копию сайта, которую рекомендуется закрыть от индексации.

Сделать это стандартными способами невозможно — по адресам domen1.ru/robots.txt и domen2.ru/robots.txt открывается один и тот же файл robots.txt с одинаковым содержанием. В таком случае необходимо провести специальные настройки на сервере, которые позволят одному из доменов отдавать запрещающий robots.txt.

Ждите новые заметки в блоге или ищите на нашем сайте.

0
2 комментария
Sergei Timofeyev

Они всё равно сканируют, только в выдачу это не попадает. Необходимо более глубокое отключение на уровне Agent, но и это не панацея. Вроде бы Яндекс закрытые от индекса страницы как-то внезапно вывалил. Или не он?

Ответить
Развернуть ветку
SEO блиц
Автор

Вы правы.
В большинстве случаев достаточно способа с запретом индексации в robots.txt.
В таком случае страницы сайта не попадают в выдачу и не участвуют в ранжировании, но роботы продолжают их сканировать.

Дествительно есть некоторые нюансы:

1. Например, Яндекс показывает главную страницу сайта, даже если он закрыт к индексации
(скриншот1).

2. А Google может показывать и внутренние страницы
(скриншот2)

Чтобы этого избежать можно, например, использовать HTTP-заголовка X-Robots-Tag для Google - https://developers.google.com/search/reference/robots_meta_tag?hl=ru

Или настроить ответ 403 для отдельных User-Agent. Пример кода:

if ($http_user_agent ~ "libwww|Wget|LWP|damnBot|BBBike|java|spider|crawl|google|bing|yandex|msnbot") {
return 403;
}

Ответить
Развернуть ветку

Комментарий удален модератором

Развернуть ветку
-1 комментариев
Раскрывать всегда