Как закрыть сайт от индексации
Существует несколько способов закрыть сайт от индексации.
Запрет в файле robots.txt
Файл robots.txt отвечает за индексацию сайта поисковыми роботами. Найти его можно в корневой папке сайта. Если же его не существует, то его необходимо создать в любом текстовом редакторе и перенести в нужную директорию. В файле должны находиться всего лишь две строчки:
User-agent: *
Disallow: /
Остальные правила должны быть удалены.
Этот метод самый простой для скрытия сайта от индексации.
С помощью мета-тега robots
Прописав в шаблоне страниц сайта в теге <head> следующее правило
<meta name="robots" content="noindex, nofollow"/>
или
<meta name="robots" content="none"/>
вы запретите его индексацию.
Как закрыть зеркало сайта от индексации
Зеркало — точная копия сайта, доступная по другому домену. То есть два разных домена настроены на одну и ту же папку с сайтом. Цели создания зеркал могут быть разные, но в любом случае мы получаем полную копию сайта, которую рекомендуется закрыть от индексации.
Сделать это стандартными способами невозможно — по адресам domen1.ru/robots.txt и domen2.ru/robots.txt открывается один и тот же файл robots.txt с одинаковым содержанием. В таком случае необходимо провести специальные настройки на сервере, которые позволят одному из доменов отдавать запрещающий robots.txt.
Ждите новые заметки в блоге или ищите на нашем сайте.
Они всё равно сканируют, только в выдачу это не попадает. Необходимо более глубокое отключение на уровне Agent, но и это не панацея. Вроде бы Яндекс закрытые от индекса страницы как-то внезапно вывалил. Или не он?
Вы правы.
В большинстве случаев достаточно способа с запретом индексации в robots.txt.
В таком случае страницы сайта не попадают в выдачу и не участвуют в ранжировании, но роботы продолжают их сканировать.
Дествительно есть некоторые нюансы:
1. Например, Яндекс показывает главную страницу сайта, даже если он закрыт к индексации
(скриншот1).
2. А Google может показывать и внутренние страницы
(скриншот2)
Чтобы этого избежать можно, например, использовать HTTP-заголовка X-Robots-Tag для Google - https://developers.google.com/search/reference/robots_meta_tag?hl=ru
Или настроить ответ 403 для отдельных User-Agent. Пример кода:
if ($http_user_agent ~ "libwww|Wget|LWP|damnBot|BBBike|java|spider|crawl|google|bing|yandex|msnbot") {
return 403;
}
Комментарий удален модератором