{"id":14275,"url":"\/distributions\/14275\/click?bit=1&hash=bccbaeb320d3784aa2d1badbee38ca8d11406e8938daaca7e74be177682eb28b","title":"\u041d\u0430 \u0447\u0451\u043c \u0437\u0430\u0440\u0430\u0431\u0430\u0442\u044b\u0432\u0430\u044e\u0442 \u043f\u0440\u043e\u0444\u0435\u0441\u0441\u0438\u043e\u043d\u0430\u043b\u044c\u043d\u044b\u0435 \u043f\u0440\u043e\u0434\u0430\u0432\u0446\u044b \u0430\u0432\u0442\u043e?","buttonText":"\u0423\u0437\u043d\u0430\u0442\u044c","imageUuid":"f72066c6-8459-501b-aea6-770cd3ac60a6"}

Как закрыть сайт от индексации

Существует несколько способов закрыть сайт от индексации.

Запрет в файле robots.txt

Файл robots.txt отвечает за индексацию сайта поисковыми роботами. Найти его можно в корневой папке сайта. Если же его не существует, то его необходимо создать в любом текстовом редакторе и перенести в нужную директорию. В файле должны находиться всего лишь две строчки:

User-agent: *
Disallow: /

Остальные правила должны быть удалены.

Этот метод самый простой для скрытия сайта от индексации.

С помощью мета-тега robots

Прописав в шаблоне страниц сайта в теге <head> следующее правило

<meta name="robots" content="noindex, nofollow"/>

или

<meta name="robots" content="none"/>

вы запретите его индексацию.

Как закрыть зеркало сайта от индексации

Зеркало — точная копия сайта, доступная по другому домену. То есть два разных домена настроены на одну и ту же папку с сайтом. Цели создания зеркал могут быть разные, но в любом случае мы получаем полную копию сайта, которую рекомендуется закрыть от индексации.

Сделать это стандартными способами невозможно — по адресам domen1.ru/robots.txt и domen2.ru/robots.txt открывается один и тот же файл robots.txt с одинаковым содержанием. В таком случае необходимо провести специальные настройки на сервере, которые позволят одному из доменов отдавать запрещающий robots.txt.

Ждите новые заметки в блоге или ищите на нашем сайте.

0
2 комментария
Sergei Timofeyev

Они всё равно сканируют, только в выдачу это не попадает. Необходимо более глубокое отключение на уровне Agent, но и это не панацея. Вроде бы Яндекс закрытые от индекса страницы как-то внезапно вывалил. Или не он?

Ответить
Развернуть ветку
SEO блиц
Автор

Вы правы.
В большинстве случаев достаточно способа с запретом индексации в robots.txt.
В таком случае страницы сайта не попадают в выдачу и не участвуют в ранжировании, но роботы продолжают их сканировать.

Дествительно есть некоторые нюансы:

1. Например, Яндекс показывает главную страницу сайта, даже если он закрыт к индексации
(скриншот1).

2. А Google может показывать и внутренние страницы
(скриншот2)

Чтобы этого избежать можно, например, использовать HTTP-заголовка X-Robots-Tag для Google - https://developers.google.com/search/reference/robots_meta_tag?hl=ru

Или настроить ответ 403 для отдельных User-Agent. Пример кода:

if ($http_user_agent ~ "libwww|Wget|LWP|damnBot|BBBike|java|spider|crawl|google|bing|yandex|msnbot") {
return 403;
}

Ответить
Развернуть ветку

Комментарий удален модератором

Развернуть ветку
-1 комментариев
Раскрывать всегда