Как закрыть ссылки и страницы сайта от индексации?

Как закрыть ссылки и страницы сайта от индексации?

С какой целью порой может использоваться закрытие веб-сайта или каких-то его разделов, страниц от индексации поисковыми системами? Вариантов с ответами имеются несколько:

  • Следует убрать от всеобщего обзора ту или иную информацию, в которой могут находиться секретные данные.
  • Если нужно сформировать подходящий релевантный контент: случаются варианты, если очень сильно возникает желание сообщить пользователям Интернете больший поток информации, однако которая делает туманной релевантность по тексту.
  • Закрыть от роботов дублирующий контекст.
  • Спрятать информацию, которая не представляет интереса для пользователей, и которую так не любят поисковые роботы, считая ее спамом в медиа-контенте.

Например, это могут быть портфолио, материалы сайта с устаревшим смыслом, какие-то расписания в справочниках.

Запрет на индексацию сайта или каких-то частей с помощью файла robots.txt

Для начала нужно создать текстовый файл с названием robots.txt.

Затем прописываем там следующий код:

1 User-agent: *

2 Disallow: /

После этого полученный файл robots.txt уже с помощью FTP заливаем в корень сайта.

Если необходимо запретить индексацию сайта только от роботов Яндекса нужно прописать:

1 User-agent: Yandex

2 Disallow: /

Если же нужно закрыть сайт только от роботов Google, то код примет следующий вид:

1 User-agent: Googlebot

2 Disallow: /

Закрытие сайта от индексации через файл .htaccess

Способ первый – прописать отдельную строку для каждой поисковой системы

Для этого в файле .htaccess делаем следующие записи в коде:

1 SetEnvIfNoCase User-Agent "^Yandex" search_bot

2 SetEnvIfNoCase User-Agent "^Googlebot" search_bot

3 SetEnvIfNoCase User-Agent "^Mail" search_bot

4 SetEnvIfNoCase User-Agent "^Aport" search_bot

5 SetEnvIfNoCase User-Agent "^Yahoo" search_bot

6 SetEnvIfNoCase User-Agent "^msnbot" search_bot

7 SetEnvIfNoCase User-Agent "^Robot" search_bot

8 SetEnvIfNoCase User-Agent "^Snapbot" search_bot

9 SetEnvIfNoCase User-Agent "^WordPress" search_bot

10 SetEnvIfNoCase User-Agent "^Parser" search_bot

11 SetEnvIfNoCase User-Agent "^BlogPulseLive" search_bot

12 SetEnvIfNoCase User-Agent "^spider" search_bot

13 SetEnvIfNoCase User-Agent "^bot" search_bot

14 SetEnvIfNoCase User-Agent "^igdeSpyder" search_bot

15 SetEnvIfNoCase User-Agent "^php" search_bot

Способ второй

Для страницы, которую необходимо закрыть, можно в файле .htaccess прописать любой из следующих ответов сервера:

1 403 «Доступ к ресурсу запрещен», т.е. код 403 Forbidden

2 410 «Ресурс недоступен», т.е. окончательно удален

Способ третий

Можно закрыть индексацию к сайту с помощью доступа только по паролю:

В этом случае, в файле .htaccess, вставляем следующий код:

1 AuthType Basic

2 AuthName "Password Protected Area"

3 AuthUserFile /home/user/www-pass/.htpasswd

4 Require valid-user

Значит в корне сайта создаем - home/user/www-pass/.htpasswd

где .htpasswd - файл с паролем, который создаем сами в файле.

Но затем следует добавить пользователя в файл паролей htpasswd - /home/user/www-pass/.htpasswd USERNAME

где USERNAME - это имя пользователя для авторизации.

Здесь можно прописать свой вариант.

Как закрыть отдельный блог от индексации?

Зачастую бывает, что необходимо закрыть от поисковой индексации не весь сайт целиком, а только конкретный источник: список, счетчик, запись, страницу либо какой-нибудь код.

В одно время, достаточно было использовать тег "noindex", но это больше подходило для роботов Яндекса, а для Google были достаточны обычные действия.

Здесь может быть любой текст, ссылки или код

Но затем роботы Яндекс стали меньше обращать внимания на такую техническую «уловку», а роботы Google вообще перестали понимать данную комбинацию. В результате, технические специалисты сайтов, стали применять иной вариант с целью закрытия индексации части текста на какой-либо странице, используя скрипты javascript, либо соответствующие плагины или модули.

Часть текста шифруется с помощью javascript. Но следует помнить, что затем непосредственно сам скрипт нужно будет закрыть от индексации в robots.txt.

Универсальный способ закрытия изображений (медиафайлов) от индексации

Многие сайты используют картинки, которые в основном берутся из Интернета, я значит никак не могу считаться уникальными. В результате таких действий, появляется боязнь, то, что роботы поисковиков отнесутся к таким сайтам негативно, а именно будут блокировать продвижение и повышение в рейтингах.

В этом случае следует на странице сделать следующую запись в коде:

<span class="hidden-link" data-link="https://goo.gl"><img src="..."></span>

Скрипт, который будет обрабатывать элемент:

<script>$('.hidden-link').replaceWith(function(){return'<a href="'+$(this).data('link')+'">'+$(this).html()+'</a>';})</script>

Как закрыть от индексации внешние либо внутренние ссылки?

Такие действия нужно только в том случае, если нужно закрыть от индексации входящие ссылки от сайтов находящиеся под санкциями поисковых систем, а так же скрыть исходящие ссылки на сторонние ресурсы, чтобы предотвратить уменьшение веса сайта, а именно ТИЦ сайта донора.

Для этого нужно создать файл transfers.js

После этого нижеуказанную часть кода вставляем в файл transfers.js:

function goPage(sPage) {

window.location.href = sPage;

}

После этого данный файл уже размещаем в соответствующей папке сайта и на странице в head добавляем код:

<script type="text/javascript" src="/js/transfers.js"></script>

И теперь прописываем необходимую ссылку, которую нужно скрыть от индексации поисковых систем:

<a href="javascript:goPage('http://указываем URL/')"></a>

Как закрыть от индексации роботов отдельную страницу на сайте?

Первый метод - через файл robots.txt

</pre>

Disallow: /URL-страницы сайта

<pre>

Второй метод - закрытие с помощью метатегов

<meta name="robots" content="noindex, nofollow" />

Третий метод - в Вебмастере Яндекса, в разделе "Инструменты" с помощью "Удалить URL" можно отдельно по каждой ссылке сделать запрет на индексацию от роботов Яндекса.

Четвертый метод - сделать запрет на индексацию через ответ сервера:

404 - ошибка страницы

410 - страница удалена

И сделать добавление в файле .htaccess:

ErrorDocument 404 https://URL-сайта/404

Однако, данным метод используется весьма редко.

Как закрыть от индексации сразу весь раздел или категорию на сайте?

Лучший способ - реализовать это с помощью файла robots.txt, где внутри прописать:

User-agent: *

Disallow: /название раздела или категории

Дополнительные варианты:

Кроме указанных выше способов, также могут подойти способы, которые применяются для сокрытия страницы сайта целиком, либо какого-то раздела, - правда, если подобные действия могут быть сделаны автоматически:

  • соответствующий ответ сервера для определенных страниц раздела сайта
  • применение мета-тегов к определенным страницам

Все эти без исключения методы, возможно, осуществить программно, а никак не в «ручном» режиме назначать к любой страничке или части текста запрет на индексацию – весьма дороги трудовые затраты.

Конечно, ведь легче в целом сделать соответствующее запрещение в файле robots.txt, однако практика показывает, то что это не может гарантировать на 100% запрет на индексацию.

Как закрыть от индексации целиком папку?

В этом случае на закрытие пойдет непосредственно папка, а не раздел. Ведь нам нужно закрыть папку с файлами, которые не должны видеть поисковые роботы, а это могут быть какие-то разработки, документы, картинки и многое другое.

User-agent: *

Disallow: /folder/

реклама
разместить
Начать дискуссию