Виды поисковых роботов

Поисковый робот или паук — это специальная программа, предназначенная для сканирования сайтов. Робот, переходя по ссылкам, индексирует информацию и сохраняет ее в базе поисковых систем.

Поисковые роботы Google

Существует множество видов различных поисковых роботов, каждый из которых выполняет определенную функцию.

  • У Google основной поисковый робот называется Googlebot — он находит новые страницы и изменения на старых, после чего добавляет информацию в индекс.
  • Googlebot-Image выполняет поиск изображений.
  • Googlebot-Video соответственно отвечает за видео-контент.
  • Googlebot-News добавляет информацию в Google Новости.
  • APIs-Google используется для отправки push-уведомлений.
  • AdsBot-Google, AdsBot-Google-Mobile, AdsBot-Google-Mobile-Apps проверяют качество рекламы на компьютерах, мобильных устройствах и в приложениях.
  • Mediapartners-Google определяет содержание объявлений в AdSense.

Подробнее узнать о поисковых роботах Google можно в официальной справке компании.

Поисковые роботы Яндекса

  • Основной робот Яндекса (YandexBot/3.0) отвечает за поиск новых страниц/сайтов и переиндексацию новых версий ранее известных страниц.
  • Робот-зеркальщик (YandexBot/3.0; MirrorDetector) определяет зеркала сайтов.
  • Робот Яндекс.Картинок (YandexImages/3.0) отвечает за индексацию изображений.
  • Робот Яндекс.Новостей (YandexNews/4.0).
  • Робот, индексирующий фавиконки сайтов (YandexFavicons/1.0).
  • Робот Рекламной сети Яндекса (YandexDirect/3.0) определяет тематику сайтов для подбора более релевантных объявлений.

Подробнее о поисковых роботах Яндекса можно в официальной справке компании.

Управление поисковыми роботами

При помощи файла robots.txt или мета-тега <meta name=”robots”/> можно запретить поисковым роботам индексацию определенных страниц. Для этого нужно добавить соответствующие правила, и указать к какому роботу они относятся в директиве User-agent файла robots.txt или атрибуте name мета-тега.

Например, нижеприведенный код в файле robots.txt запрещает роботу Яндекс.Картинок индексировать все изображения.

User-agent: YandexImagesDisallow: /

А этот запрещает главному поисковому роботу Google индексировать страницу, на которой размещен данный тег:

<meta name=”googlebot” content=”noindex, follow”/>

О том, как правильно настроить индексирование сайта, можно узнать в статье.

Ждите новые заметки в блоге или ищите на нашем сайте.

1212
2 комментария

Добавил в закладки, очень полезный материал. Часто бывает нужно указать бота, и приходится лезть в документацию поисковиков.

3