IndexNow и будущее сканирования Веб

Известный за рубежом SEO-специалист Кевин Индиг подготовил обзорную статью, описывающую варианты и перспективы использования технологии IndexNow для ускорения индексации документов в сети Интернет.

Перевод материала подготовлен специалистами SiteAnalyzer.

IndexNow – это новый способ оповещения поисковых систем о появлении нового или обновленного контента. В этом посте мы постараемся прояснить, чем новая технология IndexNow отличается от классического сканирования сайта поисковыми ботами или при помощи Sitemap.xml, и что она означает для будущего в технологиях сканирования в интернете.

IndexNow и будущее сканирования Веб

Что такое IndexNow и как его использовать

Ранее я уже объяснял, что сканирование поисковыми системами является неэффективным, устаревшим и расточительным. Вместо того, чтобы сканировать сайты, поисковые системы должны позволять владельцам сайтов самим доставлять им контент. Тенденция к индексированию при помощи API была в большей степени обусловлена поисковой системой Bing, чем Google. Может быть, потому, что Google не хочет отказываться от своей монополии на создание самого большого в мире веб-индекса. Возможно, это обусловлено техническими причинами. В любом случае, повышенная эффективность сканирования и индексации полезна для всей сети, а не только для поисковых систем, поскольку она приводит к снижению нагрузки на сервер и снижению затрат на электроэнергию.

В любом случае, предоставление контента поисковым системам через API дает четыре основных преимущества:

  • Меньше спама, потому что поисковые системы могут просто ограничивать доступ к API для спамеров.
  • Меньше проблем с рендерингом или вовсе их отсутствие, потому что поисковые системы могут запрашивать отрисованный HTML прямо с сайта.
  • Меньше расходов на ресурсы, потому что поисковым системам больше не нужно сканировать Интернет.
  • Более высокая рентабельность.

Совсем недавно Bing запустил IndexNow – открытый протокол для отправки нового контента непосредственно в поисковые системы в сотрудничестве с Яндексом и другими поисковыми системами.

IndexNow и файлы Sitemap в формате XML

IndexNow – это не полноценный API индексирования, который доставляет весь HTML-код поисковым системам, а скорее XML-карта сайта на "стероидах". Согласно официальной документации, IndexNow уведомляет поисковые системы о новых URL. Им больше не нужно сканировать карты сайта XML, которые могут быть ограничены по размеру и актуальности. Однако, вы все еще можете использовать оба варианта.

IndexNow и будущее сканирования Веб

В документации также указано, что если URL-адрес меняется несколько раз в день, например, для сайта новостей или погоды, IndexNow не является оптимальным решением. Однако, поисковые системы отдают предпочтение URL-адресам, отправленным через IndexNow, по сравнению с URL-адресами, найденными другим способом. Отправленные ссылки не обязательно должны возвращать код состояния 200. Например, это может быть код 404, чтобы уведомлять поисковые системы о страницах, которые больше не доступны, или 301-й редирект для перенаправления, чтобы быстрее сканировать страницы.

URL-адреса, обнаруженные с помощью IndexNow, учитываются в бюджете сканирования (или квоте сканирования, как это называет Bing). Пока непонятно, как IndexNow изменяет бюджет сканирования, но я могу представить, что отсутствие необходимости обнаруживать URL-адреса через ссылки или карты сайта XML намного эффективнее и должно увеличивать бюджет сканирования сайта.

Как использовать IndexNow

Использовать IndexNow очень просто:

  • Перейдите к генератору ключей и сгенерируйте ключ, чтобы подтвердить право собственности на сайт.
  • Разместите ключ в текстовом файле в корневом каталоге.
  • Отправьте новые URL-адреса с параметрами через запрос GET.
  • Отслеживайте скорость сканирования и индексирование с помощью инструментов Bing или Яндекс для веб-мастеров.

Каждому хосту (субдомену) нужен свой ключ, и вы можете использовать разные ключи для каждой системы управления контентом (CMS).

Пример онлайн инструмента, отправляющего интересующие страницы поисковым системам Яндекс и Bing переобход, используя протокол IndexNow.

Роль CDN в индексировании Интернета

Многие платформы планируют внедрить IndexNow, но Cloudflare выделяется среди них по нескольким причинам. Во-первых, CDN имеют хороший «обзор» сети, а это означает, что они лучше всего подходят для отслеживания трафика ботов и людей, поскольку они проксируют множество сайтов. По данным W3C, 77% веб-сайтов не используют CDN. Но Cloudflare хорошо понимает, когда меняются URL-адреса, и может помочь поисковым системам обнаруживать изменения более эффективно.

IndexNow и будущее сканирования Веб

Доля рынка на одного провайдера прокси

Во-вторых, Cloudflare выпустила продукт для решения распространенных проблем с индексацией под названием Crawler Hints. IndexNow попадает прямо в точку. Это говорит о том, что проблема, которую пытается решить IndexNow, является достаточно серьезной.

Cloudflare сообщает, что около 45% интернет-трафика исходит от ботов, в том числе 5% от «хороших ботов», таких как сканеры поисковых систем. Но 53% из этих 5% тратятся на повторное сканирование URL-адресов, которые не изменились, сканирование спама или другого нерелевантного контента. Вот где пригодятся подсказки для сканирования.

Цитата из Cloudflare

В Cloudflare мы видим трафик от всех основных поисковых роботов и в прошлом году мы изучали, как часто эти боты повторно посещают страницу, которая не изменилась с тех пор, как они ее видели в последний раз. Каждое из этих посещений – пустая трата времени. И, к сожалению, наши наблюдения показывают, что 53% этого трафика краулера тратится впустую.

Положение CDN в веб-инфраструктуре и их широкий обзор активности трафика делает их важным партнером для IndexNow, но также и интересным средством более эффективного индексирования. Я ожидаю большего движения на этом фронте в ближайшем будущем.

Растущие боли сканирования Интернета

IndexNow предоставляет множество преимуществ. Он позволяет веб-мастерам уведомлять все поисковые системы сразу, что демократизирует индексацию и может привести к уменьшению количества ресурсов, необходимых поисковым системам для сканирования Интернета.

Поисковые системы какое-то время боролись со сканированием. Основными проблемами является спам, рендеринг javascript, а также более широкое использование тегов nofollow, что является одной из причин, по которой Google начал рассматривать nofollow больше как рекомендацию, нежели директиву.

Я не думаю, что классическая индексация Интернета при помощи ссылок – лучший вариант, и ожидаю, что все больше поисковых систем будут полагаться на веб-мастеров, которые будут сами доставлять им новый контент через API, например такие, как IndexNow.

1717
11 комментариев

Тестировал я этот ИндексНау в Яшке. Пачку урлов отправляешь - сканит рандомно. Некоторые урлы вообще не обходит (старые в основном). Новые обходит через раз или через несколько часов. Шляпа полная как обычно. Всё криво, косо, по-рунетовски. Столько шуму со всех сторон - а на деле дерьмовый пшик. Может в Бинг дела обстоят по другому, хз. Старый добрый переход работает пока нормально и намного быстрее.

8
Ответить

80% всего в сео - дерьмовый пшик, к сожалению

1
Ответить

Тут соглашусь - если есть достаточно лимитов для переобхода - всегда стараюсь сначала индексировать через него - бот приходит практически моментально.

А IndexNow - это уже как бы так - на всякий случай до кучи скриптом набрасываю новые урлы.

Да и странно что ответ АПИ не стандартизирован - у Яши както более толково реализовано, у Бинга совсем тяп-ляп на скорую руку.

Пока все сыро в общем.

1
Ответить

Звучит неубедительно
* не все будут отправлять свои данные сами, а значит классическое индексирование поисковиками всегда будет иметь больший охват
* текущее индексирование Гуглом - это не просто парсинг контента, а целая куча метрик по оценке сайта. Учитывается дофига всего - видит ли пользователь на самом деле контент, есть ли проблемы с доступностью, как быстро сайт загружается и т.п. IndexNow по описанию кушает лишь сырой контент и как он поймёт и проранжирует сайты в выдаче, если контент будет похожий и узнаёт, что контент на сайте действительно есть?

Ответить

Вот как раз сейчас и наблюдаем ситуацию, что с приоритетностью обхода через IndexNow у того же Яндекса пока не очень.
В остальном, думаю нужно подождать пока его внедрит тот же Google, возможно после этого появится больше ясности.
Либо эта технология так и останется неким "недоношенным ребенком", с которым никто из ПС не захочет возиться дальше.

Ответить