Как посчитать краулинговый бюджет: 3 простых шага

Статья для тех, кто ни разу не считал краулинговый бюджет и не представляет, как это делается и для чего. Мы расскажем и покажем тонкости расчета и на примере нашего сайта, а также объясним, в каком случае следует бить тревогу.

Краулинговый бюджет (Crawl Budget) — это количество страниц сайта, которое сканирует краулер поисковых систем. После сканирования страницы, релевантные, по мнению бота, запросам пользователей, индексируются. И только после этого сайт попадает в органическую выдачу.

Напрямую краулинговый бюджет не влияет на ранжирование, однако он все равно важен для продвижения. Если на сайте много страниц, не факт, что бот их проиндексирует все — он может проиндексировать ошибочные, а на важные не хватит времени и бюджета.

Краулингового бюджета не хватает в нескольких случаях:

  • если на сайте есть технические ошибки — их обязательно следует исправить, чтобы увеличить бюджет сканирования;
  • если робот тратит объем сканирования на ненужные разделы, а важные пропускает. Важная страница останется без сканирования и не попадет даже на сотую позицию выдачи;
  • если на сайте заброшенный и нерелевантный контент. Из-за того, что сайт не обновляет информацию, боты будут реже его посещать, и краулинговый бюджет снизится.

С ситуацией нехватки бюджета может столкнуться как крупный, так и маленький сайт. Мы выявляем это на аудите.

На сканирование всем сайтам, в зависимости от их размера, выделяется разный бюджет. Небольшому — до 1 000 страниц, вероятнее всего, будет выделен меньший бюджет, нежели крупному сайту.

Чаще всего того минимума бюджета, что выделяется изначально, небольшому сайту хватает для хорошей индексации. Это значит, что все нужные страницы индексируются и присутствуют в поиске. А большому сайту вполне может потребоваться увеличение бюджета.

Сайты с историей меняют свой краулинговый бюджет при каждом сканировании, которое происходит ежедневно. На рост показателя влияют PageRank, поведенческие факторы и возраст ресурса.

В статье расскажем и покажем на примере нашего сайта, как определить уровень краулингового бюджета, какими сервисами для этого пользуемся мы. Это поможет проанализировать достаточность краулингового бюджета, сделать вывод о наличии ошибок и перейти к их дальнейшему анализу и исправлению. Поехали!

Шаг 1. Определите количество страниц, которое должно быть в индексе

Страницы, которые должны быть в индексе, мы определяем в ScreamingFrog. Сервис видит, какие страницы уже просканированы — это и будет искомый показатель. По нашему сайту количество таких страниц составляет 150.

Как посчитать краулинговый бюджет: 3 простых шага

Если эти страницы нашел ScreamingFrog, значит, бот тоже найдет и потратит на них краулинговый бюджет.

Шаг 2. Определите количество обращений робота к сайту

Существует два способа, как узнать количество обращений робота к сайту: один попроще, другой посложнее. Рассмотрим оба.

1 способ — при помощи сервисов Google или Яндекс для расчета примерного бюджета

Google Search Console и Яндекс.Вебмастер помогают определить количество просканированных ботами страниц. В Google Search Console вы сможете узнать информацию за период 90 дней, в то время как в Яндексе можно выбрать любой период.

Краулинговый бюджет, который мы узнаем благодаря информации из Google Search Console и Яндекс.Вебмастер, будет примерный. Это связано с тем, что указанные сервисы засчитывают обращение роботов за день к любым страницам один раз.

То есть робот зайдет один раз на ошибочную страницу, ничего там не найдет, позже зайдет еще несколько раз в попытках обнаружить там контент. Все эти попытки в отчетах мы не увидим — зафиксируется только одно обращение робота, хотя по факту их может быть 4-5.

Способ хоть и примерный, но идеально подходит для сайтов с количеством страниц до 50 000. По нашему опыту у таких сайтов обычно четкая структура, а боты индексируют все необходимые страницы, поэтому нет необходимости в сложном анализе. Если нужно больше подробностей, необходим анализ логов, о котором расскажем в следующем подпункте.

Чтобы узнать краулинговый бюджет в Google Search Console, заходим в «Настройки» → «Статистика сканирования» → «Открыть отчет».

Как посчитать краулинговый бюджет: 3 простых шага

В отчете мы смотрим на общую статистику сканирования и конкретно на показатель «Всего запросов сканирования» — кликаем на него, чтобы увидеть точное значение. В нашем случае запоминаем цифру 6 051, она пригодится для дальнейших расчетов.

Как посчитать краулинговый бюджет: 3 простых шага

Также здесь можно посмотреть и другие отчеты. Они разделяются на группы по ответу, по типу файла и робота Googlebot, цели. Здесь можно посмотреть, куда конкретно бот ходит, какой процент ответов дает сайт, сколько бот посещает корректных страниц и сколько ошибочных.

Варианты отчетов в Google Search Console
Варианты отчетов в Google Search Console

Чтобы узнать краулинговый бюджет при помощи Яндекс.Вебмастер, выбираем раздел «Индексирование» → «Статистика обхода». Сервис показывает количество обращений к сайту за текущий день, но не показывает общий показатель за желаемый период.

Количество обращений можно посмотреть на графике слева
Количество обращений можно посмотреть на графике слева

Наглядные графики и анализ отчетов помогут выявить возможные проблемы при сканировании, а также отследить изменения или проблемы краулингового бюджета.

Мы рекомендуем использовать анализ сайта при помощи сервисов Google и Яндекс примерно раз в неделю. Это поможет просто и быстро понять общую картину по сайту и выявить ошибки.

2 способ — при помощи анализа логов сервера для точного расчета бюджета

Этот способ сложнее, нежели вариант с сервисами Google и Яндекс, и будет настоящим маст-хэвом для сайтов с количеством страниц от 70 00 — чем крупнее сайт, тем больше ошибок встречается и, как правило, найти их становится сложнее.

Анализ логов позволяет не только рассчитать точный краулинговый бюджет, но и посмотреть более глубокие данные: по одному пути ходят боты или по разным, когда на какую страницу зашел бот, как глубоко прошел, сколько раз обращался к одной и той же странице.

Логи — файлы, содержащие информацию о работе сервера или компьютера. Внутри этих файлов собираются следующие данные:

  • IP-адрес, с которого происходило посещение;
  • адрес страницы;
  • GET-запрос, означает получение данных;
  • page/2 — когда обращение было ко второй странице;
  • код ответа сервера;
  • размер переданной информации;
  • общие данные о пользователях (операционная система, регион и т.д.).

Для анализа логов мы рекомендуем программы Screaming Frog Log Analyzer, LogViewer, Loggly. В программе Screaming Frog Log Analyzer удобно отображаются графики с количеством обращений самых разных роботов.

Графики посещений роботов в программе Screaming Frog Log Analyzer
Графики посещений роботов в программе Screaming Frog Log Analyzer

Например, на нашем сайте количество страниц в индексации составило 150, количество обращений роботов — 67.

Как посчитать краулинговый бюджет: 3 простых шага

Мы рекомендуем проводить проверку логов минимум раз в полгода, если у сайта 50 000-70 000 страниц и раз в 3 месяца для сайтов от 70 000 страниц. Это гораздо сложнее проверки в Google и Яндекс и требует специальных знаний, но помогает выявлять серьезные недоработки технической части сайта.

Например, ошибки с кодами ответа 300, 404 и 500 и неправильную структуру сайта, из-за которых страницы могут долго индексироваться, не попадать в поиск и лишать вас конверсий.

Шаг 3. Подставьте данные в формулу и определите бюджет

Теперь у вас на руках должны быть все данные:

  • количество страниц, которые должны быть в индексе;
  • количество обращений роботов к сайту.

Можно приступать к вычислению данных по сайту.

Сначала нам нужно выяснить среднее число обращений в день:

Как посчитать краулинговый бюджет: 3 простых шага

В Google Search Console определили, что за 90 дней боты поисковых систем обращались к нашему сайту 6 051 раз.

Вычисляем среднее количество обращений роботов к сайту в день:

6 051/90= 67 страниц

Затем остается посчитать уровень краулингового бюджета:

Как посчитать краулинговый бюджет: 3 простых шага

В сервисе ScreamingFrog определили, что на сайте в индексе должно быть 150 страниц. Теперь делим полученное количество страниц в индексе на среднее число обращений роботов за день:

150/67= 2,23

Как интерпретировать результаты:

  • ≤ 3 — размера краулингового бюджета хватает для сайта;
  • 4-10 — средний результат;
  • > 10 — необходимо увеличение бюджета.

Если показатель краулингового бюджета оказался меньше 3, то у вас хороший уровень краулингового бюджета. Если больше 3, но меньше 10, значит, надо провести работу по устранению ошибок. В этом случае рекомендуем проанализировать сайт, чтобы понять, правильно ли бюджет распределяется на сайте.

А если показатель больше 10, то на сайте есть уязвимые места. Низкий краулинговый бюджет говорит, что, скорее всего, на сайте присутствуют технические ошибки. Также боту может не нравиться контент на вашем сайте — например, он не отвечает на запросы пользователей.

В случае с нашим сайтом на момент проверки краулинговый бюджет составил 2,23, что считается хорошим показателем — нет поводов для беспокойства.

В следующей части статьи мы детально разберем, какие действия предпринять, чтобы исправить на сайте технические ошибки и повысить краулинговый бюджет.

В блоге Кинетики мы рассказываем о своих процессах, делимся опытом, инсайтами и шаблонами внутренних инструментов

1414
5 комментариев

Не работают тут уже приблизительные цифры. Нужно выгружать стату по конкретным URL, и тут только логи в помощь.
Часть данных (иногда - большая) вообще в отчёты консолей не попадает. Скажем, гуглобот может тупо-методично тыкаться в 100 лет как мёртвые URL, или вообще все визиты тратить исключительно на служебные адреса.
Он же не по страничкам ходит, у него просто список урлов, и там может быть что угодно - скажем, кольцевой редирект, или по факту мусорная страничка, интересная посетителям не из числа целевой аудитории.

1
Ответить

Сайту на 150 урл вообще нет смысла парится по такому поводу как краулинговый бюджет. Да и на 5к-10к страниц тоже.

Ответить

Мюллер же как-то вякнул, что если сайт - до 200 тыщ урлов, можете не дёргаться, неважно.
Но по факту - смотрим на странице в индексе и видим, что суровый разнобой с открытыми для индексации страницами. И тут к гадалке не ходи: либо сайтец зафильтрован, либо по техничке проблемы. А это частенько встречается.

1
Ответить

Послушай Мюллера и сделай все наоборот, если не получилось послушай Мюллера. Проблема в техничке это проблема в техничке. Краулинговый бюджет это краулинговый бюджет. Есть несколько вариантов сообщить гуглу-Яндексу о важнейших по мнению владельца сайта страницах, особенно когда их всего 1.5 калеки. А вот техничка это святое)

Ответить

Что означает "страницы, которые должны быть в индексе"??

Ответить