Как работают сканеры веб-сайтов?

Возможно, вы уже слышали о сканировании веб-сайтов (website crawling) — и у вас даже может быть смутное представление о том, что это такое — но знаете ли вы, почему это важно или чем оно отличается от веб-сканирования (web crawling)? (да, есть разница!)

Поисковые системы становятся все более безжалостными в отношении качества сайтов, которые они допускают в результаты поиска.

Если вы не понимаете основ оптимизации для веб-сканеров (web crawlers) (и конечных пользователей), ваш органический трафик может сильно пострадать.

Хороший сканер веб-сайтов (website crawler) может показать вам, как защитить и даже улучшить видимость вашего сайта.

Вот что вам нужно знать о веб-сканерах и сканерах сайтов.

Веб-сканер — это программа или скрипт, который автоматически просматривает интернет, анализируя и индексируя веб-страницы.

Также известные как веб-пауки (web spider) или пауки-боты (spiderbot), веб-сканеры оценивают содержание страницы, чтобы решить, какой приоритет ей присвоить в своих индексах.

Googlebot, веб-сканер Google, тщательно просматривает веб, следуя по ссылкам от страницы к странице, собирая данные и обрабатывая контент для включения в поисковую систему Google.

Веб-сканеры анализируют вашу страницу и определяют, насколько она индексируема или ранжируема, что в конечном итоге определяет вашу способность привлекать органический трафик.

Если вы хотите, чтобы вас находили в результатах поиска, важно подготовить ваш контент к сканированию и индексации.

Кроме Googlebot есть много других веб-сканеров, например AhrefsBot — это тоже веб-сканер, который: Посещает более 8 миллиардов веб-страниц каждые 24 часа, Обновляется каждые 15–30 минут, Является один из лучших среди самых активных SEO-сканеров (и 4-м самым активным сканером в мире)

Существует примерно семь этапов веб-сканирования:

1. Обнаружение URL (URL Discovery)
Когда вы публикуете свою страницу (например, в карте сайта), веб-сканер обнаруживает ее и использует как "начальный" URL. Подобно семенам в цикле прорастания, эти стартовые URL позволяют начать сканирование и последующие циклы сканирования.

2. Сканирование (Crawling)
После обнаружения URL ваша страница планируется для сканирования, а затем сканируется. Контент, такой как мета-теги, изображения, ссылки и структурированные данные, загружается на серверы поисковой системы, где они ожидают анализа и индексации.

3a. Цикл обнаружения URL (URL Discovery Loop)

Также во время фазы анализа, но заслуживающий отдельного подраздела, происходит цикл обнаружения URL. Это когда вновь обнаруженные ссылки (включая ссылки, обнаруженные через редиректы) добавляются в очередь URL для посещения сканером. Это фактически новые "начальные" URL, и шаги 1–3 повторяются как часть "цикла обнаружения URL".

4. Индексация (Indexing)
Пока обнаруживаются новые URL, исходный URL индексируется. Индексация — это когда поисковые системы сохраняют данные, собранные с веб-страниц. Это позволяет им быстро получать релевантные результаты для запросов пользователей.

5. Ранжирование (Ranking)
Проиндексированные страницы ранжируются в поисковых системах на основе качества, релевантности поисковым запросам и способности соответствовать определенным другим факторам ранжирования. Эти страницы затем выдаются пользователям, когда они выполняют поиск.

6. Завершение сканирования (Crawl ends)
В конце концов, все сканирование (включая цикл повторного обнаружения URL) заканчивается на основе таких факторов, как выделенное время, количество отсканированных страниц, глубина пройденных ссылок и т.д.

7. Повторное посещение (Revisiting)
Сканеры периодически повторно посещают страницу, чтобы проверить наличие обновлений, нового контента или изменений в структуре.

Как вы можете догадаться, количество обнаруженных и отсканированных URL в этом процессе растет экспоненциально всего за несколько переходов.

Веб-сканеры поисковых систем автономны, что означает, что вы не можете запустить их сканирование или включить/выключить их по своему желанию.

Однако вы можете уведомлять сканеры об обновлениях сайта с помощью:

XML-карты сайта (XML sitemaps)

XML-карта сайта — это файл, который перечисляет все важные страницы на вашем веб-сайте, чтобы помочь поисковым системам точно обнаружить и проиндексировать ваш контент.

Инструмент проверки URL Google (Google's URL inspection tool)

Вы можете попросить Google рассмотреть возможность повторного сканирования содержимого вашего сайта через инструмент проверки URL в Google Search Console. Вы можете получить сообщение в GSC, если Google знает о вашем URL, но еще не отсканировал или не проиндексировал его. Если это так, узнайте, как исправить "Обнаружено — в настоящее время не проиндексировано" ("Discovered — currently not indexed").

IndexNow

Вместо того чтобы ждать, пока боты повторно отсканируют и проиндексируют ваш контент, вы можете использовать IndexNow для автоматического пинга поисковых систем, таких как Bing, Yandex, Naver, Seznam.cz и Yep, когда вы:

- Добавляете новые страницы
- Обновляете существующий контент
- Удаляете устаревшие страницы
- Внедряете редиректы

Хотя мы не знаем определенных критериев, которые Google использует для определения того, когда или как часто сканировать контент, есть три наиболее важные области.

Это основано на подсказках, оставленных Google как в документации поддержки, так и во время интервью с представителями.

Приоритет качества
Google PageRank оценивает количество и качество ссылок на страницу, рассматривая их как "голоса" важности.

Страницы, получающие качественные ссылки, считаются более важными и занимают более высокие позиции в результатах поиска.

PageRank является основополагающей частью алгоритма Google. Поэтому логично, что качество ваших ссылок и контента играет большую роль в том, как ваш сайт сканируется и индексируется.

Чтобы оценить качество вашего сайта, Google смотрит на такие факторы, как:

- Внутренние ссылки
- Внешние ссылки
- Опыт страницы (Page experience)

Чтобы оценить страницы на вашем сайте с наибольшим количеством ссылок, проверьте отчет "Лучшие по ссылкам" (Best by Links) в Ahrefs.

Обратите внимание на столбец "Впервые обнаружено", "Последняя проверка" ("First seen", "Last check"), который показывает, какие страницы сканировались чаще всего и когда.

Поддерживайте свежесть
По словам старшего аналитика поиска Google, Джона Мюллера...

"Поисковые системы пересканируют URL с разной частотой, иногда это несколько раз в день, иногда раз в несколько месяцев.
- Джон Мюллер, поисковый адвокат, Google"

Но если вы регулярно обновляете свой контент, вы увидите, что сканеры заходят чаще.

Поисковые системы, такие как Google, хотят предоставлять точную и актуальную информацию, чтобы оставаться конкурентоспособными и релевантными, поэтому обновление вашего контента подобно приманке на палочке.

Вы можете проверить, насколько быстро Google обрабатывает ваши обновления, проверив статистику сканирования в Google Search Console.

Пока вы там, посмотрите на разбивку сканирования "По назначению" (т.е. процентное соотношение обновленных страниц и вновь обнаруженных страниц). Это также поможет вам понять, как часто вы поощряете веб-сканеры повторно посещать ваш сайт.

Улучшите структуру вашего сайта
Предоставление четкой структуры сайта через логическую карту сайта и поддержка ее соответствующими внутренними ссылками поможет сканерам:

- Лучше ориентироваться на вашем сайте
- Понимать его иерархию
- Индексировать и ранжировать ваш наиболее ценный контент

В совокупности эти факторы также порадуют пользователей, поскольку они поддерживают легкую навигацию, снижают показатель отказов и повышают вовлеченность.

Сканеры имитируют поведение человека-пользователя. Каждый раз, когда они посещают веб-страницу, сервер сайта получает пинг. Страницы или сайты, которые трудно сканировать, будут вызывать ошибки и медленную загрузку, а если страница слишком часто посещается ботом-сканером, серверы и веб-мастера заблокируют ее за чрезмерное использование ресурсов. По этой причине у каждого сайта есть бюджет сканирования, который представляет собой количество URL, которые сканер может и хочет сканировать. Такие факторы, как скорость сайта, адаптивность для мобильных устройств и логическая структура сайта, влияют на эффективность бюджета сканирования.

Веб-сканеры, такие как Google, сканируют весь интернет, и вы не можете контролировать, какие сайты они посещают или как часто.

Но вы можете использовать сканеры веб-сайтов, которые подобны вашим собственным частным ботам.

Попросите их сканировать ваш веб-сайт, чтобы найти и исправить важные проблемы SEO, или изучить сайт ваших конкурентов, превращая их самые большие слабости в ваши возможности.

Сканеры сайтов по сути имитируют поисковую производительность. Они помогают вам понять, как веб-сканеры поисковой системы могут интерпретировать ваши страницы, основываясь на их:

- Структуре (structure)
- Контенте (Content)
- Мета-данных (Meta data)
- Скорости загрузки страницы (Page load speed)
- Ошибках (Errors)
- И т.д.

Сканер Ahrefs Site Audit питает инструменты: RankTracker, Projects и главный инструмент сканирования веб-сайтов Ahrefs: Site Audit.

Site Audit помогает SEO-специалистам:

- Анализировать более 170 технических SEO-проблем
- Проводить сканирование по запросу с данными о производительности сайта в режиме реального времени
- Оценивать до 170 тысяч URL в минуту
- Устранять неполадки, поддерживать и улучшать их видимость в поисковых системах

От обнаружения URL до повторного посещения, сканеры веб-сайтов работают очень похоже на веб-сканеры – только вместо индексации и ранжирования вашей страницы в SERP, они сохраняют и анализируют ее в своей собственной базе данных.

Вы можете сканировать свой сайт либо локально, либо удаленно. Настольные сканеры, такие как ScreamingFrog, позволяют вам загружать и настраивать сканирование вашего сайта, в то время как облачные инструменты, такие как Ahrefs Site Audit, выполняют сканирование без использования ресурсов вашего компьютера – помогая вам совместно работать над исправлениями и оптимизацией сайта.

Если вы хотите сканировать целые веб-сайты в реальном времени для обнаружения технических проблем SEO, настройте сканирование в Site Audit.

Он предоставит вам визуальные разбивки данных, оценки здоровья сайта и подробные рекомендации по исправлению, чтобы помочь вам понять, как поисковая система интерпретирует ваш сайт.

Перейдите на вкладку Site Audit и выберите существующий проект или создайте новый

Проект – это любой домен, поддомен или URL, который вы хотите отслеживать с течением времени.

После настройки параметров сканирования – включая расписание сканирования и источники URL – вы можете начать аудит, и вас уведомят, как только он будет завершен.

Вот некоторые вещи, которые вы можете сделать сразу.

Обзор Top Issues в Site Audit показывает вам самые насущные ошибки, предупреждения и уведомления, основанные на количестве затронутых URL.

Работа над ними как часть вашей SEO-дорожной карты поможет вам:

1. Обнаружить ошибки (красные иконки), влияющие на сканирование – например:

- Ошибки HTTP-статуса/клиента
- Битые ссылки
- Проблемы с каноническими URL

2. Оптимизировать ваш контент и рейтинги на основе предупреждений (желтые) – например:

- Отсутствующий альтернативный текст
- Ссылки на редиректы
- Слишком длинные мета-описания

3. Поддерживать стабильную видимость с помощью уведомлений (синяя иконка) – например:

- Падения органического трафика
- Множественные H1
- Индексируемые страницы не в карте сайта

Вы также можете приоритизировать исправления с помощью фильтров.

Допустим, у вас тысячи страниц с отсутствующими мета-описаниями. Сделайте задачу более управляемой и эффективной, сначала нацелившись на страницы с высоким трафиком.

- Перейдите в отчет Page Explorer в Site Audit
- Выберите выпадающий список расширенного фильтра
- Установите фильтр внутренних страниц
- Выберите оператор 'And'
- Выберите 'Meta description' и 'Not exists'
- Выберите 'Organic traffic > 100'

Сегментируйте и сосредоточьтесь на наиболее важных страницах вашего сайта (например, подпапках или поддоменах) с помощью более 200 фильтров Site Audit – будь то ваш блог, интернет-магазин или даже страницы, которые приносят трафик выше определенного порога.

Если у вас нет опыта кодирования, то перспектива сканирования вашего сайта и внедрения исправлений может быть пугающей.

Если у вас есть поддержка разработчиков, проблемы легче устранить, но тогда это становится вопросом торга за время другого человека.

У нас есть новая функция, которая поможет вам решить эти проблемы.

Скоро появятся Patches – это исправления, которые вы можете сделать автономно в Site Audit.

Изменения заголовков, отсутствующие мета-описания, битые ссылки по всему сайту – когда вы сталкиваетесь с такими ошибками, вы можете нажать "Patch it", чтобы опубликовать исправление непосредственно на вашем веб-сайте, не беспокоя разработчика.

И если вы в чем-то не уверены, вы можете в любой момент откатить свои патчи.

Аудит вашего сайта с помощью сканера веб-сайтов – это не только поиск ошибок, но и поиск возможностей.

Улучшите внутреннюю перелинковку
Отчет Internal Link Opportunities в Site Audit показывает вам релевантные предложения по внутренней перелинковке, выбирая топ-10 ключевых слов (по трафику) для каждой отсканированной страницы, а затем ищет их упоминания на других ваших отсканированных страницах.

'Исходные' страницы – это те, с которых вы должны ссылаться, а 'Целевые' страницы – это те, на которые вы должны ссылаться.

Чем больше качественных связей вы создаете между вашим контентом, тем легче будет Googlebot сканировать ваш сайт.

Понимание сканирования веб-сайтов – это больше, чем просто SEO hack – это фундаментальные знания, которые напрямую влияют на ваш трафик и ROI.

Знание того, как работают сканеры, означает знание того, как поисковые системы "видят" ваш сайт, и это половина битвы, когда дело доходит до ранжирования.

Как работают сканеры веб-сайтов?

Что такое веб-сканер (web crawler)?

Как веб-сканеры влияют на SEO?

Как на самом деле работают веб-сканеры?

Как заставить поисковые системы сканировать ваш сайт в первую очередь?

Как заставить Google чаще сканировать больше ваших страниц Решения о сканировании поисковыми системами динамичны и немного неясны.

Что такое бюджет сканирования (crawl budget)?

Что такое сканер веб-сайтов (website crawler)?

Пример: Ahrefs Site Audit

Как сканировать свой собственный веб-сайт

1. Настройте ваше сканирование

2. Диагностируйте основные ошибки

Проблемы с фильтрами

Сканируйте наиболее важные части вашего сайта

3. Ускорьте исправления

4. Находите возможности для оптимизации