{"id":14277,"url":"\/distributions\/14277\/click?bit=1&hash=17ce698c744183890278e5e72fb5473eaa8dd0a28fac1d357bd91d8537b18c22","title":"\u041e\u0446\u0438\u0444\u0440\u043e\u0432\u0430\u0442\u044c \u043b\u0438\u0442\u0440\u044b \u0431\u0435\u043d\u0437\u0438\u043d\u0430 \u0438\u043b\u0438 \u0437\u043e\u043b\u043e\u0442\u044b\u0435 \u0443\u043a\u0440\u0430\u0448\u0435\u043d\u0438\u044f","buttonText":"\u041a\u0430\u043a?","imageUuid":"771ad34a-9f50-5b0b-bc84-204d36a20025"}

Что такое Краулинг и 11 способов исправить ошибки сканирования вашего сайта

Aloha друзья, профессионалы и любители всемогущего SEO! Сегодня я хотел бы поговорить о краулинге, самых распространенных проблемах с краулингом и способах их решения. Этот важный фактор может негативно сказаться на ваших позициях, трафике и видимости вашего сайта в результатах поиска.
И прежде чем погрузиться в ошибки при краулинге, давайте разберемся, что такое краулинг и как он влияет на SEO.

Так что же такое краулинг?

Простыми словами, краулинг относится к способности поисковых роботов обнаруживать и корректно просматривать страницы вашего веб-сайта. В отношении технического SEO это важный аспект, который следует проверить, потому что если Googlebot не может найти ваши веб-страницы, они никогда не займут верхние позиции в результатах поиска.

Обратите внимание, что краулинг и индексируемость - это разные вещи. Индексируемость относится к способности поисковых систем правильно находить контент, который они просматривают и добавляют в свой индекс. Google показывает только краулируемые и индексируемые веб-страницы в результатах поиска.

Чтобы узнать, сколько страниц на вашем сайте было проиндексировано, перейдите в Google и введите «site:» с адресом вашего сайта. Вы можете ознакомиться с примером ниже.

Необходимо понимать, что поисковые роботы, также известные как краулеры, работают всегда. Эти "ребята" сканируют контент и индексируют веб-страницы, которые они находят. Как только Googlebot обнаруживает любое изменение, он обновляет свои данные.

Факторов, которые могут так или иначе повлиять на краулинг вашего веб-сайта довольно много, но в этой статье мы рассмотрим наиболее распространенные траблы.

Влияние ошибок краулинга на SEO

Если поисковые роботы сталкиваются с проблемами краулинга на вашем веб-сайте, то это может серьезно повлиять на ваш SEO. Ваши веб-страницы не будут появляться в результатах поиска, если Googlebot не сможет определить, является ли контент релевантным для конкретного поискового запроса.

Это означает, что роботы не смогут проиндексировать страницы, что может привести к потере конверсий и органического трафика. Поэтому очень важно иметь краулируемые и индексируемые страницы, чтобы занимать высокие позиции в поисковых системах.

Другими словами, чем более краулируем ваш веб-сайт, тем больше вероятность того, что ваши страницы будут проиндексированы и займут лучшие позиции в Google.

Как найти ошибки краулинга в Google Search Console

Теперь, когда мы знаем, что такое краулинг, ошибки при краулинге и как они влияют на ваш SEO, пришло время быстро найти эти ошибки на панели инструментов. Наверняка вы знаете, Google Search Console разделяет ошибки при краулинге на две секции: ошибки сайта и ошибки URL. Это отличный способ отличить ошибки на уровне сайта и страниц.

Обычно ошибки сайта считаются более критическими и требуют немедленных действий для предотвращения ущерба для удобства использования вашего веб-сайта. Я рекомендую и желаю достичь вам 100% отсутствия ошибок в этой секции.

Ошибки URL не так катастрофичны и относятся к конкретным веб-страницам, поскольку эти ошибки влияют только на определенные страницы, а не на весь сайт.

Самый лучший способ найти ошибки при краулинге - перейти на главную панель управления,найти раздел "Crawl" и выбрать “Crawl Errors.”

В идеале проверять ошибки краулинга следует каждые три месяца и это как минимум. Так вы избежите серьезных проблем и поддержите здоровье вашего сайта в будущем.

Топ-10 проблем краулинга и их решения

Теперь давайте рассмотрим наиболее распространенные проблемы с краулингом и их решения, чтобы оптимизировать ваш сайт соответствующим образом.

1. Ошибки 404

Ошибка 404 - одновременно одна из самых сложных и простых проблем среди всех ошибок.
–В теории ошибка 404 относится к возможности Googlebot индексировать конкретную страницу, которую не удалось найти на вашем сайте.
–На практике вы можете видеть множество страниц в качестве ошибки 404 в Google Search Console.

По этому поводу Google говорит следущее:

Ошибки 404 не сильно влияют на производительность
и рейтинги вашего сайта в Google, поэтому вы можете безопасно игнорировать их".


На самом деле, когда ваши основные веб-страницы сталкиваются с этими проблемами, исправление ошибок 404, является важной штукой. Обязательно выделите страницы, чтобы избежать ошибок и найти корень проблемы. Этот момент действительно имеет значение, особенно если страница получает важные ссылки от внешних источников и имеет много органического трафика на вашем сайте.

Решение

Вот несколько шагов для исправления важных страниц с ошибками 404:

Проверьте дважды, правильная ли страница ошибки 404 получена из вашей CMS, но не находится в режиме черновика.

Проверьте, на какой версии вашего сайта появляется ошибка на WWW vs. non-WWW и http vs. https.

Добавьте 301 перенаправление на наиболее соответствующую страницу на вашем сайте, если вы не обновляете страницу.

● Если ваша страница больше не существует, обновите ее и сделайте ее снова активной.

Чтобы найти все ваши страницы с ошибками 404 в Google Search Console, перейдите на Crawl Errors -> URL Errors и нажмите все ссылки, которые вы хотите исправить:

Примечание.
Если у вас есть пользовательская страница 404, которая не возвращает статус 404, Google заметит ее как мягкую 404. Это означает, что страница не имеет достаточно полезного контента для пользователей и возвращает статус 200. Технически она существует, но пуста, что ухудшает производительность индексации вашего сайта.

Мягкие ошибки 404 могут сбивать с толку владельцев веб-сайтов, так как они выглядят как странный гибрид 404 и стандартных веб-страниц. Убедитесь, что Googlebot не рассматривает самые важные страницы вашего сайта как мягкие ошибки 404.

2. Ссылки nofollow

Это может запутывать поисковые системы и они не просканируют ссылки на веб-странице. Атрибут "nofollow" сообщает Googlebot_у не следовать по ссылкам, что приводит к проблемам с краулингом на вашем сайте. Вот как выглядит этот атрибут:

<meta name="robots" content="nofollow".

В большинстве случаев эти ошибки возникают из-за проблем Google с Javascript, Flash, редиректами, куками или фреймами. Вам не нужно беспокоиться о исправлении ошибки, пока не появятся проблемы с неиспользованными URL-адресами на высокоприоритетных страницах. Если они происходят от старых URL-адресов, которые не активны или от непроиндексированных параметров, которые служат дополнительной функцией, приоритет будет ниже. Эти ошибки вам лучше проверять, что называется, anyway.

Решение

Вот несколько шагов для исправления проблем с тегом nofollow:

● Просмотрите все страницы с тегами nofollow с помощью инструмента "Fetch as Google", чтобы увидеть сайт таким, каким его видит Googlebot.

Проверьте цепочки перенаправлений. Google может прекратить следовать за перенаправлениями, если их слишком много.

Включайте в карту сайта конечные URL-адреса, а не перенаправленные URL-адреса.

Улучшайте архитектуру вашего сайта, чтобы каждая страница могла быть достигнута из статических ссылок.

Удаляйте теги nofollow с тех страниц, где они не должны быть.

3. Заблокированные страницы

Когда поисковые роботы обходят ваш сайт, они сначала проверяют файл robots.txt. Этот файл указывает им, какие страницы нужно и какие не нужно индексировать. Ниже приведен пример файла robots.txt, который блокирует краулинг вашего сайта:

User-agent: *

Disallow: /

К сожалению, это одна из наиболее распространенных проблем, которые влияют на индексирование вашего сайта и блокируют важные веб-страницы от сканирования. Чтобы исправить эту проблему, вы должны изменить директиву в этом файле на "Allow", что позволит поисковым ботам сканировать весь сайт.

User-agent: *

Allow: /

Если вы создаете свой собственный блог, который планируете перенести на ваш основной сайт, то его открытие для сканирования и индексации является необходимым для получения всех потенциальных преимуществ SEO. Просто используйте директиву Disallow: /blog* в приведенном ниже примере:

Многие владельцы сайтов указывают конкретные страницы блога
в этом файле, когда не хотят, чтобы их было видно в результатах поиска. В большинстве случаев это относится к страницам входа и страницам благодарности. Но это не проблема для краулинга поскольку вы не хотите, чтобы они были видны в результатах поиска. Обнаружение опечаток или ошибок в коде регулярных выражений может привести к более серьезным проблемам на вашем сайте.

Решение

Если вы хотите сделать свою страницу доступной для сканирования, убедитесь, что разрешили ее в robots.txt. Проверьте свой файл с помощью тестера robots.txt tester чтобы найти любые проблемы и предупреждения, и протестируйте конкретные URL-адреса в вашем файле.

Вы также можете найти ошибки robots.txt, используя аудит сайта. К счастью, существует много ценных инструментов для проведения технического SEO-аудита, таких как Screaming Frog или Semrush. Но сначала вам следует зарегистрироваться и добавить свой сайт, чтобы получить результаты.

4. Теги ‘Noidex’

Теги "noindex" сообщают поисковым системам, какие страницы им не нужно индексировать. Вот как выглядит тег ниже:

<meta name="robots" content="nodiex".

Наличие тегов "noindex" на вашем сайте может повлиять на его сканируемость и индексируемость в поисковых системах, если вы оставите их на веб-страницах на длительное время. При запуске сайта в работу, веб-разработчики часто забывают удалить тег "noindex" с сайта.

Google рассматривает теги "noindex" как "nofollow" и прекращает сканирование ссылок на этих страницах. Обычной практикой является включение тега "noindex" на страницах благодарности, входа и администрирования, чтобы предотвратить индексацию Google. В других случаях время пришло удалить эти теги, если вы хотите, чтобы боты поисковых систем сканировали ваши страницы.

Решение

Вот несколько шагов, чтобы исправить проблемы с тегами "noindex":

Анализируйте свои статистические данные сканирования в Google Search Console, чтобы определить, как часто Googlebot посещает ваш сайт.

Запросите у Google пересканирование вашей страницы с помощью инструмента Removals, чтобы мгновенно удалить уже проиндексированную страницу из SERP. Это может занять некоторое время.

Используйте инструмент аудита сайта, такой как Semrush, чтобы обнаружить страницы с тегами "noindex". Он покажет список страниц на вашем сайте, просмотрите их и удалите теги там, где это необходимо.

5. Дубликаты страниц

Часто разные веб-страницы с одинаковым содержимым могут загружаться с разных URL-адресов, что приводит к дублированию страниц. Например, у вас есть две версии вашего домена (www и без www), ведущие на домашнюю страницу вашего сайта. Эти страницы не влияют на ваших посетителей, но могут повлиять на восприятие вашего сайта поисковыми системами.

Хуже всего то, что поисковые системы не могут определить, какую страницу считать приоритетной из-за дублированного контента. Googlebot быстро сканирует каждую страницу и будет индексировать одно и то же содержимое снова.

В идеале, бот должен обходить и индексировать каждую страницу только один раз. Кроме того, разные версии одной и той же страницы получают органический трафик и ранг страницы, что делает анализ метрик трафика в Google Analytics сложным.

Решение

Канонизация является наиболее предпочтительным способом сохранения SEO-авторитета для дубликатов. Вот несколько советов, которые стоит учесть:

Используйте канонические теги, чтобы Google легко мог определить оригинальный URL страницы. Вот как должна выглядеть ссылка с этим тегом ниже:

<link rel="canonical" href="https://example.com/page/" />

Проверьте предупреждения в Google Search Console - это может быть что-то вроде "Слишком много URL-адресов" или подобного языка, когда Google обнаруживает больше URL-адресов и контента, чем должно быть.

Не используйте канонические и noindex теги одновременно, так как поисковые боты могут рассматривать noindex канонические веб-страницы и дубликаты.

Присвойте канонический адрес странице "Просмотреть все".

Канонизируйте каждый URL, созданный при помощи фасетной навигации.

6. Медленная скорость загрузки

Всем известно, что скорость загрузки страницы является одним из наиболее важных факторов, влияющих на индексируемость вашего сайта. Медленная скорость загрузки может создавать плохой пользовательский опыт и снижать количество страниц, которые поисковые роботы могут проиндексировать за одну сессию. Это может привести к исключению важных веб-страниц из индексации.

Проще говоря, чем быстрее загружаются ваши веб-страницы, тем быстрее Googlebot может проиндексировать контент на сайте и лучше ранжировать его в поисковых результатах. Поэтому улучшение общей производительности и скорости сайта является важным.

Решение

Вот несколько полезных советов, которые следует учитывать при оптимизации скорости сайта:

Используйте Google PageSpeed Insights для измерения текущего времени загрузки, обнаружения возможных ошибок и получения действенных советов по улучшению производительности сайта.

Используйте сеть доставки контента (CDN), чтобы перенаправлять ваш контент на различные серверы по всему миру. Это уменьшит задержку и ускорит работу вашего сайта.

Выберите быстрого провайдера веб-хостинга.

Сжимайте изображения и размеры видеофайлов, чтобы увеличить скорость загрузки.

Удалите ненужные плагины и уменьшите количество файлов CSS и JavaScript на вашем сайте.

7. Отсутствие внутренних ссылок

Веб-страницы с отсутствием внутренних ссылок могут столкнуться с проблемами индексации. Внутренние ссылки относятся к ссылкам на одну страницу, связанную с другой соответствующей страницей в пределах одного домена. Они помогают пользователям легко перемещаться по вашему сайту и предоставляют поисковым системам полезную информацию о вашей структуре и иерархии.

Каждая страница на вашем сайте должна иметь как минимум одну внутреннюю ссылку, ведущую на нее. Это покажет поисковым системам, что ваши страницы связаны между собой. Изолированные страницы затрудняют работу ботам, которые не могут рассматривать их как часть вашего сайта. Чем больше у вас соответствующих внутренних ссылок, тем легче и быстрее боты просматривают всю веб-страницу.

Решение

Вот несколько действенных советов, которые следует учесть:

Проведите SEO-аудит, чтобы определить, где можно добавить больше внутренних ссылок с соответствующих страниц вашего сайта.

Используйте аналитику сайта, чтобы просмотреть, как пользователи перемещаются по сайту и найти способы привлечения их к вашему соответствующему контенту. Обратите внимание на страницы с высоким показателем отказов, чтобы улучшить их и добавить больше качественного контента.

Приоритезируйте важные страницы, разместив их выше в иерархии веб-сайта и добавив больше внутренних ссылок, ведущих к ним.

Включите описательные тексты якорей, чтобы показать содержание связанных страниц.

Обновите старые URL-адреса или удалите нерабочие ссылки. Убедитесь, что каждое соединение является соответствующим и активным на вашем сайте.

Проверьте дважды и удалите любые ошибки в URL-адресе, который вы включаете на своих веб-страницах.

8. Использование HTTP вместо HTTPS

Безопасность сервера остается одним из основных факторов при индексации и краулинге. HTTP - это стандартный протокол, который передает данные с веб-сервера на браузер. HTTPS считается наиболее безопасной альтернативой версии HTTP.

В большинстве случаев браузеры предпочитают страницы HTTPS вместо HTTP. Последний негативно влияет на ранжирование сайта и возможность его краулинга.

Решение

Получите SSL-сертификат, чтобы помочь Google быстро краулить ваш сайт и поддерживать безопасное и зашифрованное соединение между вашим сайтом и пользователями.

Переведите ваш сайт на версию HTTPS.

Отслеживайте и обновляйте протоколы безопасности. Избегайте просроченных SSL-сертификатов, старых версий протоколов или неправильной регистрации информации о вашем сайте.

9. Петля редиректа

Редиректы необходимы, когда нужно перенаправить старый URL на новую, соответствующую страницу. К сожалению, проблемы с редиректами, например, петли редиректа, иногда возникают. Это может нарушить работу пользователей и препятствовать индексации страниц поисковыми системами.

Петля редиректа возникает, когда один URL перенаправляет на другой, возвращаясь к исходному URL. Эта проблема создает для поисковых систем бесконечный цикл редиректов между двумя или более страницами. Это может повлиять на расход краулинга и индексацию важных страниц.

Решение

Вот несколько шагов, чтобы исправить петли редиректа:

Используйте HTTP Status Checker чтобы быстро найти цепочки редиректов и коды состояния HTTP.

Выберите "правильную" страницу и перенаправьте другие страницы на нее.

Удалите редирект, вызывающий петлю.

Пометьте страницы с кодом состояния 403 как "nofollow" для оптимизации вашего бюджета краулинга. Эти страницы могут быть использованы только для зарегистрированных пользователей.

Включите временные редиректы, чтобы сообщить поисковым роботам вернуться на вашу страницу. Используйте постоянный редирект, если вы больше не хотите индексировать исходную страницу.

10. Слабая структура сайта

Организация страниц и контента вашего веб-сайта - один из самых важных факторов при оптимизации краулинга. Слабая структура сайта может вызывать ошибки при краулинге, когда поисковые роботы не могут найти страницы, находящиеся на низком уровне иерархии или не связанные друг с другом (известные как "осиротевшие страницы").

Хорошо структурированный сайт помогает поисковым системам легко находить и получать доступ ко всем страницам, что может положительно сказаться на его производительности и SEO. Идеальная структура сайта означает, что каждая страница находится всего в нескольких кликах от домашней страницы без осиротевших страниц.

Например, типичная структура сайта может выглядеть как пирамида. Верхушка пирамиды - это домашняя страница, а затем идут несколько уровней, ведущих от основных страниц по теме к подстраницам с подтемами. Обратите внимание на пример структуры сайта ниже.

Google обычно проходит по веб-сайту от верхней части домашней страницы до нижней. Другими словами, чем дальше ваши страницы от верха, тем сложнее их будет обнаружить поисковым роботам, особенно если у вас есть много осиротевших страниц.

Решение

Вот несколько шагов для оптимизации структуры вашего сайта:

Используйте Screaming Frog, чтобы изучить текущую структуру вашего сайта и глубину просмотра.

Логически организуйте страницы в иерархическом порядке с помощью внутренних ссылок. Убедитесь, что ваши важные страницы находятся на расстоянии двух или трех кликов от домашней страницы.

Создайте четкую структуру URL. Сделайте ее легкочитаемой для поисковых систем и пользователей, чтобы понять контекст и релевантность каждой страницы на вашем сайте. Если возможно, включите целевые ключевые слова в каждый URL.

Используйте статические URL и избегайте динамических, включая идентификаторы сессий или другие параметры URL, которые затрудняют краулинг и индексацию роботами.

Создайте хлебные крошки, чтобы помочь Google понять структуру вашего сайта и позволить пользователям легко перемещаться вперед и назад.

Плохая организация Sitemap

Карты сайта представляют собой XML-файлы с важной информацией о страницах вашего сайта. Они информируют поисковые системы о важных страницах, которые нужно просканировать и проиндексировать. Карты сайта также содержат информацию о изображениях, видео и других медиафайлах вашего сайта. Вот пример карты сайта ниже:

С помощью карт сайта поисковые системы найдут и проиндексируют ваши важные веб-страницы эффективно. Если вы не включите некоторые страницы, которые хотите индексировать и ранжировать, поисковые системы могут не заметить их, что приведет к проблемам доступности и снижению трафика на сайте.

Решение

Вот несколько шагов, которые следует учесть относительно карт сайта:

Используйте инструмент XML Sitemaps для создания или обновления карты сайта.

Убедитесь, что все необходимые страницы включены в него и нет ошибок сервера, которые могут затруднить доступ к веб-сканерам.

Отправьте свою карту сайта в Google. Обычно вы можете найти ее, следуя URL-адресу вашего сайта. domain.com/sitemap.xml

Используйте Google Search Console, чтобы отслеживать статус вашей карты сайта и проверять любые проблемы с ней.

Убедитесь, что вы обновляете карту сайта, когда добавляете или удаляете страницы на вашем сайте. Это поможет поисковым системам получить точную информацию о всех ваших веб-страницах.

Заключение

Существует множество причин, по которым некоторые из ваших страниц скрыты от Google и не ранжируются вообще. Сначала убедитесь, что ваш сайт не имеет проблем с доступностью для сканеров, поскольку многие ошибки сканирования могут повлиять на производительность вашего сайта и сообщить ботам поисковых систем, что некоторые веб-страницы не стоят того, чтобы их сканировать.

В результате Google не будет индексировать и ранжировать ваши важные страницы, к которым нет доступа. Поэтому очень важно найти любые проблемы с доступностью для сканеров и сделать все возможное, чтобы исправить их. Реализуя приведенные выше решения, вы можете оптимизировать свой сайт для лучшей производительности и помочь поисковым системам и пользователям легко его найти.

Друзья! Надеюсь статья получилась интересной и я буду очень рад, если она принесет вам пользу. До скорых встреч!

0
6 комментариев
Написать комментарий...
Игорь Д.

Спасибо. будем стремиться к 100% :)
Правда на практике ещё ни разу не встречались сайты без этих ошибок. Гугл всегда что-то найдёт даже на технически вылизанном сайте.

Ответить
Развернуть ветку
В А

Sitemap не обязательно использовать, если у вас на главной есть ссылка на страницу или ее анонс висит там какое то время. Или если на страницах есть виджет Похожие записи. Гугл сам найдёт. Многие парятся с этим sitemaпом, а можно просто забить.

Ответить
Развернуть ветку
Виктор Петров

Если сайтик совсем маленький - можно и забить. Но на объёмах, да при кривой CMS, да с косячьём в настройках краулинга - пачку страниц вне индекса словить за нефиг нафиг.
Так хоть в сайтмапе ссылки будут торчать.
Ну и плюс если есть противоречивые директивы на уровне каноникал, кривых мета роботс и т.п. - сайтмап может выступить решающим фактором в пользу выбора чего-то роботом. Это всё таки серьёзный файлик, не кот чихнул.

Ответить
Развернуть ветку
Jack Rotgar
Автор

Да, это в идеале конечно:) На практике, их скорее всего, и не существует вовсе.

Ответить
Развернуть ветку
В А

Сеарч консоль иногда показывает, что страница просканирована, но не проиндексирована, т.е. её нет в поиске. А забиваешь запрос в поиск и она там есть)) потому сначала проверяйте, а потом делайте. Ну и самое важное, как в армии: если что то работает - не трогай! Лучше не станет, а инициатива наказуема.

Ответить
Развернуть ветку
Виктор Петров

Консоль давно врёт, как сивый мерин. Но отчасти лишь потому, что индекс там не один, и что подразумевается конкретно - не понять. Может ранжироваться конкретный шингл, не весь URL. Или подразумевается, что в индекс внесено, показов нет. Или ещё что-то.
Прошли времена, когда работа с данными была простой и понятной.

Ответить
Развернуть ветку
3 комментария
Раскрывать всегда