Кому должно быть стыдно за битые ссылки: исследуем топовые сайты интернета

Кому должно быть стыдно за битые ссылки: исследуем топовые сайты интернета

Битые ссылки относятся к числу наиболее банальных и грубых ошибок, о которых в теории знает каждый начинающий SEO-специалист. Однако за последнее время в процессе тестовых аудитов я всё чаще сталкиваюсь с крупными коммерческими проектами, на сайтах которых обнаруживаются горы ссылок с 4хх и 5хх кодами ответа.

Обнаружив настолько парадоксальное несоответствие теории с действительностью, я заинтересовалась вопросом и решила выяснить, грешат ли подобными ошибками сайты всемирно известных компаний и организаций. И если да, что же в основном служит причиной появления столь банальной оплошности.

1. Составление выборки для анализа

На самом деле, я не сразу решила, сайты каких именно компаний следует выбрать в качестве подопытных. Первое, что пришло в голову — компании с наиболее дорогими брендами, которые у многих на слуху. Но всем ли из них должно быть стыдно за обилие битых ссылок на сайте? По правде говоря, вряд ли. А вот по-настоящему стыдно должно быть тем компаниям, у которых уже имеется роскошный ссылочный профиль и космические рейтинги согласно данным Ahrefs, Moz, Serpstat или прочих подобных SEO-сервисов.

Именно эта мысль подтолкнула меня к тому, чтобы взять 2 десятка сайтов с топовыми значениями Ahrefs Rank, исключив социальные сети, сайты поисковых систем и сервисы Google с бесконечными страницами пользовательского контента.

Кому должно быть стыдно за битые ссылки: исследуем топовые сайты интернета

В итоге список приобрёл следующий вид:

  • wordpress.org
  • adobe.com
  • apple.com
  • qq.com
  • microsoft.com
  • en.wikipedia.org
  • amazon.com
  • miitbeian.gov.cn
  • europa.eu
  • flickr.com
  • mozilla.org
  • gravatar.com
  • w3.org
  • statcounter.com
  • yelp.com
  • developers.google.com
  • hugedomains.com
  • e-recht24.de
  • bund.de
  • creativecommons.org

Теперь остаётся лишь просканировать их и выяснить, у кого из них на сайте больше всего битых ссылок.

2. Методология

Поиск битых ссылок, отдающих коды ответа 4хх и 5хх, я проводила с помощью Netpeak Spider. Так как краулить сотни тысяч страниц для двадцати сайтов было бы слишком времязатратно, было решено задать для сканирования каждого из сайтов лимит по количеству страниц. В качестве наиболее оптимального было выбрано число в 5000 URL.

Для ускорения процедуры все параметры, за исключением кода ответа сервера, я деактивировала.

3. Анализ полученных данных

По итогу сканирования отобранных сайтов сформировалась следующая картина:

1. wordpress.org
426, включая страницы с кодом ответа 400, 404, 405 и 503. Среди них ― два битых редиректа. Большинство проблемных ссылок ― на служебные файлы. Процент битых ссылок ― 8,5%.

2. adobe.com
5, включая пару ссылок с кодом 403 и 404. Все ссылки ведут на поддомены. Процент битых ссылок ― 0,1%.

3. apple.com
16 битых ссылок, включая ссылки с 404 и 400 кодами ответа. Были обнаружены два битых редиректа. Проблема встречается как на основном домене, так и на поддоменах. Процент битых ссылок ― 0,3%.

4. qq.com
102 битые ссылки. Большая их часть приходится на поддомены, у которых, по всей видимости, какие-то проблемы с серверами. Процент битых ссылок ― 2%.

5. microsoft.com
108 битых ссылок, включая ссылки с 400, 404 и 405 кодами ответа сервера, а также 14 битых редиректов. Процент битых ссылок ― 2,2%.

6. en.wikipedia.org
Всего 3 битые ссылки. Они же ― битые редиректы. Подозреваю, что краулер обошёл только какую-то уж очень аккуратную и «чистую» область Википедии :) Процент битых ссылок ― 0,6%.

7. amazon.com
305 битых ссылок. Большую часть их них составляют ссылки с кодом 404, чуть меньше ― с кодом ответа 500. Встречаются также битые редиректы. Процент битых ссылок ― 6,1%.

8. miitbeian.gov.cn
Сайт одного из государственных ведомств Китая отозвался на запрос краулера 521 кодом ответа сервера, то есть отклонил запрос на подключение.

9. europa.eu
46 битых ссылок, включая 37 битых редиректов. Почти все проблемы были найдены на одном из поддоменов. Процент битых ссылок ― 1%.

10. flickr.com
8 битых ссылок, включая 3 битых редиректа. Все ссылки отдают код ответа 404. Процент битых ссылок ― 0,2%.

11. mozilla.org
40 битых ссылок, из них 3 служат конечными пунктами редиректов. Следует отдать должное разработчикам Mozilla: пусть сайт и не идеален с точки зрения битых ссылок, его скорость ответа оказалась едва ли не рекордной по сравнению со всеми предыдущими «участниками» исследования — 5000 URL менее чем за 4 минуты при сканировании в 10 потоков. Процент битых ссылок ― 0,8%. битых ссылок, из них 3 служат конечными пунктами редиректов. Следует отдать должное разработчикам Mozilla: пусть сайт и не идеален с точки зрения битых ссылок, его скорость ответа оказалась едва ли не рекордной по сравнению со всеми предыдущими «участниками» исследования — 5000 URL менее чем за 4 минуты при сканировании в 10 потоков. Процент битых ссылок ― 0,8%.

12. gravatar.com
Как выяснилось, сайт Gravatar насчитывает всего 110 страниц, и внутри него не нашлось ни одной битой ссылки.

13. w3.org
216 битых ссылок, включая 23 битых редиректа. Коды ответа — 401 (на них ведут временные 307 редиректы), 404 и 405. Процент битых ссылок ― 4,3%.

14. statcounter.com
44 битые ссылки. По большей части, ведут на поддомены. Процент битых ссылок ― 0,9%.

15. yelp.com
47 ссылок, из которых 43 отдают 404 код ответа и 7 — код 500. Процент битых ссылок ― 1%.

16. developers.google.com
Всего 11 ссылок, из них на 2 выставлен редирект. Процент битых ссылок ― 0,2%.

17. hugedomains.com
На данном сайте среди 5000 URL не обнаружилось ни одной битой ссылки. Специалисты, отвечающие за оптимизацию HugeDomains, демонстрируют не абы какую внимательность в сочетании с ревностным перфекционизмом.

18. e-recht24.de
48 битых ссылок, включая 11 редиректов. Процент битых ссылок ― 1%.

19. bund.de
Один из главных государственных сайтов Германии отличился чистотой ссылок, примкнув к меньшинству, то есть к hugedomains.com и gravatar.com.

20. creativecommons.org
259 битых ссылок с кодами ответа 404, 405 и 500. Внушительным числом дело не ограничилось: 83 редиректа внутри сайта ведут на страницы с кодом ответа 404 и 521. Процент битых ссылок ― 5,2%.

4. Подводим итоги

Таким образом, в тройку лидеров нашего очень сомнительного чарта вошли wordpress.org (426), amazon.com (305) и creativecommons.org (259). Доля битых ссылок в общем числе просканированных URL — 8,5%, 6,1% и 5,2% соответственно.

4.1. Обнаруженные типы битых ссылок

Под фильтр ошибки «Битые ссылки» попали страницы с разными кодами ответа. На диаграммах ниже можно увидеть следующие сегменты:

  • 3хх: битые редиректы;
  • 4хх: страницы с кодами 400 Bad Request, 401 Unauthorized, 403 Forbidden, 404 Not Found и 405 Method Not Allowed;
  • 5xx: страницы, ответ которых звучал как 500 Internal Server Error, 503 Service Unavailable или 521 Web Server Is Down;
  • ххх: страницы с ответами NameResolutionFailure, ConnectFailure, ConnectionClosed, Timeout.
<b> wordpress.org </b>
wordpress.org
<b> amazon.com </b>
amazon.com
<b> creativecommons.org </b>
creativecommons.org
Кому должно быть стыдно за битые ссылки: исследуем топовые сайты интернета

За исключением трёх сайтов без битых ссылок и тех, кто едва не ворвался в топ, средний показатель составляет 24 битые ссылки на 5000 URL, или 0,5%.

4.2. Причины появления битых ссылок

Исходя из полученных данных, можно выделить несколько основных причин появления битых ссылок на выбранных нами сайтах:

1. Пользовательский контент.
С одной стороны, он обеспечивает большее вовлечение и более высокую степень доверия у новых пользователей. С другой стороны, пользователи регулярно оставляют ссылки, за актуальностью которых трудно уследить.

2. Проблемы с сервером.
К примеру, при скорости сканирования ниже среднего (меньше 10 потоков) некоторые из сайтов не справляются с нагрузкой, а потому часть страниц отдаёт 503 код ответа. Это свидетельствует либо о том, что сайт (или какая-то его часть) находится на техническом обслуживании, либо же о нехватке внутренних ресурсов для обработки всего объёма входящих запросов.

3. Проблемы с системными файлами.
Речь в частности идёт о файле xmlrpc.php, используемом для взаимодействия с сайтами на WordPress через API. Ссылку на него можно найти в коде многих страниц сайта wordpress.org и creativecommons.org, а также большинства сайтов на базе CMS WordPress в принципе. Для поисковика и пользователей она выглядит почти как обычная битая и отдаёт 405 код ответа.

4. Кривые руки невнимательного разработчика или SEO-специалиста.
Это относится к большинству исследуемых сайтов, в частности — к Creative Commons, где битые ссылки есть даже в разделах с пресс-релизами и FAQ, что абсолютно недопустимо как с точки зрения SEO, так и юзабилити.

5. На сервере некорректно выставлены права доступа к файлам или скриптам.
Подобная ситуация, как правило, приводит к появлению 403 ошибки.

6. Защита файлов при помощи HTTP-авторизации.
Когда на сайте используется подобный метод защиты данных от неавторизованных пользователей, страница отдаёт 401 код ответа. В частности, ссылки на подобный защищённый контент многократно встречаются на сайте w3.org.

Проведённое нами исследование показало, что даже самые топовые сайты мира зачастую страдают из-за битых ссылок. Однако это не означает, что теперь можно расслабиться и допускать подобную ситуацию на своём сайте. Будьте внимательны и регулярно сканируйте сайт на наличие URL с кодами ответа 4хх и 5хх. Даже если вы следите за чистотой и актуальностью URL, по ряду технических причин битые ссылки могут появляться на сайте даже без вашего участия.

Если у вас есть интересные примеры технических проблем, которые влекут за собой появление проблемных ссылок, поделитесь ими в комментариях.

1111
5 комментариев

И как эти сайты страдают от этого?

Конкретно эти сайты — никак.
А вот все прочие, у кого не так хорошо с позициями, историей и ссылочным профилем, могут хорошо пострадать при подобном раскладе

А я, напротив, полагаю, что эти сайты страдают так же само, как любые другие сайты, менее знаменитые: юзер зашёл на сайт, клацает на ссылку и попадает в "бездну", так и не получив ответ на свой вопрос. Уверен, что все сайты без исключения должны работать со своими битыми ссылками — если не ради SEO, то хотя бы ради качества своего сайта и ради юзеров.

А почему вы взяли топ сайтов по входящим ссылкам и проверяли их по Onpage факторам?

Потому что было интересно оценить, заботятся ли самые рейтинговые сайты о своей технической оптимизации, в частности о битых ссылках. Формат рейтинга мог бы быть любой другой, но Ahrefs, как по мне, один из самых показательных. Здесь нет корреляции между on-page и off-page