Техническое SEO. Кейс (факап) про редизайн

Всем привет! Меня зовут Андрей Симагин, я автор программы для технического аудита сайтов SiteAnalyzer, и в сегодняшней статье мы рассмотрим практически детективный кейс о не совсем «гладком» редизайне сайта от популярного зарубежного блогера Марк Вильямс-Кук (Mark Williams-Cook).

Техническое SEO. Кейс (факап) про редизайн

Однажды...

Крупная компания с международной репутацией (Netflix, National Geographic, BBC, Discovery и т.д.) сделала редизайн сайта.

Команда разработчиков заархивировала исходный контент сайта на поддомене (archive[.]oldsite[.]com) для упрощения хранения и управления архивом, но не защитили поддомен паролем (htpasswd).

По идее, архивный контент не должен был индексироваться поисковыми системами, ведь ссылок на него нигде не стояло.

Однако, поисковые роботы по своей природе любопытны и иногда могут находить непредусмотренные к индексации страницы. А без надлежащих директив есть большой риск того, что заархивированные страницы могут быть не только просканированы, но и проиндексированы.

Угадайте, что же произошло?

После запуска нового сайта команда заметила странные паттерны трафика. Страницы с архивного поддомена стали высоко ранжироваться в поисковой выдаче. Одна из них стала 4-й по посещаемости страницей в Google Search Console!

Проведя исследование, было обнаружено, что весь заархивированный сайт был внезапно просканирован роботом Googlebot и проиндексирован.

Это вызывало проблемы с дублированием контента, так как идентичные страницы из архива теперь напрямую конкурировали с новым сайтом и поглощали трафик с нового сайта в поисковой выдаче.

Что еще хуже, после того, как был проведен разговор с командой разработчиков, они удалили поддомен архива, не посоветовавшись со специалистами!

Сотни важных страниц, «размещенных» на архивном поддомене все еще конкурировали с новым сайтом в поисковой выдаче (кэшированной), но трафик терялся, потому что поддомена больше не существовало!

Экстренное решение проблемы

Был воссоздан архивный поддомен, чтобы реализовать 301 редирект с поддомена на новый сайт, чтобы пройти ранжирование и указать пользователям правильное направление.

В целом, были проведены такие шаги:

1. Воссоздан удаленный архивный поддомен, потому что мы не можем позволить, чтобы он ранжировался в поисковой выдаче Google, но не работал, когда пользователи переходят по ссылкам.

2. Корневой каталог поддомена был пуст, потому что команда разработчиков удалила все! Поэтому была создана индексная страница, и, поскольку использовался веб-сервер Apache, был прописан постоянный 301-й редирект в файле .htaccess, чтобы направлять ботов и пользователей, переходящих на старый контент, и проиндексированный в поисковой выдаче, на новый сайт:

RewriteEngine on RewriteBase / RewriteCond %{HTTP_HOST} ^archive\.oldsite\.com$ [NC] RewriteRule ^(.*)$ https://[.]newsite[.]com [R=301,L]

3. Был отредактирован index.html и добавлен мета-тег robots в блок HEAD:

<meta name="robots" content="noindex,nofollow">

4. Позже был добавлен текстовый файл Robots.txt в корневой каталог поддомена, чтобы запретить дальнейшее сканирование с помощью данных двух строк:

User-agent: * Disallow: /

Резюме

Архивный контент может быть просканирован и может невзначай конкурировать с основным сайтом, негативно влияя на SEO, ранжирование и трафик. Будьте осторожны! 😅

В преддверии «Черной Пятницы», которая пройдет с 20 по 24 ноября 2024 года, мы запускаем акцию и раздаем скидочные промокоды на покупку программы для технического аудита SiteAnalyzer!

Подробности акции, как и сам промокод, доступны по данной ссылке.

Техническое SEO. Кейс (факап) про редизайн

Больше полезных кейсов, новостей и инструментов на нашем телеграм-канале https://t.me/siteanalyzer

66
3 комментария

Бывает такое и часто. Но тут 2 момента:
1) Браузеры которые передают страницы что вы посещаете в т.ч. для переиндексации.
2) Счетчики которые остаются в коде и вполне себе передают опять же страницы сайтов поисковым системам. Про них обычно никто не вспоминает.
В целом закрытие от индексации это рекомендации, так что хотите 100%, только отдача 404 ответа сервера без авторизации.

2

Согласен со всеми пунктами. А о счетчиках вообще мало кто вспоминает обычно, только уже при полноценном запуске сайта.

А что бы вы сделали по-другому?