Как важно следить за сайтом, даже если он еще закрыт от индексации
Внеплановый пост боли, крика и негодования 😱.
Каждый понедельник я провожу срез по сайтам. В этот срез входит:
- Индексация сайта
- Позиции сайта по ключевым запросам
- Проверка Гугл консоль
- Проверка Гугл аналитика
Как проверить индексацию сайта?
Индексация сайта в данном срезе — это проверка количества страниц в индексе Гугла. Делается это элементарно.
Вводим в поисковую строку следующе:
site:домен-вашего-сайта.ua
и видим количество страниц в индексе (фото 1).
Отслеживание индексации и статистика
Чтобы видеть динамику я свожу эти данные в таблицу. Там все просто: дата📅 и количество страниц📚. Из этих данных строится красивый график📈 (фото 2).
Эти данные, на самом деле, не точны. Но чтобы быстро и поверхностно проанализировать состояние сайта — подходит.
А теперь суть проблемы
Так вот, есть у меня один сайт. Он еще в разработке и закрыт от индексации. Но я все равно делаю срез по количеству страниц в индексе, так на всякий случай. И вот такой случай настал😁.
Сегодня проверяю этот проект и вижу ужасную картину — 692 страницы в индексе😨. Эти страницы полный шлак и отдают 404 ошибку. А на закуску:
❌ В файле robots.txt нет запрета на индексацию. Хотя я точно ее ставил.
❌ Я не могу зайти в админку сайта (фото 3).
❌ В Гугл консоли также наблюдается рост количества страниц (фото 4)
Короче беда! Похоже на какой-то вирус и/или взлом. Программиста и хозяина сайта в известность поставил. Ждем развития.
Выводы
Если Вы хотите быть уверены, что с вашим сайтом все в порядке, его не взломали и не заразили вирусом — дружите со своими сеошниками и программистами.
P.S. Прошу строго не закидывать тапками. Это моя первая статья.
Ну во-первых - забудьте вы уже о robots.txt, это просто список ваших пожеланий к роботу. Он их проигнорирует, если посчитает, что это надо. Если сайт в разработке - блокайте лучше через мета роботс, а ещё лучше - тупо пароль на директорию, физически.
Во-вторых, напомню про возможную разницу в версиях ip. Описаны случаи, когда один сайт был доступен в разных версиях по разным ip (ipv4 и ipv6) - владелец работал с одной версией сайта, роботы получали другую, на тестовом серваке как раз. Проверьте, может и тут такая история.
Хотя взлом исключать никогда нельзя, как и появления левого зеркала - это старая техника отжима позиций, хотя и затратная, да и не о новом сайте, которого пока даже не должно быть в индексе.
Гугл индексирует запрещённые страницу в robots в случае если страница помещаемая. Такие страницы нужно закрывать через meta теги.
При разработке сайта нужно накидывать авторизацию на тесовой площадке.
По-моему, это уже давно всем известно.
Не факт, что именно посещаемая. Причин может быть много: трафик, ссылки, общая структурная логика, страничка в роботс закрыта, и мета гуглоботу недрступны и т. п.
Вон давеча на серче топик появился: как закрыть в роботс главную. Закрыть то можно, но это тот случай, когда запрет будет проигнорирован с самой высокой степенью вероятности.
Robots.txt - не директивы, не приказы. Это просто рекомендации для робота, не более.