Как важно следить за сайтом, даже если он еще закрыт от индексации

Внеплановый пост боли, крика и негодования 😱.

Каждый понедельник я провожу срез по сайтам. В этот срез входит:

  • Индексация сайта
  • Позиции сайта по ключевым запросам
  • Проверка Гугл консоль
  • Проверка Гугл аналитика

Как проверить индексацию сайта?

Индексация сайта в данном срезе — это проверка количества страниц в индексе Гугла. Делается это элементарно.

Вводим в поисковую строку следующе:

site:домен-вашего-сайта.ua

и видим количество страниц в индексе (фото 1).

Фото 1. Индексация страниц сайта в Google
Фото 1. Индексация страниц сайта в Google

Отслеживание индексации и статистика

Чтобы видеть динамику я свожу эти данные в таблицу. Там все просто: дата📅 и количество страниц📚. Из этих данных строится красивый график📈 (фото 2).

Фото 2. Количество страниц на сайта
Фото 2. Количество страниц на сайта

Эти данные, на самом деле, не точны. Но чтобы быстро и поверхностно проанализировать состояние сайта — подходит.

А теперь суть проблемы

Так вот, есть у меня один сайт. Он еще в разработке и закрыт от индексации. Но я все равно делаю срез по количеству страниц в индексе, так на всякий случай. И вот такой случай настал😁.

Сегодня проверяю этот проект и вижу ужасную картину — 692 страницы в индексе😨. Эти страницы полный шлак и отдают 404 ошибку. А на закуску:

❌ В файле robots.txt нет запрета на индексацию. Хотя я точно ее ставил.

❌ Я не могу зайти в админку сайта (фото 3).

Фото 3. Нет доступа в админку сайта
Фото 3. Нет доступа в админку сайта

❌ В Гугл консоли также наблюдается рост количества страниц (фото 4)

Фото 4. Рост количества страниц в Google Console
Фото 4. Рост количества страниц в Google Console

Короче беда! Похоже на какой-то вирус и/или взлом. Программиста и хозяина сайта в известность поставил. Ждем развития.

Выводы

Если Вы хотите быть уверены, что с вашим сайтом все в порядке, его не взломали и не заразили вирусом — дружите со своими сеошниками и программистами.

P.S. Прошу строго не закидывать тапками. Это моя первая статья.

55
69 комментариев

Смотрю я на эту страничку и понимаю, что vc.ru уже не тот, что был раньше...

11

Ну во-первых - забудьте вы уже о robots.txt, это просто список ваших пожеланий к роботу. Он их проигнорирует, если посчитает, что это надо. Если сайт в разработке - блокайте лучше через мета роботс, а ещё лучше - тупо пароль на директорию, физически.
Во-вторых, напомню про возможную разницу в версиях ip. Описаны случаи, когда один сайт был доступен в разных версиях по разным ip (ipv4 и ipv6) - владелец работал с одной версией сайта, роботы получали другую, на тестовом серваке как раз. Проверьте, может и тут такая история.
Хотя взлом исключать никогда нельзя, как и появления левого зеркала - это старая техника отжима позиций, хотя и затратная, да и не о новом сайте, которого пока даже не должно быть в индексе.

3

Дельное замечание. Спасибо!

2

Фигня, не видел еще ниодного случая, чтобы поисковик проигнорировал файл robots. А вот случаев когда криво настроили и поэтому поисковик не понял что от него хотят - полно.

Гугл индексирует запрещённые страницу в robots в случае если страница помещаемая. Такие страницы нужно закрывать через meta теги.

При разработке сайта нужно накидывать авторизацию на тесовой площадке.

По-моему, это уже давно всем известно.

У меня был случай взлома сайта на WP из гугл консоли прилетело сообщение что на вашем сайте появился рост страниц, так и было, кто то разместил на сайте вредоносный код, который я удалил, причина была в одном плагине, как я позже узнал что разработчики допустили уязвимость в коде и примерно 100000 сайтов пострадали, данная проблема лечится сменой IP адреса, чтобы вернуть доверие гугла. После этого я попрощался с WP.

1

Сильный ход - целый IP менять из-за взлома.
После исправления ошибок и устранения брешей все ручные санкции снимаются примерно сразу. Хуже того: Гугл успешно вносит в индекс даже странички, тоннами сгенерированные дорами на взломанных сайтах, даже не думая понижать сайт в ранжировании несмотря на откровенно левый и нетематический контент.
Любая CMS уязвима, просто zero-day уязвимости на WP становятся известными практически сразу всем, кому надо, а дальше - дело ботов, найти уязвимый сайт и залить, скажем, шелл или иначе напакостить. Юзайте файерволл, хотя бы - проблем будет намного меньше. 

1