Кейс: как правильный robots.txt сайт из Google удалил

Таки-здрасьте!

Пишу тут пост впервые, так что пинайте как можно сильнее и сопровождайте пинки как можно более сильными криками.

В данном посте я расскажу о том, как robots.txt, который на первый взгляд составлен правильно, полностью выбил сайт из поисковой системы Google.

Дано.
Сайт по велотуризму. Клиент у нас совсем недавно, поэтому на сайте пока что всё плохо. Клиент пожаловался, что сайт полностью вылетел из поисковой выдачи Google. Также заказчик сказал, что кто-то из его программистов что-то делал с robots.txt. ОК, будем посмотреть.

Задача.
Вернуть сайт обратно в Google. Не обязательно в ТОП, достаточно чтобы он просто индексировался.

Что было сделано.
Самое первое, что я сделал - глянул текущий robots. На момент вмешательства он выглядел вот так (версия от 11 августа):

User-agent: *
Disallow: /cgi-bin
Disallow: /?
Disallow: /wp-
Disallow: /wp/
Disallow: *?s=
Disallow: *&s=
Disallow: /search/
Disallow: /author/
Disallow: /users/
Disallow: */trackback
Disallow: */feed
Disallow: */rss
Disallow: */embed
Disallow: */wlwmanifest.xml
Disallow: /xmlrpc.php
Disallow: *utm*=
Disallow: *openstat=
Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php
Sitemap: https://velotour-asia.ru/sitemap_index.xml

Как видите, никаких правил, которые запрещают индексирвание всего сайта ( или, скажем, главной страницы) тут нету. Подозрительно, однако!

OK, Google, расскажи же, что не так! Идём в Search Console и пытаемся разобраться. И "от оно чо, Михалыч!" Противоречие однако!

Кейс: как правильный robots.txt сайт из Google удалил

Обратите внимание, что попытка сканирования была 19го числа, т.е. спустя несколько дней после последнего редактирования robots'а. Эй, какого яруса?! Роботс, вроде, в порядке, но Google на него ругается. Как так-то?

В коде страницы я никаких noindex'ов тоже не нашел, т.е. вариант с тегами отпадает.

Далее я просканировал сайт Screaming Frog'ом, предварительно выставив в настройках смартфонный гуглбот (именно смартфонный, т.к. Николай Васильевич Гуголь сканировал сайт именно им). Также в настройках было выставлено Respect robots, чтобы содержимое robots.txt не игнорировалось.

Кейс: как правильный robots.txt сайт из Google удалил

Как видите, все строки (кроме первой) отдают код 200 ОК и имеют статус Indexable. Т.е. со сканированием Фрог проблем не выявил. Странно.

ОК, тогда воспользуемся штатным инструментом Google для проверки robots.txt. Самое первое, что бросилось в глаза - все строки были помечены как ошибочные.

Кейс: как правильный robots.txt сайт из Google удалил

Всё страннее и страннее... Томить не буду. Проблему я, кстати, заметил далеко не сразу. Всё внимание на первую строку роботса:

Кейс: как правильный robots.txt сайт из Google удалил

Что это за символ - не понятно. Удаляем и...

Кейс: как правильный robots.txt сайт из Google удалил

... и все 26 ошибок исчезли. Далее я напрямую из Консоли скачал исправленный роботс, затем скачал с сайта исходный и стал сравнивать.

Если их просто открыть в блокноте, то они выглядят абсолютно идентично. Как говорится, "найдите 10 отличий". Если вместо Блокнота открывать через Notepad++ - будет то же самое.

Кейс: как правильный robots.txt сайт из Google удалил

Однако, размер файлов отличается, пусть даже всего на 3 байта:

Кейс: как правильный robots.txt сайт из Google удалил

Вот блин просто охренеть! Всего 1 символ, который не отображается ни в браузере, ни в блокноте, ни в Notepad++, и сайт вылетел из индекса Google! Как тебе такое, Илон Маск?

3131
30 комментариев

Мой любимый utf bom bom?

8

скриншот из HEX-редактора выше)) 

Это был копипаст текста файла со статьи с рекомендациями как его настраивать 🤣💪

5

кстати, может быть и так

Не, скорее предыдущий программист просто стал редактировать этот файл в стандартном Блокноте, который этот BOM и добавил.

Также заказчик сказал, что кто-то из его программистов что-то делал с robots.txtВидать не заплатили челику

5