Как показывает практика, база технического SEO – файл robots.txt, – многими вебмастерами не только заполняется неправильно, но и без понимания, зачем этот файл и как он работает. Статей на эту тему – объективно, тонны, но есть смысл расставить некоторые акценты.
Виктор, вопрос по "Недоступность файла с директивами по техническим причинам (ошибки 5**) может привести к тому, что гуглобот не станет сканировать сайт".
Эта информация есть в справке Google или Вы это поняли опытным путем?
Есть, это точно из официальных доков. Ссылку навскидку не найду, но информацию я перелопачивал в процессе подготовки статьи, так что это не из серии слухов, мифов и легенд.
Яндексу, насколько я понимаю, этот пункт безразличен, он сканирует всё, до чего дотягивается.
PS Да собственно, вот ссылка: https://support.google.com/webmasters/answer/1067240?hl=en
Или вот цитатка:
Поскольку сервер не может дать определенный ответ на запрос файла robots.txt, Google временно интерпретирует ошибки сервера 5xx и 429 так, как если бы сайт был полностью заблокирован. Google будет пытаться просканировать файл robots.txt до тех пор, пока не получит код статуса HTTP, не связанный с ошибкой сервера. При появлении ошибки 503 (service unavailable) попытки будут повторяться достаточно часто. Если файл robots.txt недоступен более 30 дней, будут выполняться правила в его последней кешированной копии. Если такой копии нет, роботы Google будут действовать без ограничений. https://developers.google.com/search/docs/advanced/robots/robots_txt