Создание Robots.txt: как создать файл и как его проверить
В этой статье мы расскажем, что за файл robots.txt, зачем он нужен, как его настроить и как проверить.
Robots.txt - это текстовый файл, который указывает поисковым роботам, какие страницы на сайте можно индексировать, а какие нет. Он позволяет специалистам по SEO оптимизировать индексацию сайта, скрывая конфиденциальную информацию или технические страницы сервиса.
Грамотно настроенный файл robots.txt крайне важен для успешного продвижения и позиционирования сайта в поисковых системах. Рассмотрим его основные возможности и назначения подробнее:
Ограничение индексации ненужных страниц
С помощью robots.txt можно запретить индексацию таких разделов, как личный кабинет пользователя, корзина интернет-магазина и т.п. Закрытие этих страниц от индексации экономит квоту поисковиков и позволяет сосредоточить вес на уникальном качественном контенте.
Снижение серверной нагрузки
Если не ограничивать скорость индексации, роботы могут обращаться к серверу слишком часто, создавая нежелательную нагрузку. Используя директиву crawl-delay, можно указать задержку между запросами робота от 5 до 15 секунд.
Предотвращение блокировок сайта
При слишком интенсивной переиндексации возникает риск временной блокировки сайта за DDOS-атаку. Это связано с штормом запросов к хостингу. С помощью robots.txt можно грамотно регулировать интенсивность индексации, не допуская подобных инцидентов.
Ускорение обнаружения новых страниц
Если указать в robots.txt путь к текущей XML-карте сайта (sitemap.xml), то новые и обновлённые страницы будут индексироваться гораздо быстрее. Это особенно важно для таких разделов, как новости, статьи, каталог товаров и т.п.
Итак, применение грамотно настроенного файла роботов крайне полезно для SEO и может оказать существенное влияние на продвижение ресурса в поиске.
Как настроить robots.txt для сайта
Чтобы правильно организовать работу файлa robots.txt, существует несколько простых правил.
Размещение файла Файл robots.txt размещается в корневой директории сайта по следующему пути:
example.com/robots.txt - для главной доменной зоны example.com/blog/robots.txt - отдельно для каталога /blog example.com/shop/robots.txt - отдельно для магазина
Только из корня сайта поисковые роботы смогут получить доступ и прочитать настройки этого файла.
Подробнее о настройке читайте тут.
Создание и редактирование
Чтобы создать robots.txt, достаточно подготовить простой текстовый документ без форматирования в любом удобном редакторе, сохранить с расширением .txt и загрузить через FTP в нужный каталог сайта.
Для внесения правок и добавления новых директив также можно просто открыть этот файл через FTP и отредактировать в нужном текстовом редакторе, после чего сохранить и загрузить обратно на сервер.
Способы проверки robots.txt
Важная часть - проверка корректности настроенного файла robots.txt.
Быстрый визуальный осмотр файла выполняется простой загрузкой его в браузер по пути вида: yoursite.com/robots.txt
Для более сложной автоматизированной проверки можно воспользоваться специальным инструментом Google Search Console или сервисом Яндекс.Вебмастер. Они сообщат о наличии ошибок и предупреждений.
Основные директивы файла robots.txt
Рассмотрим основные директивы, которые используются для формирования правил доступа в файле robots.txt.
User-agent. Эта директива позволяет применять правила к определённому роботу. Например, настроить отдельно доступ для Googlebot и Яндексбот, либо создать общее правило для всех.
Disallow и Allow. Disallow апрещает индексацию указанных страниц и каталогов, а Allow разрешает проиндексировать ранее запрещённые ресурсы. Используя Disallow и Allow можно гибко и точно управлять доступом роботов.
Crawl-delay. Этот параметр позволяет указать задержку (в секундах) между запросами робота поисковой машины к серверу. Директива нужна, чтобы избежать перегрузки сервера при индексации. Рекомендованный интервал - 5-15 секунд. К сожалению теперь игнорируется поисковиками.
Sitemap. Директива sitemap указывает поисковым роботам путь к файлу XML-карты сайта со всеми необходимыми страницами внутри проекта, что позволяет быстрее проиндексировать обновлённый или появляющийся контент.
Подробнее о директивах с примерами их написания можно почитать тут.
Общие рекомендации по настройке
Далее приводятся основные рекомендации и лайфхаки для грамотной настройки файла robots.txt:
- Закрывайте доступ к конфиденциальным и дублирующим страницам, на которые не должны ссылаться поисковики
- Укажите оптимальный crawl-delay в 5-15 секунд для регулировки нагрузки
- Ставьте специальные правила для отдельных роботов через user-agent при необходимости
- Добавьте путь к актуальной XML-карте сайта для ускорения индексации
- Проверяйте файл на ошибки в Search Console или Вебмастере
Больше рекомендаций по настройке найдете тут.
Корректный и грамотный robots.txt позволит в разы улучшить индексацию именно уникального и полезного контента на сайте, что в конечном итоге приведёт к улучшению его позиций и показателей.
Нюансы настройки для популярных CMS
В различных популярных системах управления контентом (CMS) могут быть определённые особенности при конфигурации файла robots.txt. Рассмотрим картко, как настроить роботов на разных CMS, подробную информацию можно найти тут.
Правильный robots.txt для WordPress
В WordPress этот файл создаётся автоматически и блокирует админку /wp-admin/. Но для SEO нужно также закрыть кеш, аплоады, сайтмапы старых версий и установить задержку запросов для роботов.
Правильный robots.txt для Joomla
В Joomla такого файла по умолчанию нет, поэтому его нужно создать вручную в корне проекта, заблокировав административный раздел и технические каталоги, а также настроив задержку для роботов.
Правильный robots.txt для Bitrix
В Bitrix изначально присутствует файл со стандартными настройками, но для SEO также потребуется дополнительно закрыть лишние каталоги, разрешить JS/CSS, задать задержки поисковым роботам и указать XML карту сайта.
Грамотная настройка этого важного инструмента SEO может в разы улучшить видимость сайта в поисковой выдаче. Учитывая особенности различных CMS и основные принципы конфигурации файл robots, можно достичь высокоэффективного результата!
Смотрите нас в других источниках:
🎯VK