Как сделать XML-карту и задать режим обхода сайта

Создание XML-карты сайта (sitemap.xml) — обязательный пункт в списке работ по внутренней оптимизации. Зачем нужен файл sitemap, где он находится и как его создать, разбираемся в статье.

Как сделать XML-карту и задать режим обхода сайта

Отличие XML-карты сайта от HTML версии

Под термином «карта сайта» понимают 2 вида документов:

  • HTML (веб-страница) — перечень ссылок на страницы сайта. Нужна для навигации пользователей, обычно оформлена как древовидная структура, имеет адрес вида site.com/sitemap/ или site.com/karta-saita/ и т.п.
Пример оформления html-карты сайта
Пример оформления html-карты сайта
  • XML — файл в корневой папке сайта, который содержит список URL с информацией об их последнем обновлении и приоритете в индексировании. Нужна для поисковых роботов, должна быть доступна по адресу site.com/sitemap.xml.
Фрагмент XML-карты сайта.
Фрагмент XML-карты сайта.

На сайте должны присутствовать и HTML карта, и XML. Первая нужна для пользователей, вторая — для роботов. Далее будем говорить об XML-карте сайта.

XML-карту удобно использовать для парсинга данных с сайтов. Парсер мета-тегов и заголовков системы PromoPult: быстро, с любого сайта. Соберем мета-теги и заголовки H1 с любого сайта. Подгрузите список страниц или карту сайта.

Синтаксис файла sitemap.xml

Первой строкой в файле sitemap указывается ссылка на пространство имен языка XML (описание стандарта, на основе которого составлен файл). Строка стандартная и всегда выглядит вот так:

XML-карта сайта должна иметь кодировку UTF-8 и содержать следующие теги:

  • <urlset> — открывающий/закрывающий тег, в него заключаются все ссылки файла sitemap.
  • <url> — заключает в себе всю необходимую для робота информацию о каждой ссылке: URL, с какой периодичностью обновляется информация по этому адресу, дату последнего обновления и приоритет в индексировании.
Как сделать XML-карту и задать режим обхода сайта
  • <loc> — ограничивает конкретный URL:
Как сделать XML-карту и задать режим обхода сайта
  • <changefreq> — задает периодичность обновления информации на странице: always, hourly, daily, weekly, monthly, yearly, never (всегда, ежечасно, ежедневно, еженедельно, ежемесячно, ежегодно, никогда). Благодаря этому тегу робот может понять, насколько часто меняется содержание в документе и нужно ли его сканировать. Тег необязателен и сейчас используется крайне редко.
Как сделать XML-карту и задать режим обхода сайта
  • <lastmod> — указывает на дату последнего обновления страницы. Так робот понимает, изменилось ли что-нибудь с момента его предыдущего посещения.
Как сделать XML-карту и задать режим обхода сайта
  • <priority> — дает роботам рекомендацию о приоритете индексирования. Главная страница всегда имеет <priority> 1, остальные можно расставить в зависимости от предпочтений оптимизатора (например, 0,8, 0,6 и так далее до 0,1).
Как сделать XML-карту и задать режим обхода сайта

Рекомендация по количеству ссылок в файле sitemap.xml — не более 50 тысяч. Если количество страниц сайта превышает это число, нужно сделать несколько карт, а в файле по адресу site.com/sitemap.xml указать на них ссылки:

Как сделать XML-карту и задать режим обхода сайта

Модуль SEO в системе Promopult: все инструменты для улучшения качества сайта и поискового продвижения. Полный комплекс работ — с нами вы не упустите ни одной мелочи. Чек-листы, подсказки, прозрачная отчетность и рекомендации профессионалов. Гарантии, оплата работ в рассрочку.

XML-карта позволяет экономить краулинговый бюджет

Краулер (паук) — поисковый робот, который сканирует страницы сайта и добавляет их в индекс. Краулинговый бюджет — это количество страниц за одно посещение робота, для разных сайтов бюджет ограничен — это может быть несколько десятков или сотен документов. Именно поэтому нужно направить краулера по тем страницам, которые важны для продвижения сайта, и сделать все, чтобы он не добрался до некачественных, малоинформативных, служебных страниц.

Важно понимать, что указания в файлах robots.txt и sitemap.xml — только рекомендации для роботов.

Отсутствие файла sitemap не является критичной ошибкой. Но если поисковый бот не найдет файл sitemap.xml, он станет сканировать и добавлять в индекс документы по своему усмотрению, и тогда наличие «мусорных», служебных страниц, дублей, страниц с ошибкой 404 в индексе может стать препятствием к выходу сайта в топ.

Роботы всех поисковых систем могут самостоятельно обнаружить XML-карту сайта, если она доступна по адресу site.com/sitemap.xml, но есть способы донести до поисковиков важную информацию быстрее.

Как рассказать поисковым роботам о карте сайта

1. Указать ссылку на файл в директиве sitemap файла robots.txt:

Как сделать XML-карту и задать режим обхода сайта

2. Добавить файл sitemap.xml в разделы «Индексирование — Файлы Sitemap» Яндекс.Вебмастера и «Файлы Sitemap» в Google Search Console.

Как сделать XML-карту и задать режим обхода сайта
Как сделать XML-карту и задать режим обхода сайта

Яндекс и Google не только просканируют добавленный файл, но и укажут на возможные ошибки.

4 cпособа создать sitemap.xml

  1. Вручную, руководствуясь правилами синтаксиса, которые мы описали выше. Этот вариант подходит для небольших сайтов. Не забудьте разместить файл sitemap.xml в корневой папке сайта (потребуется доступ к хостингу или ftp) и проверить, открывается ли он корректно по адресу site.com/sitemap.xml.
  2. Использовать платные и бесплатные программы для генерации XML-карты сайта (например, Sitemap Generator, Sitemap Writer Pro, SiteMap XML Dynamic). Такой софт использовался до широкого распространения онлайн-генераторов. На момент написания статьи все три программы давно не обновлялись.
  3. Использовать генераторы карты сайта онлайн — самый простой и бесплатный способ создать файл sitemap.xml.
  4. Воспользоваться возможностями системы управления сайтом.

При любом способе обратите внимание на следующие моменты:

  • Разместить файл sitemap.xml нужно в корень сайта.
  • Ссылки в sitemap не должны конфликтовать с правилами в файле robots.txt. Иначе говоря, страниц, закрытых от индексации в robots.txt, не должно быть в XML-карте сайта.
  • После автоматической генерации нужно проверить и скорректировать XML-карту на предмет попадания в нее ненужных для индексации URL.

Рассмотрим подробнее самые популярные способы создания XML-карты.

Онлайн генераторы карты сайта

Если на сайте небольшое количество страниц, создайте sitemap при помощи онлайн-генераторов.

Самые популярные:

  • Mysitemapgenerator: бесплатно сканирует до 500 страниц, есть платный тариф и подписка на автоматически обновляемый файл sitemap.xml.
  • Xml-sitemaps: бесплатно без регистрации позволяет просканировать до 500 страниц, есть платный аккаунт и php-версия для установки на сервер. Англоязычный сервис.
  • Web-Site-Map: количество бесплатных страниц для генерации динамически меняется с учетом реальной нагрузки на сервер. Имеет валидатор и сообщает о битых ссылках.
  • Gensitemap: бесплатно можно просканировать до 1000 страниц.

Большой недостаток онлайн-генераторов — они создают файл sitemap.xml раз и навсегда. Если на сайт постоянно добавляются новые страницы, такой способ не подходит.

Как создать sitemap.xml в разных CMS

Во всех популярных системах управления сайтом (CMS) есть возможность создать XML-карту. Файлы sitemap в этом случае обновляются автоматически, вам не придется генерировать карту сайта заново после каждой добавленной страницы.

1C-Битрикс: встроенная функция

Настройка sitemap.xml доступна в разделе «Маркетинг» административной панели сайта:

Как сделать XML-карту и задать режим обхода сайта

Добавьте файл, назовите его и активируйте чекбокс о добавлении ссылки в robots.txt:

Как сделать XML-карту и задать режим обхода сайта

Во вкладке «Файлы» выберите разделы, которые вы хотите предоставить для индексации поисковым роботам:

Как сделать XML-карту и задать режим обхода сайта

То же самое проделайте во вкладке «Инфоблоки».

Сохраните все изменения и нажмите кнопку «Запустить»:

Как сделать XML-карту и задать режим обхода сайта

После создания карты сайта вы увидите сообщение, что генерация закончена:

Как сделать XML-карту и задать режим обхода сайта

WordPress: используйте плагины

XML-карта сайта настраивается в двух популярных SEO-плагинах: All in One SEO Pack и Yoast SEO. Есть также отдельный плагин для создания XML-карты — Google XML Sitemaps.

Покажем настройку на примере первого.

Сначала нужно установить плагин. Это делается в разделе «Плагины» консоли сайта. После установки он будет доступен для настройки. Нам нужен раздел «Управление модулями»:

Как сделать XML-карту и задать режим обхода сайта

В нем активируем модуль, который отвечает за XML-карту:

Как сделать XML-карту и задать режим обхода сайта

После активации модуль становится доступным для редактирования:

Как сделать XML-карту и задать режим обхода сайта

Далее вы можете оставить настройки по умолчанию или задать свои. Полная документация по модулю — здесь. Она на английском языке, но даже встроенный переводчик в Chrome поможет вам разобраться.

В Yoast SEO карта сайта создается автоматически по адресу site.com/sitemap_index.xml. Модуль также доступен для редактирования или можно оставить настройки по умолчанию.

Модули для других популярных CMS

  • Joomla: используйте плагины OSMap (бесплатная версия Free и платная Pro), jSitemap (платное расширение, фактически целый набор SEO-инструментов).
  • Drupal: модуль XML Sitemap.
  • Magento: настройте Site Map Configuration.

Выбирайте подходящий способ создания XML-карты сайта и сообщайте поисковым роботам, какие страницы им стоит посетить — это даст вам уверенность в том, что поисковый робот проиндексирует все нужные страницы вовремя.

1 комментарий

Использовать новый дефолтный битриксовский генератор никому не советую: он генерит sitemap исходя из инфоблоков, в результате в карту сайта постоянно попадает разный мусор, который пользователю на сайте вообще не выводится. И еще при его использовании одна карта сайта разбивается на много мелких файлов, что нецелесообразно если только у вас не портал на миллионы страниц.

Старый генератор (Который не в "Маркетинге", а "Настройки" - "Поиск" - "Google Sitemap") адекватнее работает. 

Для себя на битриксовских сайтах генерирую карту через Screaming Frog SEO Spider в ручном режиме. Им же генерится и отдельный sitemap для изображений, чего "из коробки" никак не сделать.

Ответить