Sitemap.html и sitemap.txt - зачем они нужны при продвижении под Google?

Статья написана в первую очередь под Google. Нужны ли подобные карты под Яндекс автор не знает, т.к. не подвигает под эту поисковую систему.

Между картами сайта с XML и HTML разметкой, а также с TXT версией существуют значительные различия. В большинстве случаев достаточно sitemap.xml, но иногда необходимы HTML и TXT версии. Для каких сайтов стоит делать различные карты:

  • Большие сайты (от 100К-1М страниц) и сайты СМИ.
  • Сайты среднего размера (10-100К страниц), у которых есть проблемы с индексацией.
  • Сайты со сложной навигацией и высоким уровнем вложенности страниц.
Сергей Горохов
SEO специалист, продвигаю сайты с 2009 года, работаю с западными рынками с 2019 года. Пишу статьи. Развиваю канал о зарубежном SEO https://t.me/goburzhseo

Коротко об этих трех форматах:

  • Sitemap.xml - файл или файлы в XML формате. Информируют поисковые системы о контенте, подлежащему индексации.
  • Sitemap.html - навигационный элемент сайта, который могут использовать и юзеры, и поисковые боты.
  • Sitemap.txt - файлы в текстовом формате, содержащие перечень url, подлежащих индексации.

Sitemap.xml и Sitemap.txt - служебные файлы, Sitemap в HTML виде - навигационный элемент сайта. Все они используются для ускорения индексации сайта, но HTML карта работает принципиально иначе нежели XML и TXT форматы. При этом в TXT карте сайта можно размещать только ссылки на HTML страницы и XML разметки так быть не должно.

HTML карта сайта

Sitemap.html - дополнительный навигационный элемент сайта, но создается и используется он в первую очередь для SEO целей. Часто ссылку на него можно встретить в футере сайта. На этой странице (или страницах) приводят ссылки на разделы сайта, теговые и просто важные страницы в иерархической последовательности.

Пример HTML карты сайта
Пример HTML карты сайта

Данный файл особенно помогает индексации сайта, если вы не можете разместить ссылки на все каталоги и разделы в меню, футере, а также на страницах 2 и 3 уровня вложенности.

Примеры HTML карт сайта

Для сайтов СМИ sitemap HTML имеет достаточно устоявшуюся структуру:

-Перечень годов, а также отдельный файл с постами за последние несколько дней

--Перечень месяцев внутри выбранного года

----Перечень дат внутри выбранного месяца

--------Листинг со ссылками на все публикации за выбранную дату

HTML карта сайта для СМИ - первая страница
HTML карта сайта для СМИ - первая страница

Sitemap HTML нужен для следующих целей:

  • Помогает передаче и распределению PageRank с главной до нижестоящих страниц, что положительно влияет на ранжирование сайта в целом (но довольно слабо).
  • Снижает уровень вложенности страниц, тем самым повышает вероятность их обнаружения и индексации поисковым ботом.
  • Помогает индексации новых страниц.
  • Упрощает навигацию по сайту для пользователей.

Благодаря наличию гиперссылок HTML карта сайта в большей степени способствует индексации сайта нежели XML карта. Дело в том, что увеличение количества внутренних ссылок на страницу, а также снижение уровня вложенности повышают ценность страницы для Google.

Технические требования к sitemap HTML

На карту сайта в формате HTML не существует стандартов, поэтому вы можете создавать ее на свой вкус и под свои задачи. Тем не менее привожу перечень разумных требований:

  • Карта сайта должна быть структурированной, ссылки должны располагаться с той же логическую вложенностью, с которой они расположены в каталогах сайта.
  • Карта должна быть user-friendly и mobile-friendly.
  • Рекомендуется не более 1000-2000 ссылок на страницу (число условное, есть мнение, что Googlebot может обойти до 3000 Url на странице, чем больше ссылок, тем больше вероятность того, что бот не доберется до части из них).
  • Все страницы в карте сайта должны быть доступны для индексации и отдавать код 200 ОК.
  • Необходимо регулярно обновлять карту.
  • Ссылки внутри карты должны быть оформлены при помощи тега <a href=””></a>.
  • В качестве анкора ссылки используется название категории или страницы.
  • При наличии большого количества страниц и языковых версий сайта необходимы вложенные карты сайта (см. пример TripAdvisor).
  • При наличии большого количества подкатегорий внутри одной категории разумно использовать пагинацию, например, /sitemap/stationary?page=3.
  • Для сайтов с регулярно создаваемым контентом рекомендуется создать отдельную карту страниц, созданных сегодня, вчера или за последние 7 дней.
  • Ссылка на sitemap HTML ставится сквозняком в шаблоне всех страниц сайта, чаще всего в футере.
  • Указывать ссылку на sitemap HTML в robots.txt не надо.
Размещение ссылки на карту сайта в футере сайта
Размещение ссылки на карту сайта в футере сайта

Sitemap.txt

Sitemap.txt - текстовый файл с перечнем url. То есть это упрощенный sitemap.xml. TXT карта сайта также может состоять из индексного и конечных файлов, но при этом она должна содержать перечень url только HTML страниц.

В sitemap.txt должны быть только url html страниц без разметки
В sitemap.txt должны быть только url html страниц без разметки

TXT карту сайта редко используют, но все же она нужна в следующих случаях:

  • Сложности и проблемы с генерацией XML файла (TXT файл генерировать быстрее и проще).
  • TXT карты меньше весят и быстрее скачиваются. Актуально для очень крупных сайтов.
  • Дополнительный способ сообщить Google о доступных для индексации страницах. Актуально для крупных сайтов.
  • Сообщить Google о специфических страницах, которые в данный момент нельзя включить в XML версию.

Пример использования TXT карты сайта https://www.starbucks.com/sitemap.txt

Пример некорректного использования https://www.bmw.com/de/sitemap.txt

Технические требования к sitemap TXT

  • Аналогичны требованиям к XML версии, за исключением того, что не поддерживается XML разметка.
  • Поскольку речь идет о крупных сайтах, то рекомендуется генерировать отдельный текстовый файл со ссылками на страницы, созданные за последние несколько дней.
  • Не забываем добавить директиву Sitemap: https://domain.com/sitemap.txt в файл robots.txt.

Кейс с Sitemap.txt

У меня был интересный кейс с интернет-магазином на 150К страниц с проблемой индексации - в индексе было только 15-20К страниц. Одна из основных проблем была в том, что для Googlebot из блоков навигации и перелинковок отдавалась только меню, футер и пагинация. При этом индексация пагинации была запрещена canonical и Googlebot на эти страницы даже не переходил. Технические правки откладывались, но проблему надо было как-то решать. В итоге что было сделано:

  • Прогон платным индексатором страниц пагинации (Google Indexing API не давал существенного результата).
  • Размещен файл sitemap.txt с перечнем всех страниц пагинации.

В итоге уровень индексации 85-90% был достигнут за 1,5 месяца. Соответственно и трафик удалось увеличить в 2 раза.

Вывод

Для больших и сложных сайтов, при проблемах с индексацией обязательно используйте HTML карту сайта. Также для больших сайтов стоит создать и sitemap.txt, как дополнительный источник информации для Google о страницах, подлежащих индексации. Под недавно созданные страницы имеет смысл создать отдельную HTML и TXT карту сайта.

44
10 комментариев

Индексы в html всё актуальнее. Ресурсы на обход Гугл урезает, CMS умнее не становятся. А это - простой способ хоть от проблемы "сироток" избавиться или кривых настроек сканирования.

2
Ответить

Так нужна ли сквозная ссылочка на Карту сайта (html) в подвале или нет? Непонятно.

Ответить

Да, конечно, можете еще примеры посмотреть - везде ссылка сквозная

2
Ответить

По sitemap.txt впервые слышу. Подскажи где она должна размещаться, там же где и sitemap.xml? Как ее скормить гуглу, или он сам ее найдет. И далее если на сайте больше 150 000 страниц, как быть тогда делать 2 txt карты?

А так пост полезный информативный. Благодарю.

1
Ответить

Спасибо! Если что первоисточник тут, но подробностей там мало https://developers.google.com/search/docs/crawling-indexing/sitemaps/build-sitemap?hl=ru#text
Можно разместить в корневой папке сайта или где вам удобнее.
Гуглу лучше скормить вручную и добавить отсылку в robots.txt с директивой Sitemap
Ограничение на 50000 url для одного файла, поэтому можно сделать индексный файл sitemap.txt и в нем разместить ссылки на карты сайта, в каждой не более 50К url.
В общем-то можно разбить >150000 страниц на 4 txt карты и все 4 скормить Гуглу и указать в robots.txt. Все от проекта зависит, если на сайте часто появляются новые страницы, то конечно лучше делать индексный файл.
Есть еще вариант - собрать в sitemap.txt только непроиндексированные страницы и заодно посмотреть как он влияет на индексацию.

Ответить