У меня был интересный кейс с интернет-магазином на 150К страниц с проблемой индексации - в индексе было только 15-20К страниц. Одна из основных проблем была в том, что для Googlebot из блоков навигации и перелинковок отдавалась только меню, футер и пагинация. При этом индексация пагинации была запрещена canonical и Googlebot на эти страницы даже не переходил. Технические правки откладывались, но проблему надо было как-то решать. В итоге что было сделано:
Индексы в html всё актуальнее. Ресурсы на обход Гугл урезает, CMS умнее не становятся. А это - простой способ хоть от проблемы "сироток" избавиться или кривых настроек сканирования.
Так нужна ли сквозная ссылочка на Карту сайта (html) в подвале или нет? Непонятно.
Да, конечно, можете еще примеры посмотреть - везде ссылка сквозная
По sitemap.txt впервые слышу. Подскажи где она должна размещаться, там же где и sitemap.xml? Как ее скормить гуглу, или он сам ее найдет. И далее если на сайте больше 150 000 страниц, как быть тогда делать 2 txt карты?
А так пост полезный информативный. Благодарю.
Спасибо! Если что первоисточник тут, но подробностей там мало https://developers.google.com/search/docs/crawling-indexing/sitemaps/build-sitemap?hl=ru#text
Можно разместить в корневой папке сайта или где вам удобнее.
Гуглу лучше скормить вручную и добавить отсылку в robots.txt с директивой Sitemap
Ограничение на 50000 url для одного файла, поэтому можно сделать индексный файл sitemap.txt и в нем разместить ссылки на карты сайта, в каждой не более 50К url.
В общем-то можно разбить >150000 страниц на 4 txt карты и все 4 скормить Гуглу и указать в robots.txt. Все от проекта зависит, если на сайте часто появляются новые страницы, то конечно лучше делать индексный файл.
Есть еще вариант - собрать в sitemap.txt только непроиндексированные страницы и заодно посмотреть как он влияет на индексацию.