Внимательно изучите все страницы, которые так или иначе помечены как дубли – по тайтлам, по сходству контента и т.п. Вероятно, среди них действительно могут оказаться дубли и поисковый мусор. Дубли могут быть как чисто техническими (например, товары могут выводиться плиткой, а могут списком), а могут быть и качественными, когда полезного контента на странице недостаточно, и она похожа на другие страницы, такие же некачественные с точки зрения ПС. В данном случае вам предстоит решить, что делать: закрыть мусор от сканирования, запретить индексацию метатегом, или оперативно внести правки и отправить URL на переобход.
Яша часто подтупливает и кидает в индекс урлы с параметрами даже если есть каноникал.
Если стоит cloudflare или льется тьма трафа с utm в секции yandexbot надо дописать это:
Clean-param: __cf_chl_jschl_tk__ /*
Clean-param: __cf_chl_captcha_tk__ /*
Clean-param: __cf_chl_managed_tk__ /*
Clean-param: __cf_chl_tk /*
Clean-param: __cf_chl_f_tk /*
Clean-param: __cf_chl_rt_tk /*
Clean-param: utm
более того, яндекс возмущается и считает критической ошибкой наличие незакрытых гет-параметров. Хотя казалось бы, вот те каноникал, вот те карта сайта
каноникал как раз такие вообще не защищает от индексации, если вдруг будет много ссылок на страницы каноникала или она будет в карте сайта или случайно в переобход пустить, проиндексируется как миленька и еще все остальное с собой потянет. Закрывая в роботс страницы фильтрации прекрасно решается проблема с их индексацией. Автор конечно все правильно говорит, но это скорее как по учебнику, какая основная задумка роботс тхт, однако в реальной жизни люди используют роботс для того что бы запретить индексацию или выкинуть из индекса сразу кучу мусора и это вполне нормально.
Огромное спасибо! Недавно прилетело письмо с критической ошибкой от Веб-мастера. Стоит защита DDoS от CloudFlare.
Да, всё верно. С Clean-param - отдельная песня, тут тема на отдельную статейку по идее. Не хотел я отдельные директивы подробно разбирать, это лучше каким-то кейсом оформить, а у меня под рукой подходящего материала нет.
О! Годно, спасибо Виктор!
Про Clean можно еще отдельно...я вот часто закидываю в disallow все непонятное, если траф из Гугла на 70%, чтобы руками все не разбирать, когда за это не платят.
Может я и не прав.
Ну, я тоже Clean-param редко использую, необходимости нет чаще всего. Но если сайт активно рекламой двигается в Яндексе (да и вообще), там без этого никак.