robots.txt: настройки сканирования без бубна

Как показывает практика, база технического SEO – файл robots.txt, – многими вебмастерами не только заполняется неправильно, но и без понимания, зачем этот файл и как он работает. Статей на эту тему – объективно, тонны, но есть смысл расставить некоторые акценты.

robots.txt: настройки сканирования без бубна
3838

Яша часто подтупливает и кидает в индекс урлы с параметрами даже если есть каноникал.

Если стоит cloudflare или льется тьма трафа с utm в секции yandexbot надо дописать это:

Clean-param: __cf_chl_jschl_tk__ /*
Clean-param: __cf_chl_captcha_tk__ /*
Clean-param: __cf_chl_managed_tk__ /*
Clean-param: __cf_chl_tk /*
Clean-param: __cf_chl_f_tk /*
Clean-param: __cf_chl_rt_tk /*
Clean-param: utm

3

более того, яндекс возмущается и считает критической ошибкой наличие незакрытых гет-параметров. Хотя казалось бы, вот те каноникал, вот те карта сайта

4

каноникал как раз такие вообще не защищает от индексации, если вдруг будет много ссылок на страницы каноникала или она будет в карте сайта или случайно в переобход пустить, проиндексируется как миленька и еще все остальное с собой потянет. Закрывая в роботс страницы фильтрации прекрасно решается проблема с их индексацией. Автор конечно все правильно говорит, но это скорее как по учебнику, какая основная задумка роботс тхт, однако в реальной жизни люди используют роботс для того что бы запретить индексацию или выкинуть из индекса сразу кучу мусора и это вполне нормально.

2

Огромное спасибо! Недавно прилетело письмо с критической ошибкой от Веб-мастера. Стоит защита DDoS от CloudFlare.

Да, всё верно. С Clean-param - отдельная песня, тут тема на отдельную статейку по идее. Не хотел я отдельные директивы подробно разбирать, это лучше каким-то кейсом оформить, а у меня под рукой подходящего материала нет.