Простое соблюдение robots.txt во время парсинга может избавить вас от многих проблем. Хотя сам файл robots.txt не обеспечивает защиту от парсеров, некоторые веб-мастера просто блокируют любой IP-адрес, который делает много запросов на заблокированные в robots.txt страницы. К счастью, процент веб-мастеров, которые это делают, довольно мал. Если контент, который вам нужен, заблокирован robots.txt, вам, конечно, придется его проигнорировать. Но я настоятельно рекомендую вам уважать чужие правила, а то, что не запрещено в нем - разрешено. Старайтесь соблюдать инструкции robots.txt - это определенно может избавить вас от серьезных проблем.
2. Отсальные заголовки
Забавная опечатка
Спасибо)
Спасибо, полезная статья.
Расписано достаточно подробно