Привет! Последнее время всё чаще начал сталкиваться со сканирование больших сайтов (от 1 млн страниц), а также встретился со множеством заблуждений от людей, которые этим никогда не занимались. Этот пост не про то, зачем вам парсить сайт, вы наверняка знаете, а про то, как не бояться этого делать и правильно всё настроить.
Этот пост не про то, зачем вам парсить сайт, вы наверняка знаетеА тем, кто наверняка в 1-й раз об этом слышит (хотя и имеет представление о SEO), объясните, зачем?
Парсинг сайта для последующего анализа позволяет провести почти полный технический аудит: обнаружить дубли, проблемы сервера, битые ссылки, пустые страницы, проверить возможность доступа поисковых ботов к каким-то страницам и разделам и т.п.
Классический пример: у вас целый раздел с товарами не ранжируется и не сканируется. В панелях вебмастеров об этом практически никакой полезной информации нету. Смотрим скан - и видим кольцевое перенаправление. То есть робот фактически не может дойти до целевой страницы.
Ну или у вас полсайта отдаёт 404 из-за битых внутренних ссылок, и роботу просто не хватает ресурсов, чтобы ходить не по битым ссылкам, а по реальным и важным для вас.
Задач у парсинга много, начиная от поиска ссылок и их местонахождения на 301, 404 страницы, страниц с дублями метатегов (тайтлы, дескрипшены) и анализом структуры сайта, заканчивая выгрузкой URL страниц для сравнения с анализом логов сервера, опять же с целью найти, например:
- страницы, которые есть на сайте, но на которые не заходят боты;
- страницы, на которые заходят боты, но нет в структуре (нет ссылок на них с сайта);
- страницы, которые есть в индексе, но на которые нет ссылок и на которые не заходят боты
Вариантов множество, но инструмент маст хев, особенно для больших ресурсов.