Как парсить сайты с авторизацией (401 Unauthorized) в Screaming Frog

Иногда возникают сложности с парсингом сайтов, которые придумывают различные элементы защиты от парсинга, делимся наработками.

Как парсить сайты с авторизацией (401 Unauthorized) в Screaming Frog

1.Берем Cookie

  • Переходим на главную страницу сайта, который хотим спарсить.
  • Открываем консоль браузера (F12) и переходим во вкладку “Сеть” (Network).
  • Обновляем страницу, кликаем на фильтр “Doc” и в столбце “Name” выбираем файл с доменом.
  • Во вкладке “Headers” пролистываем вниз до строки “Cookie” и копируем их.

2. Настраиваем Screaming Frog

  • Заходим в настройки Configuration > Crawl Config > HTTP Header.
  • Добавляем новое поле и выбираем в нем Cookie.
  • Вставляем скопированные с бразуера Cookie в поле “Header Value” нажимаем ок и парсим сайт.
2
Начать дискуссию