Парсим сайты с защитой от ботов

В этой статье мы разберемся, как работает типичная защита от роботов, рассмотрим подходы к автоматическому парсингу сайтов с такой защитой, и разработаем свое решение для её обхода. В конце статьи будет ссылка на гитхаб. Статья большая, будет и верхнеуровневый обзор, и погружение в технические детали, и программный код.

55

Зачем мучиться с xvfb, когда давно есть возможность запускать хром в headless режиме.

Ответить

headless изи детектится от простых методов, до сложных (отрисовка сложного webgl canvas-а)

1
Ответить