В этой статье мы разберемся, как работает типичная защита от роботов, рассмотрим подходы к автоматическому парсингу сайтов с такой защитой, и разработаем свое решение для её обхода. В конце статьи будет ссылка на гитхаб. Статья большая, будет и верхнеуровневый обзор, и погружение в технические детали, и программный код.
Зачем мучиться с xvfb, когда давно есть возможность запускать хром в headless режиме.
headless изи детектится от простых методов, до сложных (отрисовка сложного webgl canvas-а)