Моя компания занимается парсингом сайтов в России уже более трёх лет, ежедневно мы парсим порядка 500 крупнейших интернет-магазинов в России. Направление парсинга перспективно, т.к. информации все больше и всегда есть задача ее структурировать для последующего анализа.
Вообще тут достаточно двух функций из любого языка.
Функция забрать контент по ссылке и распарсить регуляркой.
https://www.php.net/manual/ru/function.file-get-contents.php
https://www.php.net/manual/ru/function.preg-match-all.php
Всё, изи.
Про CSRF, куки, токены, прокси, капчи, многопоточный парсинг, парсинг SPA и далее по списку не слышали или хотите сказать что парсить достаточно малоизвестные сайты, написанные на коленке?