Helium Scraper — другое ПО, которое можно использовать для парсинга веб-сайтов при отсутствии навыков программирования. Вы можете собирать сложные данные, определяя свои собственные действия, выполняемые при парсинге. Кроме того, если вы разработчик, то можете запускать на выполнение свои файлы с JavaScript-кодом. Благодаря несложной организации работы, Helium Scraper не только удобен в использовании, но и позволяет быстро выполнять нужные операции благодаря простому и логичному интерфейсу. Кроме того, Helium Scraper — ПО для парсинга, предоставляющее множество функций, включая планирование парсинга, ротацию прокси-серверов, управление текстом, вызовы API и прочее.
В общем я тут ходил на собес в одну ирландскую компанию которая занимается парсингом данных. У них вакансия была QA data инженер. В общем надо смотреть что там напарсил их парсер и находить где он херово работает. Причем компания довольно таки больших масштабов.
у нас выделенный человек занимается проверкой итогов парсинга ежедневно. и ежедневно что то ломается
"в формате Excel/CSV" мне кажется в серьезных компаниях такие форматы не нужны, там будет нужен json xml либо целиковая база данных реляционная. Или вы так не умеете?
умеем. но чаще просят CSV/XML. из опыта
имхо обычно достаточно выгрузки dump.sql
Как раз наоборот. Да, у CSV есть боль с массивами, но остальные форматы содержат нехеровое кол-во утиля.
Парсить в базу это последнее до чего можно додуматься.
А есть ли выгода продавать уже готовые данные? Кто в теме подскажите где продавать