20 млн рублей в год на парсинге сайтов. Часть 2

Меня зовут Максим Кульгин, моя компания xmldatafeed занимается парсингом сайтов в России порядка четырёх лет. Ежедневно мы парсим более 500 крупнейших интернет-магазинов в России. Теперь делимся опытом.

20 млн рублей в год на парсинге сайтов. Часть 2
88

Парсинг - «это не только ценный мех». Это целая вселенная для человека, умеющего мыслить. Я руководил проектом, где приходилось парсить прогнозы финансовых аналитиков США с ежегодной подпиской на сервис = 20 000$, а наши ребята использовали бесплатный Puppeteer https://pptr.dev/, копировали полный цифровой fingerprint, выпускали еженедельно карточку банковскую, регистрировали ее, платили 7$ и парсили неделю триала, и так год подряд. Эти же навыки использовали для самовыкупов на Wildberries. Автоматом регистрация нового юзера, поиск товара, покупка…

Я рукожоп, поэтому парсинг через XPath прям в Google Sheet ImportHTML. Удобно когда нужно спарсить было характеристики из карточек товаров на Wilberries, сразу перевести на английский не покидая гугл таблиц. И скопироват сразу в Request For Quotation Alibaba, чтобы китайские поставщики сразу тебе искали подобный товар по характеристикам.

@Максим Кульгин, есть супер лайфхак от Wildberries: хочешь защититься от парсинга: херачь в продакшен говнокод, постоянно меняй структуру html, переделывай на лету все:) И это доставляет боль парсеру, но правки на 5-10 минут обычно, просто обидно, когда снова какую-то мелочь поменяли и регулярки не срабатывают:)

13
Ответить

Парсинг на регулярках - это сильно! Тем временем 22 год близится к концу.

3
Ответить

тоже парсер пишу, бывает разметка с элементами вообще без атрибутов, вот это боль

2
Ответить

Я не совсем понял, можно подробнее? Что за цифровой отпечаток, как выпускали банковскую карточку (вы разве банк)...короче ничего не понял, но очень интересно

Ответить

:) спасибо.

Ответить