Парсинг - «это не только ценный мех». Это целая вселенная для человека, умеющего мыслить. Я руководил проектом, где приходилось парсить прогнозы финансовых аналитиков США с ежегодной подпиской на сервис = 20 000$, а наши ребята использовали бесплатный Puppeteer https://pptr.dev/, копировали полный цифровой fingerprint, выпускали еженедельно карточку банковскую, регистрировали ее, платили 7$ и парсили неделю триала, и так год подряд. Эти же навыки использовали для самовыкупов на Wildberries. Автоматом регистрация нового юзера, поиск товара, покупка…
Я рукожоп, поэтому парсинг через XPath прям в Google Sheet ImportHTML. Удобно когда нужно спарсить было характеристики из карточек товаров на Wilberries, сразу перевести на английский не покидая гугл таблиц. И скопироват сразу в Request For Quotation Alibaba, чтобы китайские поставщики сразу тебе искали подобный товар по характеристикам.
@Максим Кульгин, есть супер лайфхак от Wildberries: хочешь защититься от парсинга: херачь в продакшен говнокод, постоянно меняй структуру html, переделывай на лету все:) И это доставляет боль парсеру, но правки на 5-10 минут обычно, просто обидно, когда снова какую-то мелочь поменяли и регулярки не срабатывают:)
Парсинг - «это не только ценный мех». Это целая вселенная для человека, умеющего мыслить. Я руководил проектом, где приходилось парсить прогнозы финансовых аналитиков США с ежегодной подпиской на сервис = 20 000$, а наши ребята использовали бесплатный Puppeteer https://pptr.dev/, копировали полный цифровой fingerprint, выпускали еженедельно карточку банковскую, регистрировали ее, платили 7$ и парсили неделю триала, и так год подряд. Эти же навыки использовали для самовыкупов на Wildberries. Автоматом регистрация нового юзера, поиск товара, покупка…
Я рукожоп, поэтому парсинг через XPath прям в Google Sheet ImportHTML. Удобно когда нужно спарсить было характеристики из карточек товаров на Wilberries, сразу перевести на английский не покидая гугл таблиц. И скопироват сразу в Request For Quotation Alibaba, чтобы китайские поставщики сразу тебе искали подобный товар по характеристикам.
@Максим Кульгин, есть супер лайфхак от Wildberries: хочешь защититься от парсинга: херачь в продакшен говнокод, постоянно меняй структуру html, переделывай на лету все:) И это доставляет боль парсеру, но правки на 5-10 минут обычно, просто обидно, когда снова какую-то мелочь поменяли и регулярки не срабатывают:)
Парсинг на регулярках - это сильно! Тем временем 22 год близится к концу.
тоже парсер пишу, бывает разметка с элементами вообще без атрибутов, вот это боль
:) спасибо.