20 млн рублей в год на парсинге сайтов. Часть 2

Меня зовут Максим Кульгин, моя компания xmldatafeed занимается парсингом сайтов в России порядка четырёх лет. Ежедневно мы парсим более 500 крупнейших интернет-магазинов в России. Теперь делимся опытом.

20 млн рублей в год на парсинге сайтов. Часть 2
8888

В статье не указан метод блокировки по tls, отпадут все любители парсить сайт через node / python. Каких подавляющее большинство. TCP fingerprint можно тоже туда же. Щас много вариантов определить ботов и хэдлесс браузер. Соответственно можно свести все к тому, что Парсинг станет слишком затратным для людей.

2
Ответить

Так это только поднимет цену на данные и уберет с рынка аматоров =). Даже если будет какой-то очень эффиктивный способ определять ботов, я видел как-то ферму китайской компании по фарму в мобильных играх, шкафы с несколькими тысячами дешевых, но мощных телефонов. Ничего не мешает собрать такую ферму для парсинга xD

1
Ответить

Владислав, подскажите с помощью какого стека тогда лучше парсить, чтобы обходить указанные блокировки? у меня небольшой проект для личных целей, вот уже третий день выбираю инструменты.

Ответить