2023 год: как преуспеть в парсинге сайтов и заработать все деньги мира (а это не просто)?

Здравствуйте, меня зовут Максим Кульгин. Моя компания xmldatafeed.com занимается парсингом много лет. Парсинг, в котором мы чуть-чуть преуспели и который обожают и ненавидят все предприниматели, меняется. Давайте взглянем с точки зрения прибыльности, законности, технических решений и мировых трендов на то, чем был парсинг раньше и чем он станет в обозримом будущем.

Напомню, что парсинг — это сбор данных, находящихся в открытом доступе.

За последние годы информация стала по сути настоящим золотом. Вместе с тем как наша жизнь всё в большей степени переходит в цифровую сферу — всё большие объемы информации оказываются доступными во всемирной сети. Неужели стоит удивляться тому, что огромное количество людей: исследователей, предпринимателей, журналистов и политиков — хотят урвать свой кусок от этого пирога?

Я веду свой телеграм-канал Русский ИТ бизнес, где без прикрас рассказываю о своем ежедневном негативном опыте по ведению нескольких бизнесов в России.
Подпишитесь, там интересно :)

Можно попробовать сравнить ситуацию сегодня, в июне 2023-го, с той, которая наблюдалась ровно год назад, в июне 2022-го.

Ситуация такова, что 40% трафика теперь уже приходится на роботов, а не на людей. Владельцам сайтов не нравится такое соотношение, они не приветствуют роботов на своих страницах — ведь созданные с таким трудом данные могут быть легко и бесплатно взяты и использованы кем-то ещё. И они противодействуют парсингу всеми доступными способами. Но и парсеры делаются умнее и хитрее, а значит, держателям информации приходится постоянно улучшать алгоритмы, защищающие от проникновения ботов.

Не все роботы, которые ломятся на сайты, заняты исключительно парсингом. Соответственно, изыскания по борьбе с ботами не всегда фокусируются на вещах, связанных с парсингом. Большинство подобных решений защищает веб-сайты от различного рода атак, стараясь не допустить отказов в работе или же предотвращая мошеннические действия, направленные против пользователей. Это, конечно, тоже актуальная проблема — 15% трафика связаны именно с разного рода вредительской деятельностью.

Разновидностью мошенничества, приносящей колоссальный ущерб предпринимателям, является использование ботов для злонамеренного скликивания рекламы. Многие даже и не догадываются о значительных потерях рекламного бюджета до тех пор, пока дела не приобретают масштаба полной финансовой катастрофы.

Одна из моих компаний clickfraud. ru занимается защитой от деятельности подобного рода. Если вы один из тех, кто размещает рекламу в интернете, то вам может пригодиться наша статья «Вас скликивают?», где можно узнать являетесь ли вы жертвой и получить больше информации на эту тему.

Осуществляя встречные меры против нашествия ботов, сайты так или иначе оказывают влияние и на инструменты парсинга. Современные программы для исследования сети вынуждены обладать полным набором средств обхода защиты от проникновения ботов.

Какие же способы противодействия «автоматизированным читателям» предлагает цифровая индустрия?

1. Использование ИИ и отпечатка браузера (browser fingerprints) уже стало отраслевым стандартом.

Поставщики решений по обеспечению информационной безопасности значительно продвинулись в своей деятельности и неустанно рождают новые подходы. В недалеком прошлом только топовые участники Веба могли управиться с отслеживанием отпечатков браузера. Сейчас этим занимаются все повсеместно, даже сайты «средней руки».

ИИ пережил настоящий бум в последние годы и теперь повсеместно внедряется для определения присутствия ботов.

Мы тоже занимаемся подобной исследовательской деятельностью, связанной с использованием ИИ для обнаружения ботов. Недавно даже получили грант по государственной поддержке наукоемких технологий. Если интересны подробности, можете ознакомиться с нашей статьей «23% — вероятность стартапу получить грант 4 млн от ФСИ. Подробнейшая инструкция».

ИИ играет важную роль для валидации браузерного отпечатка посетителя и выявления подозрительных паттернов в его поведении. С учетом всего этого современный парсинг всё больше опирается на автоматизацию браузера (или его заменителя).

Конечно, пока остаются сайты (они останутся и в будущем), которые можно просматривать любыми средствами, в том числе вообще без браузера (с помощью простых программ получения данных по сети, таких как curl и wget). В основном это некоммерческие информационные ресурсы. Однако, уже можно констатировать, что незатейливое роботизированное посещение сайтов, агрегирующих ценную информацию, осталось в прошлом.

2. Прокси-серверы так просто больше не работают.

Ещё одна тенденция последних лет, которую трудно не заметить, связана с прокси-серверами. Использование прокси — неотъемлемая часть парсинга. Традиционно их можно поделить на две группы: дата-центры и простые устройства для перенаправления трафика.

Прокси-серверы ЦОДов (ЦОД — центр обработки данных) размещаются в специализированных зданиях. Узлы же перенаправления трафика размещаются на любых локальных устройствах, таких как смартфон, маршрутизатор или ноутбук.

<p>Ферма для создания пула мобильных прокси.</p>

Технологически для определения использования ЦОД могут использоваться как пассивные, так и активные методы. Пассивные опираются в основном на специализированные базы данных, позволяющие определять принадлежность трафика к ЦОД на основе, например, IP-адресов. Активные методы более изощренные — они основываются на таких приемах, как измерение задержки или сканирование портов.

Были времена, когда определить перенаправление трафика через ЦОД было под силу лишь нескольким провайдерам. Но это в прошлом — сейчас всё упростилось и прокси-серверы, расположенные в ЦОД, определяются «на раз». Соответственно, весь трафик, проходящий через них, вычисляется и блокируется моментально.

3. Противодействие ботам однозначно затрагивает удобство пользователя.

Было бы идеально, если защита от автоматизированных систем только роботов и касалась. Но ирония в том и состоит — вся борьба ведется, чтобы определить «кто есть кто» — а значит, любой посетитель веб-сайта (независимо от того белковый он или кремниевый) будет страдать от всевозможных выяснений, защит и мер противодействия.

Накал страстей таков, что взаимодействие с сайтом становится порой полным кошмаром для пользователя. Кто из нас не доказывал, что он человек, разгадывая где «горы», а где «каньоны»⁈

Apple недавно представила Private Access Token — особенность их операционной системы, которая призвана избавить пользователей от ребусов. Пока эта технология используется только CloudFlare, но можно ожидать, что и другие производители операционных систем представят аналогичные решения. Если это сработает — «горы», «каньоны», «светофоры», «мотоциклы» и «телефонные будки» станут страницей истории.

Это бросит нетривиальный вызов всем, кто занимается парсингом, и заставит разработчиков ухитряться как-то генерировать подобные токены для ботов, чтобы те не теряли доступ к веб-сайтам, несмотря на изобретение «новой прорывной технологии защиты».

Но это дело не настоящего, а будущего. Пока нет никаких причин начинать надеяться (или отчаиваться — это уж кому как), что капча исчезнет за ненадобностью. Она по-прежнему остается самым простым и эффективным способом определить кто пришел на сайт: робот или человек.

4. Мобильные платформы включаются в борьбу. Не на стороне парсинга, разумеется.

Говоря о парсинге, нельзя не сказать об использовании мобильных приложений для этого. В прошлом противодействия использованию для целей парсинга мобильных приложений носили несистемный характер.

Теперь же, воротилы мобильной индустрии во всю работают над контрмерами по предотвращению парсинга. Наиболее распространенный прием — генерирование уникального отпечатка устройства, основанное на антропометрии (определение манеры движения пальцев по экрану смартфона) и использовании датчиков. Это затрудняет парсинг, но не делает его невозможным.

5. Требование регистрации везде, где это только возможно.

Чтобы защитить сайт от парсинга, надо не пускать на него ботов. А что для этого может быть лучше, нежели древняя, как интернет, технология входа через логин⁈

Подделать логин невозможно, надо заводить для ботов новые регистрации. А это сопряжено со множеством неудобств, таких как добыча нового телефонного номера, генерация правдоподобных паспортных данных и так далее.

Всё больше сайтов, обладающих ценным содержимым, прячут его от неавторизованных пользователей. Простым людям здесь несколько упрощает жизнь то, что на новые тенденции отреагировали сервисы и расплодилось множество центров идентификации пользователей. Теперь на подобные сайты можно легко войти через аккаунт Google, Yandex, TinkoffID и тому подобных.

Это тоже не абсолютная защита, поскольку здесь всё не так просто в силу особенностей различных юрисдикций.

1. Самый популярный язык для парсинга.

2023 год не сделал революции (она и не ожидалась) и все, кто пытался программировать парсирующих ботов, уже знают ответ.

Да, Python остается самым популярным языком для работы с парсингом данных. Его популярность в том числе основана и на том, что он хорош не только для описания алгоритмов сбора данных, но и для их дальнейшей обработки и анализа.

Здесь трудно даже подобрать какое-то иное, конкурирующее решение. Весь научный мир использует Python для работы с данными. Есть множество великолепных специализированных инструментов — один Jupyter Notebook чего стоит!

Такая популярность языка несет и ещё одно практическое преимущество — наличие огромного количества уже наработанного кода, доступного в открытых хранилищах, таких как GitHub — кода, который можно свободно использовать в своих целях.

Python в большой степени популярен благодаря своему синтаксису: он прост, легок для чтения и понимания (насколько это возможно для компьютерной программы), что делает его идеальным выбором не только для ученых, но и для новичков.

Когда Python используется со специализированными библиотеками для парсинга, получается очень эффективное сочетание богатства возможностей и простоты. Нужно ли удивляться его популярности у занимающихся парсингом?

2. Самая популярная библиотека для парсинга.

Ответ, конечно, будет зависеть от используемого языка.

Если продолжить говорить про Python, то самым популярным инструментом будет Scrapy — 45 тыс. звезд на GitHub, никакая другая библиотека и близко даже не стоит.

Есть хорошие новости и для тех, кому нравится JavaScript.

Ещё год назад Crawlee выпустил полнофункциональную библиотеку для парсинга, ориентированную на разработчиков, использующих Node. js. Она с открытым исходным кодом, имеет полную поддержку TypeScript, основана на топовых популярных библиотеках Node. js, таких как Got Scraping, Cheerio, Puppeteer и Playwright, получила 7,5 тыс. звездочек на GitHub. Все основные возможности, необходимые в парсинге, присутствуют: ротация отпечатков, очереди URL, автомасштабирование, работа с хранилищами данных и прочее.

3. Браузеры с машинным интерфейсом.

Поскольку теперь становится чрезвычайно тяжело парсить данные без использования браузера, лучшими (а иногда и незаменимыми) средствами автоматизации в Вебе становятся браузеры с машинным интерфейсом (headless browsers, дословно «безголовые»). Наиболее известные: Selenium, Puppeteer, и Playwright.

Selenium — самый популярный, поддерживает множество языков программирования, включая Python, JavaScript (Node. js), Ruby, Java, Kotlin, C#.

Puppeteer — библиотека, написанная Google для использования с Node. js, предоставляет высокоуровневое API для манипуляции браузером Chrome.

Playwright — относительно новая библиотека, завоевавшая популярность за свои возможности, отвечающие современным требованиям: поддержке разных браузеров, языков программирования и простоте использования.

Без использования подобных библиотек о парсинге промышленного уровня сегодня можно и не мечтать, особенно если ориентироваться на сайты, формирующие содержимое «на лету», прямо в браузере клиента.

Как сообщает Google, за последние 10 лет частота запросов, связанных с парсингом данных, возросла троекратно.

Если взглянуть на аналитику в открытом доступе (представленную Opimas), то можно не только увидеть интересные цифры и тенденции, но и оценить прогнозируемость ситуации на рынке данных.

По оценкам, сделанным в 2018 году, к 2020-му общая сумма затрат на парсинг должна была составить 7 млрд. долларов. Однако, графики трендов, опубликованные в 2022 году, начинались лишь с 3 млрд. долларов для 2020 года.

А куда же пропали обещанные 4 млрд. долларов?

Какова мораль данной истории? Возможно, аналитика в 2022 году стала более точной и реалистичной по сравнению с 2018-м. Возможно, ситуация, связанная с событиями 2019−2022 гг., существенно повлияла на рынок. Возможно, мы вообще не должны ждать многого от любых предсказаний.

И тем не менее кое-что полезное — чему можно доверять и на что опираться — из прогнозов всё-таки извлечь можно.

1. Парсинг — это абсолютный минимум.

Такие термины, как: «поставщики веб-данных», «каналы передачи данных», «данные как услуга», «дата-провайдеры» — всё больше и больше распространяются в сообществе тех, кто занимается парсингом. Что, в свою очередь, очень быстро приводит к двум очевидным выводам:

происходит некоторый ребрендинг парсинга, что говорит о переходе индустрии на новый уровень;
этот процесс успешен и происходит повсеместно — извлечение данных становится новой основой для развития рынка.

Предоставление высококачественных обработанных данных — ещё одна «новая нормальность». Ярким примером может служить запуск израильской Bright Data сервиса по выдаче готовых наборов данных.

Перед всеми, занимающимися парсингом, прогресс ставит новый вопрос: «Что еще вы можете предложить кроме собранных данных?» А это приводит нас к следующей тенденции.

2. Требуется полный цикл.

Всё чаще требуется полный цикл получения и обработки данных. Чем большинство ключевых игроков на рынке в настоящее время и занимается — стараются предоставить клиенту все услуги, связанные с веб-данными, охватывая весь их жизненный цикл.

Это объясняет многочисленные слияния и поглощения, произошедшие в течение последнего года, направленные на создание и поддержание всесторонней экосистемы парсинга.

Некоторые компании, такие как Oxylabes, еще больше расширяют свои сервисы, войдя в 2023 год с внедрением Web Unblocker. Другие, такие как та же Bright Data, запустили инструменты анализа рынка, приобретя Market Beyond. Zyte использовали иной подход — предоставили полноценное API-решение «все в одном».

Все эти шаги говорят об одном: компании, занимающиеся парсингом, поняли: наступил поворотный момент в истории — надо становиться чем-то большим, нежели просто добытчиками данных из интернета.

3. Новые игроки.

Помимо хорошо известных имен на рынке теперь есть и новые участники: ZenRows, The Codery API, ScrapeIN, Windmill, Browse AI — ещё недавно о них ничего не было слышно, это совершенно новые игроки, а не просто результат ребрендинга (как например, CrawlBase, которые раньше назывались ProxyCrawl).

Кроме того, на рынок выходят и те, кого там совсем не ожидали увидеть — веб-автоматизация от CloudFlare, главного борца против парсинга. Как вам такое⁈

В новостные ленты парсинг попадает редко, в основном из-за скандалов и судебных баталий. Но и здесь всё меняется. В прошлом году было довольно много разных причин, по которым парсинг попадал в основные СМИ.

1. Инстаграм и арт-проект.

Художник Дрис Депуртер объединил данные, собранные из Instagram (запрещен в РФ) и видео с открытых камер наблюдения — то есть тем самым превратил парсинг в арт-проект. Очень быстро это изобретение стало вирусным, породило массу обсуждений и выползло на страницы мировых медиа.

Дрис сопоставил опубликованные в Instagram фотографии влиятельных людей с онлайн-видеозаписью из тех же мест и в то же время. Сравнение показало, что за кулисами идеальных сценок в Instagram часто бывает неинтересно и тривиально.

Созданное программное обеспечение умело распознавать лица и объекты. Дрис использовал его, в том числе, чтобы оценить, как много рабочего времени бельгийские представители власти проводят за смартфонами.

Забанен он был очень быстро. Формальные претензии сводились к нарушению авторских прав. Влиятельные персоны сочли, что такое вторжение в их частную жизнь совершенно недопустимо.

2. Проверка Твиттера в поисках доказательств (Депп против Хёрд).

Парсинг сыграл важную роль в процессе о диффамации Джонни Деппа против Эмбер Хёрд в качестве метода расследования.

Директор исследовательской группы Berkeley Research Group Рон Шнелл подробно рассказал о том, как он использовал API Твиттера для поиска хэштэгов, чтобы показать всплеск негативных настроений по отношению к Хёрд сразу после того, как тогдашний адвокат Джонни Деппа Адам Уолдман назвал все обвинения обманом. Целью парсинга Твиттера было предоставление доказательств того, что комментарии Уолдман нанесли ущерб ее актерской карьере.

3. Даже робот Google обучается парсингу.

Wired отметила впечатляющий прогресс у Google в части машинного обучения для понимании языка.

Робот Google научился корректно распознавать простые запросы, заданные в форме естественного языка, а не в формализованном стиле «Привет, Сири!» Как они этого добились? Использовали миллионы веб-страниц для обучения нейросети. Ученые, занимающиеся машинным обучением, решили заменить огромные наборы данных на спарсенный веб-текст и получить робота, который на удивление легко понимает обычную речь.

В СМИ отмечалось, что эти достижения были бы невозможны без использования технологий парсинга.

Трудно с уверенностью предсказать главные тренды в парсинге, которые народятся в будущем, ясно одно — индустрия данных живет и развивается. Рассмотрим, что и как может повлиять на прогресс.

1. Социальные сети и коммерция.

Нет никаких сомнений, что парсинг социальных сетей и сайтов электронной коммерции останется популярным и в дальнейшем.

Несмотря на частичное внедрение дополнительных логинов и средств защиты от ботов, парсинг ВКонтактика и других социальных сетей по-прежнему пользуется большим спросом для маркетинговых исследований, мониторинга брендов и отслеживания настроений в обществе.

Парсинг социальных сетей может помочь даже в мелочах: например, определить наилучшее время для публикации, чтобы контент получил максимальных охват аудитории.

Анализ данных сайтов электронной коммерции никуда не денется — всем нужно знать цены, информацию о товарах, отслеживать инициативы конкурентов.

Однако парсинг таких сайтов становится всё более и более сложной задачей, требующей использования больших ресурсов, что неминуемо ведет к удорожанию услуг. Пока борьба идет с переменным успехом: все методы противодействия парсингу удается обходить. Вопрос в цене.

Например, iHerb настолько изощренно затрудняет сбор информации, что некоторые наши клиенты передумывают: или скорость оказывается недостаточно высокой для воплощения их предпринимательских идей или стоимость не устраивает.

Несмотря на все трудности, парсинг социальных сетей и сайтов электронной коммерции останется популярной тенденцией и в этом году, и в дальнейшем. Преимущества, которые дает парсинг, перевешивают все трудности и проблемы, а спрос продолжает расти.

2. Повышение внимания к конфиденциальности.

Мировой тренд таков, что штрафы за нарушение конфиденциальности растут, а судебные баталии продолжают продвигать прецедентное право по парсингу. Сейчас заговорили об «этичном парсинге» — это прямо-таки тренд 2023 года и горячая тема тематических конференций.

Вопросы законности чрезвычайно важны для компаний, занимающихся парсингом и работающих официально в своих юрисдикциях. Клиенты, заказывающие парсинг, тоже иногда задаются этим вопросом. Не отстают и простые пользователи интернета: «Законен ли парсинг?» — один из самых частых запросов по по теме парсинга, который задают поисковикам.

Индустрия парсинга — один из тех редких видов бизнеса, законность которого постоянно ставится под сомнение. Дискуссии будут длиться ещё долго. Один только вопрос «кому принадлежат данные» чего стоит⁈

Сайты, которым парсинг не выгоден, очевидно, продолжат упорствовать всеми имеющимися силами. Блокировка IP-адресов, требования авторизации с использованием телефонного номера, средства искусственного интеллекта для выявления поведенческих паттернов (напомню, мы получили грант на дальнейшее развитие подобной разработки), совершенствование методов получения отпечатка браузера — это то, с чем все сталкиваются уже сейчас.

На очереди — дактилоскопия. Вот так постепенно биометрия становится обыденностью. Ещё пока держатся последние бастионы в виде местных законодательств и воплей правозащитников, но очевидно всё это скоро рухнет под натиском глобальных корпораций. Трудно предсказать последствия криминализации биометрических данных простых людей.

Ясно одно: все эти меры противодействия парсинг не остановят. В конце концов, если система обработки биометрии будет единой в глобальном масштабе — просто появятся фермы биометрии в странах с низким уровнем жизни, как сейчас есть фермы по разгадыванию капчи.

3. ИИ, ChatGPT и парсинг.

За последние несколько месяцев отношение к искусственному интеллекту кардинально изменилось. Все постепенно перешли от бури эмоций к обсуждению способов того, как новые технологии могут выполнять реальную работу.

Как насчет парсинга? Что могут предложить нейросети на этом поприще? Получится автоматизировать парсинг?

Обыватель склонен переоценивать текущие возможности искусственного интеллекта, что приводит к распространению вводящей в заблуждение информации или ошибочного программного кода, порожденного нейросетью.

StackOverflow быстро запретил ChatGPT после потока бессмысленных ответов.

Для искусственного интеллекта парсинг в общем случае является неподъемной задачей. Именно поэтому общедоступных средств парсинга, основанных на ИИ, пока не наблюдается.

Да, есть попытки разной степени успешности. Тот же ChatGPT может помочь составить XPath и регулярные выражения. Есть инструменты для генерации отпечатков. Но для промышленного парсинга этого не достаточно. Требуется сложная управленческая работа, масштабирование, организация ферм из мобильных прокси, креатив для обхода хитрой защиты, уже не говоря о работе с клиентами — никакой ChatGPT на это не способен и в обозримом будущем способен не будет.

Все разговоры о том, что ChatGPT заменит каких-то специалистов ведутся исключительно теми, кто далеко отстоит от предметной области и кому профессиональная деятельность представляется сильно упрощенной.

Всё вышесказанное никак не отрицает того, что мы являемся свидетелями настоящего прорыва в области ИИ. Все доступные инструменты, основанные на использовании нейросетей, конечно же, нужно применять в повседневной работе, в том числе и для извлечения данных.

Так получится ли заработать на парсинге? Вполне! В 2022 году мы заработали ~20 млн. рублей.

Где можно почитать больше? Я веду телеграм-канал «Русский ИТ бизнес», где без прикрас рассказываю о нашей деятельности по сбору данных, об успехах в развитии нашего искусственного интеллекта для обнаружения ботов и обо всём, что связано с предпринимательской деятельностью. Всё без маркетинговой шелухи, коротко и по делу.

Тема очень животрепещущая, приглашаю делиться мыслями в комментариях.

49 комментариев

Александр Орлов

18.06.2023

"Будущее парсинга... индустрия данных живет и развивается..". Много альтернативно одаренных людей среди фанатов парсинга. Как бы и в мыслях нет почитать про API Economy, подумать и написать, что данные лучше бы получать по API, что открытые API становятся мировым трендом, что индустрия данных уже пожила и развилась в API Economy, и когда-нибудь в будущем это прикончит парсинг повсеместно. Если бы не было сейчас, или не станет в будущем, искуственных препонов для свободного использования API, то нафиг парсинг, извращение какое-то рыться в сайтах.
Знаю довольно много людей, которые парсят сайты билетных операторов И они даже не пробовали заключить договор и пользоваться API, например нашим - https://bil24.pro/api.html . Заметьте, для того чтобы начать, не нужно ровно никакой регистрации Все данные для доступа к тестовой зоне есть в документации. Но..."Мыши плакали, кололись, но продолжали есть кактус". Видимо девиз "вся жизнь борьба и преодоление" - это про парсинг)

https://bil24.pro/images/slide8_v2_31.png

Ответить

Вадим Чиняев

19.06.2023

парсер - свой, апи - чужое. вроде простые вещи
расскажите про тренды аполо или тем кто нейронки на стаковерфлоу обучает.

пц я понимаю желание продать свой продукт, но зачем за дурачков то считать клиентов. Вполне есть другие способы рекламы

Павел Шкутко

Сам парсю, но не люблю когда парсят меня, поэтому блочу наглецов. Наверное это что-то из психиатрии :)

Максим Кульгин

Автор

Аналогично ))

Владимир Воловцев

Аналогично! Но я бы не сказал, что психически неуравновешен, просто каждый должен развивать свои проекты и проводить анализ статистики.

Tim Cookie

Ну это база)) Сам могу себе это позволить, а другим нельзя

Вячеслав Гримальский

Отличная статья. Как поступаете с тем, что многие сайты в пользовательском соглашении пишут, что нельзя парсить? Игнорируете и парсите, или объясняете клиентам "нас просят не парсить, мы не парсим"?

2023 год: как преуспеть в парсинге сайтов и заработать все деньги мира (а это не просто)?

Как защищаются от парсинга в 2023 году

Языки и библиотеки

Обзор рынка

Парсинг становится мейнстримом

Будущее парсинга: тенденции и предвидение