{"id":14273,"url":"\/distributions\/14273\/click?bit=1&hash=820b8263d671ab6655e501acd951cbc8b9f5e0cc8bbf6a21ebfe51432dc9b2de","title":"\u0416\u0438\u0437\u043d\u044c \u043f\u043e \u043f\u043e\u0434\u043f\u0438\u0441\u043a\u0435 \u2014 \u043e\u0441\u043d\u043e\u0432\u043d\u044b\u0435 \u0442\u0440\u0435\u043d\u0434\u044b \u0440\u044b\u043d\u043a\u0430 \u043d\u0435\u0434\u0432\u0438\u0436\u0438\u043c\u043e\u0441\u0442\u0438","buttonText":"","imageUuid":""}

Парсинг бесплатно: 30 программ, сервисов и фреймворков

В этой статье расскажу про программы, сервисы и фреймворки для парсинга, которые позволяют собирать данные бесплатно. В подборке представлены как полностью бесплатные инструменты, так и инструменты, предоставляющие ограниченный бесплатный период либо ограниченную функциональность, но в любом случае дают возможности, которых может хватить для решения тех или иных задач.

Парсинг – это автоматизированный процесс сбора данных с сайтов, применяется для сбора контента: цен конкурентов, описаний товаров, контактов для лидов, отзывов и рейтингов, файлов и для любых других задач, когда нужно собрать большой объем информации.

Условно инструменты для парсинга разделяются на две части. Одна из них – это разработка парсинга под задачу, этим занимаются программисты, которые часто используют разные языки программирования, например, Python или JavaScript, чтобы тщательно продумать логику будущего скрипта до деталей, что требует времени и вычислительных ресурсов, но в конечном итоге дает наилучшие результаты. Задачи при таком подходе решаются точно, как нужно, можно собирать данные с необходимыми условиями, скоростью и объемами.

Другая часть - непрофессиональные пользователи, которым приходится выбирать между множеством существующих парсеров, программ или сервисов, каждый из которых включает набор готовых команд и ограничен реализованной функциональностью. Это часто вынуждает пользователей тратить время и деньги на изучение нескольких инструментов в попытке охватить широкий спектр возможных сценариев парсинга сайтов.

Программы для парсинга

Программы стоит выбирать, если вам нужно простое решение с быстрым стартом, не требующее знаний языков программирования. Конечно, использование программ не позволит решить любой кейс и возможности самих программ различны, но тем не менее это отличное решение для простых задач.

1. Screaming Frog SEO Spider

Screaming Frog SEO Spider – популярная программа, специализирующаяся на работе с SEO данными, имеет широчайший функционал для аудита сайтов, полное перечисление возможностей программы займет не одну страницу. При первом знакомстве интерфейс программы может показаться громоздким из-за множества вкладок и окон, но поработав некоторое время становится понятно, что он удобен, вкладки позволяют получить быстрый доступ к отчетам, окна удобно структурируют результаты парсинга.

В бесплатной версии программа предоставляет следующие возможности:

  • Поиск нерабочих ссылок и редиректов;
  • Сбор заголовков и метаданных;
  • Просмотр robot.txt;
  • Аудит атрибутов hreflang;
  • Обнаружение дубликатов страниц;
  • Просмотр Sitemap.

Бесплатная версия ограничена возможностью парсить до 500 URL адресов на сайте и если ваши потребности вписываются в ограничения программы, то внимательно присмотритесь к данному продукту. Screaming Frog быстр в работе, в силу популярности на эту программу написано множество обзоров и разобраться в базовом функционале не составит труда.

Полная версия программы предоставляет возможность парсить не только SEO данные, но и любую другую информацию с сайтов используя XPath (XML Path Language) — язык запросов к элементам XML-документа.

Возможности:

  • Быстрая работа;
  • Бесплатного функционала хватит для аудита среднего сайта;
  • Хорошо документирована;
  • Имеет базу туториалов рассказывающих как работать с различными кейсами.

Доступные OS:

  • Windows
  • macOS;
  • Ubuntu.

2. Easy Web Extract

Easy Web Extract дает массу возможностей, позволяющих собирать данные как с простых, так и со сложных сайтов. Программа не требует углубленных знаний программирования для настройки сбора данных, специальный мастер проведет вас по шагам в настройке шаблона парсинга, а для того, чтобы быстро разобраться с настройкой есть видео уроки. Одна из особенностей - вы можете запрограммировать автоматический поиск для определенных товаров и производить сбор только нужных данных. Еще одна особенность программы – сбор в несколько потоков, до 24 различных веб-страниц, это позволит сэкономить ваше время парсинга. Обратная сторона быстрого парсинга – блокировка вашего ip со стороны сайта из-за подозрительной активности, будьте аккуратны.

Некоторые сайты используют методы динамической загрузки данных на стороне клиента для создания асинхронных запросов. Такие данные проблема для простых парсеров, поскольку веб-контент не встроен в исходный HTML код. Easy Web Extract заявляет о возможности сбора таких данных, при тестировании программа справилась не со всеми сайтами, вам нужно проверить эту фичу на нужных вам сайтах.

Ограничения бесплатной версии:

  • Доступна 14 дней;
  • Парсит только первые 200 результатов;
  • Экспортировать можно только первые 50 результатов.

Остальной функционал парсера доступен в бесплатной версии, программу можно использовать для сбора небольших объемов.

Возможности:

  • Многопоточность;
  • Автоматизированный поиск;
  • Наличие шаблонов для сбора;
  • Видео уроки для быстрого старта;
  • Работа с динамическим содержимым.

Доступные OS:

Программа доступна только под Windows. Так же для работы требуются .NET frameworks 2.0 и Internet Explorer 9.0.

3. FMiner

FMiner – инструмент для парсинга сайтов, работа которого построена на записи ваших действий и последующем воспроизведении записанных сценариев. Созданные таким образом последовательности действий (макросы), можно редактировать в визуальном формате, что позволяет использовать инструмент без знания языков программирования.

Программа работает с динамически подгружаемыми данными (AJAX), поддерживает работу с несколькими потоками, позволяет работать с результатами поиска и несколько выходных форматов. Программа имеет видеоуроки для быстрого старта, но страницы с мануалами не работают и последние обновления на сайте датированы 2015 годом, что говорит о том, что разработчик не следит за продуктом, но установочные файлы доступны и можно загрузить билд для бесплатного использования полнофункциональной версии программы в течении двух недель.

На сайте есть раздел с документацией, рассказывающий в краткой форме возможности и основы работы с программой.

Ограничения бесплатной версии:

  • Доступна полнофункциональная версия программы на 14 дней;

Возможности:

  • Визуальное программирование и редактирование парсинга;
  • Многопоточность;
  • Работает с результатами поиска;
  • Работа с AJAX;
  • Видео уроки для быстрого старта.

Доступные OS:

  • Windows;
  • Mac OS X.

4. Helium scraper

Helium scraper – еще одна программа для парсинга данных с сайтов. Принцип работы с программой похож на работу с FMiner, только вместо визуального представления планируемых действий программа выводит код. В целом интерфейс при первом знакомстве не такой понятный как у предыдущих программ, но программа предлагает видеоуроки и базу знаний, которые помогут быстро разобраться с основами рабочего процесса.

По функциональности программа похожа на рассмотренные выше, но имеет ряд особенностей. Одно из ключевых заявленных отличий, это возможность работать с базами данных, до 140 Терабайт, конечно это не означает, что другие программы не осилят работу с большими базами данных, но, если планируете собирать много данных, стоит присмотреться к Helium scraper. Еще одна особенность — это возможность работы с API, вы сможете интегрировать запросы в свой проект.

Ограничения бесплатной версии:

  • Доступна полнофункциональная версия программы на 10 дней;

Возможности:

  • Визуальное редактирование;
  • Многопоточность;
  • Работает с результатами поиска;
  • Работа с динамически подгружаемыми данными;
  • Ротация прокси;
  • Возможность блокировки изображений или нежелательного контента;
  • Видео уроки и база знаний;
  • Возможность работать с API;
  • Планировщик.

Доступные OS:

Программа доступна только для Windows, требует .NET Framework 4.6.2 и Visual C ++ для Visual Studio 201.

5. WebHarvy

WebHarvy - последняя в нашем списке программ для парсинга, но не последняя, чтобы сделать выбор. Программа предлагает простой визуальный интерфейс для парсинга информации и в этом ее главная фишка – она интуитивно понятна. WebHarvy не подойдет для сложных, разветвленных каталогов, но c более простой структурой она справится легко, вы сможете обрабатывать динамически подгружаемые данные, подключить свои прокси, обработать заранее подготовленный список Url-адресов. Еще одна особенность программы, это возможность применять регулярные выражения к результатам извлечения, например вы быстро сможете очистить нужные данные из html кода, конечно, эта возможность требует знания язык поиска RegExp.

Ограничения бесплатной версии:

  • Доступ на 15 дней;
  • Собирает данные только с 2 страниц.

В силу ограничения сбора, программа подойдет вам, если нужные данные находятся (или можно вывести) не дальше второй страницы.

Возможности:

  • Визуальное редактирование;
  • Многопоточность;
  • Работает с RegExp;
  • Работа с динамически подгружаемыми данными;
  • Поддержка прокси;
  • Видео уроки;
  • Планировщик.

Доступные OS:

Программа доступна только для Windows.

6. Screen-Scraper

Screen-Scraper – программный комплекс для парсинга данных. Программа автоматизирует копирование текста с веб-страниц, переход по ссылкам, ввод данных в формы и их отправку, итерации по страницам результатов поиска, скачивание файлов (PDF, Word, изображения и т. д.). Программа может обрабатывать практически любой сайт, включая сайты, использующие динамически подгружаемые данные AJAX.

Ограничения бесплатной версии:

  • Не ограничено по времени;

Программу сложно назвать интуитивно понятной, но на сайте разработчика имеются уроки, которые позволят понять принципы работы и быстро стартовать проект.

Возможности:

  • Наличие видео уроков;
  • Многопоточность;
  • Интеграции через API;
  • Работа с динамически подгружаемыми данными;
  • Поддержка прокси сервера;
  • Возможность писать скрипты на Java, JavaScript и Python.

Доступные OS:

  • Windows;
  • MacOS;
  • Linux.

Облачные сервисы для парсинга

Облачные сервисы, как и программы для парсинга предоставляют доступ к функционалу бесплатно на определенных условиях, и вы можете воспользоваться услугами сервисов для решения своей задачи. Главное отличие от программ – парсинг выполняется на удаленном сервере и не тратит ресурсы вашего компьютера.

7. Octoparse

Octoparse – облачный сервис для парсинга данных с визуальным программированием парсера. Сильные стороны сервиса – множество статей объясняющих как пользоваться сервисом и хорошие лимиты бесплатной версии.

Ограничения бесплатной версии:

  • Доступ на 14 дней;
  • Неограниченное количество страниц за сканирование;
  • Экспорт 10 000 записей;
  • 2 одновременных локальных прогона;
  • 10 настроенных парсингов;
  • Поддержка.

Возможности сервиса:

  • Работа с динамически загружаемым контентом;
  • Ротация ip;
  • Планировщик;
  • Работа в облаке 24/7;
  • Работа с API.

8. Mozenda

Mozenda – популярный облачный сервис для парсинга сайтов. Сервис предлагает визуальный метод захвата данных, для более сложных сайтов вы сможете использовать запросы XPath, если вы разработчик, то сможете создать сценарий парсинга точно отвечающий вашей задаче. Сервис предлагает месячный демо доступ, для настройки парсинга нужно установить приложение на компьютер, дальнейшая обработка происходит в облаке.

Ограничения бесплатной версии:

  • Доступ на 30 дней;

Возможности сервиса:

  • Многопоточность;
  • Работа с динамически загружаемым контентом;
  • Ротация ip;
  • Планировщик;
  • Уведомления о событиях.

9. Diffbot

Diffbot – облачный сервис для парсинга работающий на алгоритмах машинного обучения и компьютерного зрения. Сервис автоматически определяет тип страницы URL-адресов и возвращает найденные данные для поддерживаемых типов страниц (статьи, карточки товара, изображения, обсуждения или видео).

Ограничения бесплатной версии:

  • Доступ на 14 дней;
  • Один запрос в секунду;
  • Доступ для одного пользователя.

Возможности сервиса:

  • Автоматическое нахождение контента для парсинга;
  • Ротация ip;
  • Работа в облаке 24/7;
  • Работа с API.

10. Scraper api

Scraper api – сервис для парсинга требующий программирования. Особенность сервиса Scraper API меняет IP-адреса с каждым запросом из пула включающего миллионы прокси через десятки интернет-провайдеров и автоматически повторяет неудачные запросы, тем самым гарантирует сбор нужных данных. Scraper API также обрабатывает CAPTCHA. Парсинг осуществляется через безголовый браузер.

Ограничения бесплатной версии:

  • 1000 бесплатных вызовов;

Сервис подойдет в случае, если вы умеете программировать на одном из языков, NodeJS, Python, Ruby или PHP и вам нужно получить данные с сайта с высокой степенью защиты.

Возможности сервиса:

  • 40+ миллионов IP-адресов;
  • 12+ геолокаций;
  • Неограниченная пропускная способность;
  • Работа с javascript содержимым.

11. Scrapy Cloud от Scrapinghub

Scrapy Cloud — это проверенная в боях облачная платформа для запуска парсеров, требующая знания языков программирования и предоставляющая гибкие инструменты для создания проектов со сложной логикой. Сервис предлагает интересный бесплатный тариф с безлимитным количеством данных, ограниченно только время работы – 1час.

Ограничения бесплатной версии:

  • 1 час работы;

Сервис подойдет в случае, если вы умеете программировать и ваш проект содержит сложную логику для извлечения данных.

Возможности сервиса:

  • Работа с динамическим содержимым;
  • Поддержка прокси;
  • Мультипоточность;
  • Поддержка API.

12. ScrapingBee

ScrapingBee – сервис для парсинга сайтов использующий безголовый браузер и ротацию прокси. Сервис может рендерить Javascript, это позволяет парсить любой веб-сайт, даже одностраничники использующие React, Angulars, Vue.js или любые другие библиотеки. Большой пул прокси серверов поможет снизить вероятность блокировки и увеличить скорость сбора данных благодаря одновременному использованию нескольких браузеров.

Ограничения бесплатной версии:

  • 1000 бесплатных вызовов API;

Сервис требует программирования скриптов (CURL, Python, NodeJS, Java, Ruby, Php, Go), подойдет в случае сложной, кастомизируемой логики для извлечения данных и необходимости рендеринга JavaScript.

Возможности сервиса:

  • Рендеринг JavaScript;
  • Поддержка прокси;
  • Мультипоточность;
  • Поддержка API запросов.

13. Apify

Apify – сервис для парсинга данных построенный по принципу магазина готовых решений. По сути, это шаблоны, настроенные на самые популярные кейсы: сбор данных с Amazon, Instagram, Booking и т.д. Работа происходит через обращение к API сервиса, все представленные шаблоны сопровождаются документацией, и вы можете поменять запрос, чтобы он в точности соответствовал вашей задаче.

Ограничения бесплатной версии:

  • 10 единиц для сканирования (единицы позволяют сканировать разное количество страниц JavaScript и HTML страниц в месяц);
  • Хранение данных 7 дней;
  • 30 прокси серверов (только 1 месяц).

Сервис требует умения вызова API, подойдет для парсинга популярных сайтов, имеет хорошие лимиты для бесплатного использования.

Возможности сервиса:

  • Рендеринг JavaScript;
  • Ротация прокси;
  • Мультипоточность;
  • Работа через API.

14. Web Scraper

Web Scraper – сервис для парсинга который максимально упрощает извлечение данных с сайтов. Настройка парсера, происходит в визуальном редакторе посредством указания того, какие элементы нужно собирать, программирование не требуется. Web Scraper позволяет создавать карты сайта из различных типов селекторов. Эта система позволяет в последующем адаптировать извлечение данных к разным структурам сайта.

Ограничения бесплатной версии:

  • Только локальное использование;
  • Динамические данные;
  • Работа с JavaScript;
  • Экспорт в CSV.

Возможности сервиса:

  • Рендеринг JavaScript;
  • Ротация прокси;
  • Планировщик;
  • Мультипоточность;
  • Работа через API.

15. CrawlMonster

CrawlMonster – инструмент для парсинга SEO показателей сайта, вы можете сканировать, хранить и получать доступ к SEO-данным вашего веб-сайта, таким как контент сайта, исходный код, статусы страниц, распространенные ошибки, проблемы безопасности и многие другие.

Ограничения бесплатной версии:

  • 1 пользователь;
  • 100 URL-адресов;
  • 1 сайт;
  • Нет планировщика;
  • Ограниченные возможности.

Возможности сервиса:

  • Комплексный технический SEO-анализ;
  • Архитектурный анализ;
  • Анализ эффективности SEO;
  • Отслеживание проблем;
  • Анализ безопасности веб-сайта;
  • Мониторинг сайта в реальном времени;
  • Инструменты SEO-отчетности.

16. eScraper

eScraper – сервис позволяющий парсить любые сайты, ориентирован на электронную коммерцию и имеет простые интеграции с магазинами построенными на Magento, PrestaShop, WooCommerce или Shopify. Работает с динамически загружаемым контентом, например, раскрывающиеся списки, разделы “показать больше”, “следующая страница”, чекбоксы.

Ограничения бесплатной версии:

  • 100 URL-адресов.

Возможности сервиса:

  • Парсинг без программирования;
  • Планировщик;
  • Множество интеграций с eCommerce платформами.

17. 80legs

80legs – сервис для парсинга построенный на основе шаблонов. Приложения для сканирования 80legs используют методы Javascript, которые вы можете изменить в соответствии с любыми вашими требованиями к парсингу. Вы можете настроить, какие данные будут обрабатываться и по каким ссылкам переходить с каждого просканированного URL. Вы также можете использовать приложения для сканирования 80legs по умолчанию для сбора любых данных HTML, таких как ссылки, ключевые слова, метатеги и многое другое.

Ограничения бесплатной версии:

  • Одно сканирование за раз;
  • До 10 000 страниц;
  • Требуется привязка банковской карты.

Возможности сервиса:

  • Рендеринг JavaScript;
  • Ротация прокси;
  • Автоматическое определение скорости парсинга;
  • API.

18. Phantom Buster

Phantom Buster – облачный сервис для сбора данных, предлагающий готовые решения для основных социальных сетей и других сайтов, например, Facebook, Twitter, Instagram, LinkedIn и т.д. Парсинг при помощи сервиса не требует умения программировать и позволяет легко выполнять стандартные для социальных сетей кейсы в автоматической режиме, такие как автоматическое отслеживание профилей, авто-лайки постов, отправка индивидуальных сообщений, прием заявок.

Ограничения бесплатной версии:

  • Один слот (настройка парсинга);
  • 10 минут в день.

Возможности сервиса:

  • Готовые шаблоны;
  • Автоматизация действий;
  • Планировщик.

19. Webhose

Webhose – сервис специализируется на новостных источниках, включая блоги, форумы, радиостанции. API новостей Webhose обеспечивает прямой доступ к данным в реальном времени с глобальных новостных сайтов и предоставляет доступ к огромной базе исторических данных. Интересная особенность сервиса - API к данным даркнета.

Ограничения бесплатной версии:

  • 10 дней.

Сервис подойдет, если вам нужно получать данные из новостных источников и есть необходимость в исторических данных.

Возможности сервиса:

  • Работа через API;
  • Специализация на новостных источниках;
  • Исторические данные.

20. Parsers

Parsers – сервис парсинга, извлекает данные из HTML страниц и импортирует их в excel, xls, xlsx, csv, json, xml файл. Сервис настраивается через расширение для браузера. Особенность сервиса – нужно выбрать необходимый тип данных только на одной, самой детальной странице сайта, далее технология сервиса найдет похожие страницы на сайте и извлечет необходимые данные. Парсинг работает автоматически на основе машинного обучения, нет необходимости указывать все страницы, каталоги и другие настройки.

Ограничения бесплатной версии:

  • 1000 страниц за запуск;
  • Один сайт одновременно;
  • 10 запросов одновременно.

Сервис подойдет, если вам нужно получать данные из новостных источников и есть необходимость в исторических данных.

Возможности сервиса:

  • Работа через API;
  • Планировщик;
  • Машинное обучение при определении страниц для парсинга.

21. Agenty

Agenty – сервис работающий через расширение для браузера Chrome. Очень простое в использовании расширение для парсинга данных с помощью CSS-селекторов с функцией «укажи и щелкни» с предварительным просмотром извлеченных данных в реальном времени и быстрого экспорта данных в JSON / CSV / TSV.

Ограничения бесплатной версии:

  • 14 дней;
  • 100 страниц.

Возможности сервиса:

  • Автоматическая ротация IP-адресов;
  • Визуальная настройка парсинга;
  • Пакетная обработка Url-адресов;
  • Планировщик;
  • Интеграции с сервисами хранения и Google таблицами.

22. Grepsr

Grepsr – расширение для браузера Chrome позволяющее простыми методами визуального программирования собирать данные с сайтов. Сервис предлагает интуитивно понятный интерфейс, API для автоматизации действий и интеграции с популярными системами управления документами, такими как Dropbox, Google Drive, Amazon S3, Box, также доступна выгрузка на FTP.

Ограничения бесплатной версии:

  • 1000 записей в месяц;
  • 500 записей за прогон;
  • 5 запусков в месяц;
  • 3 отчета в месяц.

Возможности сервиса:

  • Интеграции с сервисами хранения;
  • Визуальная настройка парсинга;
  • Планировщик;
  • Доступ к API.

23. Web Robots

Web Robots – сервис работающий как расширение для браузера Chrome. Сервис прост в использовании, имеет интерфейс для визуального захвата данных, разобраться с ним не составит особого труда, главное преимущество – сервис автоматизирует действия. Функциональность сервиса так же проста, парсер подойдет для самых простых задач.

Ограничения бесплатной версии:

  • Ограничений для расширения нет;

Возможности сервиса:

  • Визуальная настройка парсинга;
  • Автоматически находит и извлекает данные.

24. Data miner

Data miner – сервис парсинга данных работающий через расширения для браузеров Google Chrome и Microsoft Edge, помогает собирать данные с различных сайтов с помощью визуального интерфейса. В Data Miner есть более 40 000 общедоступных шаблонов для множества самых популярных сайтов. Используя эти шаблоны, вы можете получить нужные данные в несколько щелчков мыши. Еще одна особенность – сервис позволяет работать со списком адресов, вы можете загрузить нужные страницы и быстро получить результат.

Ограничения бесплатной версии:

  • Можно парсить до 500 страниц абсолютно бесплатно;

Возможности сервиса:

  • Визуальная настройка парсинга;
  • Пакетная обработка URL-адресов;
  • Работа с динамически подгружаемыми данными.

25. Scraper.AI

Scraper.AI – сервис парсинга данных работающий как расширения для браузеров Chrome, Firefox и Edge. Ключевая особенность Scraper.AI — это визуальное программирование парсера, не требующее работы с кодом. Так же сервис предлагает готовые шаблоны, которые настроены на сбор данных в Facebook, Instagram и Twitter.

Ограничения бесплатной версии:

  • 3 месяца бесплатной работы;
  • Не более 50 страниц.

Возможности сервиса:

  • Визуальная настройка парсинга;
  • Планировщик;
  • Работа с динамически подгружаемыми данными;
  • Уведомления.

Бесплатные фреймворки (библиотеки) для парсинга

Для использования фреймворков необходимо обладать знаниями языков программирования и в некоторых случаях нужны обособленные вычислительные мощности, использование библиотек для парсинга поможет реализовать задачу любой сложности и точно настроить проект под задачу.

26. Scrapy

Scrapy – это фреймворк для парсинга с открытым исходным кодом. Фреймворк написан на языке программирования Python и это одно из самых часто применяемых решений для сбора данных. Одно из основных преимуществ Scrapy – асинхронная обработка запросов. Это означает, что Scrapy не нужно ждать, пока запрос будет завершен и обработан, он может отправлять другие запросы или выполнять другие действия в этот же момент времени. Это также означает, что запросы могут выполняться, даже если при обработке какого-либо запроса возникает ошибка.

Это позволяет выполнять очень быстрый обход (одновременную отправку нескольких запросов отказоустойчивым способом), Scrapy также дает контроль над другими параметрами парсинга. Вы можете делать такие вещи как установка задержки загрузки между каждым запросом, ограничение количества одновременных запросов для каждого домена или IP-адреса и даже использовать расширение с автоматическим определением времени парсинга.

Scrapy имеет подробную документацию и большое комьюнити.

27. BeautifulSoup

BeautifulSoup – еще один фреймворк на языке Python для парсинга данных из HTML и XML документов, имеет подробную документацию, требует дополнительных библиотек для открытия ссылок и сохранения результатов сбора данных. Он более прост по сравнению со Scrapy, BeautifulSoup стоит использовать, если задача не подразумевает распределение данных, не требуется реализация сложной логики, не нужно использовать прокси. Так же отличительная черта BeautifulSoup низкий порог входа, библиотека подойдет программистам даже с начальными знаниями, множество мануалов способствует быстрому освоению.

28. Jaunt

Jaunt – это бесплатная библиотека Java для парсинга, автоматизации и запросов JSON. Библиотека предоставляет быстрый и сверхлегкий безголовый браузер (без графического интерфейса). Браузер предоставляет функции парсинга данных, доступ к DOM и контроль над каждым HTTP-запросом - ответом.

Возможности Jaunt:

  • Выполнять парсинг веб-страниц и извлекать данные JSON;
  • Работать с формами и таблицами;
  • Контролировать / обрабатывать отдельные HTTP-запросы / ответы;
  • Интерфейс с REST API или веб-приложениями (JSON, HTML, XHTML или XML).

29. Selenium

Selenium — это набор инструментов для автоматизации веб-браузеров с открытым исходным кодом, объединяет набор инструментов для управления, развертывания, записи и воспроизведения действия.

Сценарии могут быть написаны на различных языках Python, Java, C#, JavaScript, Ruby. Selenium настоящий комбайн для парсинга, позволяющий объединять не только браузеры, но и вычислительные мощности для решения задач. Этот инструмент стоит использовать, если перед вами стоят большие задачи и есть ресурсы для их реализации.

30. Grab

Grab - фреймворк на языке Python для написания веб-парсеров. Grab помогает создавать парсеры различной сложности, от простых 5-строчных скриптов, до сложных и асинхронных поисковых роботов, способных обрабатывать миллионы страниц. Фреймворк предлагает API для выполнения сетевых запросов и последующей обработки контента, например, для взаимодействия с деревом DOM HTML- документа.

Библиотека Grab состоит из двух основных частей:

  • Единый API запроса / ответа, позволяющий строить сетевой запрос, выполнять его и работать с полученными данными. API - оболочка библиотек pycurl и lxml.
  • API-интерфейс Spider для создания асинхронных поисковых роботов. Вы пишете классы, которые определяют обработчики для каждого типа сетевого запроса. Каждый обработчик может создавать новые сетевые запросы. Сетевые запросы обрабатываются одновременно с пулом асинхронных веб-сокетов.

Платный сервис в заключении

В заключении расскажу о сервисе парсинга развитием которого я занимаюсь – iDatica. Компания занимаемся разработкой парсинга под задачи клиента. Мы очищаем и визуализируем данные, сопоставляем (матчим) товары, делаем это качественно, под ключ.

У нас нет бесплатного тарифа, почему нужны наши услуги, если есть готовые и даже бесплатные сервисы? Если коротко – сервисы требуют людей, которые будут с ними работать, требуют время на изучение функционала и не во всех случаях способны справиться с требования заказчика. Мы решаем все эти задачи.

Если говорить более развернуто - мы поможем, когда сервис, который вы используете не может собрать данные с нужного сайта, например, большинство даже платных версий сервисов из списка, при тестировании не справились с парсингом Яндекс.Маркет, а защищаются от парсинга практически все товарные каталоги. Мы напишем логику парсинга под ваш запрос, например, сначала найти на сайте определенные товары, выбрать категории, бренды, или парсинг под сайт с нестандартной структурой. Мы сравним ваши товары и товары конкурентов с максимальной точностью, в противовес - автоматические машинные алгоритмы сравнения товаров часто не отрабатывают на 100% и потребуют ручной доработки с вашей стороны, а часть сервисов потребует с самого начала сопоставлять ваши товары и товары конкурентов. Все это выливается в оплату сервиса, оплату труда сотрудника, который работает с сервисом, время на обучение, а если сервис в конечном итоге не справится, в потраченное время и необходимость искать новый вариант. Выбирая работу с нами, вы просто будете получать нужный результат.

0
13 комментариев
Написать комментарий...
Valeratal Val

Кажется пора писать парсер для парсеров :)

Ответить
Развернуть ветку
valeriy myrza
Автор

Сразу на ум приходит Natural Language от Google
https://cloud.google.com/natural-language
Можно делать, например, такие исследования https://idatica.com/blog/vybory-v-ssha-2020-tramp-protiv-bajdena-kak-parsing-pomogaet-proanalizirovat-nastroeniya-v-smi/

Тема огненная, согласен

Ответить
Развернуть ветку
Сергей Мазур

спасибо. интересно

Ответить
Развернуть ветку
Сергей Мазур

Подборка супер и Ваш сервис довольно таки любопытный. Побольше кейсов бы, а то глаза разбегаются, столько сервисов...

Ответить
Развернуть ветку
valeriy myrza
Автор

Сергей, спасибо за идею. Кейсов десятки, разные данные, разные структуры сайтов, защита итд. Для апдейта статьи подумаем в сторону типовых.

Ответить
Развернуть ветку
Сергей Мазур

А есть ли сервисы по обработке данных? что-то вроде AI или ML или какая-то автоматизация по работе с данными/базами? Если сделаете подобный обзор будет ваще огонь)

Ответить
Развернуть ветку
Valeratal Val

Easy Web Extract — Касперский заблокировал , поведение характерное для вредоносной программы, PDM троян, вин32 генерик

Ответить
Развернуть ветку
valeriy myrza
Автор

Это интересно, проверил, нативный антивирус Win10 - не ругается.

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
valeriy myrza
Автор

Александр, спасибо, познакомили с продуктом), протестируем возможности и добавим в следующую подборку

Ответить
Развернуть ветку
Sergei Severyanin

В целом есть интересные сервисы с которыми мы еще не работали, но стоит заметить, что наша команда уже некоторое время работает с сервисом A-Parser и в целом пока без проблем. Довольны результатом. А некоторые парсесы из этого списка просто не подходят для масштабного сотрудничества, к сожалению.

Ответить
Развернуть ветку
Sergei Severyanin

Парсинг сейчас вообще автоматизирован под разный бизнес и нужды. Только найти адекватный нужен. Я в своей работе использую a-parser.com пока доволен. Попадал до этого на порезанные парсеры или с нереальными условиями. Информация структурированная- сейчас самая главная ценность

Ответить
Развернуть ветку
Библиотека мизантропа

Херня

Ответить
Развернуть ветку
10 комментариев
Раскрывать всегда