Топ-30 условно бесплатных парсеров сайтов в 2019 году

Моя компания занимается парсингом сайтов в России уже более трёх лет, ежедневно мы парсим около 400 крупнейших сайтов в РФ. На выходе мы просто отдаем данные в формате Excel/CSV. Но существуют и другие решения — готовые конструкторы для запуска парсинга без программирования. Ниже их список и краткая аннотация к каждому.

В закладки

Парсинг страниц сайтов – это метод сбора данных с сайтов. Он превращает неструктурированную информацию в структурированные данные, которые можно использовать для анализа (например цен и-или ассортимента).

Для тех, которые не разбирается в программировании, написать свой парсер будет довольно сложно. У нас в команде парсингом занимаются три (!) программиста и задач все равно очень много.

К счастью, существуют инструменты, которые подходят как программистам, так и абсолютным новичкам. Вот наш список 30 самых популярных инструментов для парсинга в Интернете: от библиотеки с открытым исходным кодом до расширения браузера и ПО для настольных компьютеров.

Важно отметить, что все популярные сайты в России, которые мы парсим (например DNS, АШАН и т.п.) не очень любят этот процесс и всячески ему сопротивляются. И это может довольно сильно усложнить использование готовых визуальных конструкторов парсинга, которые упоминаются ниже. Кроме того, все перечисленные ниже решения имеют англоязычный интерфейс и документацию.

Для кого: разработчики, обладающие хорошими навыками программирования для создания своего парсера.

Beautiful Soup – это библиотека Python с открытым исходным кодом, разработанная для парсинга HTML и XML-файлов. Это – основные синтаксические анализаторы Python, которые используются довольно широко. Если у вас есть навыки программирования, тогда объедините эту библиотеку с Python и получите отличный результат.

Для кого: Люди без опыта программирования в индустрии электронной коммерции, инвестиций, крипто-валюты, маркетинга, недвижимости и многих других.

Octoparse – это условно бесплатная платформа SaaS для парсинга. Вы можете использовать её для сбора данных с нужных сайтов и превращать полученную неструктурированную или частично структурированную информацию в упорядоченный набор данных без использования программирования. Платформа предоставляет готовые шаблоны для сбора, включая eBay, Twitter, BestBuy и многие другие.

Для кого: Предприятие, которое ищет интегрированное решение для обработки веб-данных.

Import.io – это SaaS - платформа для парсинга сайтов. Платформа предоставляет программное обеспечение для парсинга веб-страниц, которое позволяет собирать информацию и структурировать ее в наборы данных. Вы можете интегрировать полученные данные в аналитические инструменты для отдела продаж и маркетинга.

4. Mozenda

Для кого: Предприятие и бизнес с масштабируемыми потребностями в данных.

Mozenda предоставляет инструмент для извлечения данных, который позволяет легко "захватывать" контент из Интернета. дополнительно предоставляются услуги в визуализации данных, что избавляет от необходимости нанимать собственного специалиста по аналитике.

Для кого: аналитики, маркетологи, которым не хватает навыков программирования.

ParseHub – это программа для визуального просмотра веб-страниц, которую вы можете использовать для получения данных из Интернета. Вы можете извлечь данные, нажав на любые поля на сайте с помощью визуального конструктора. Поддерживается ротация IP-адресов, которая поможет изменить ваш адрес, когда вы сталкиваетесь с сайтами, использующими защиту от парсинга.

Для кого это: SEO- специалисты и маркетологи

CrawlMonster – это бесплатная программа для сканирования веб-страниц. Он позволяет сканировать веб-сайты и анализировать содержимое сайта, исходный код, статус страницы и многое другое.

Для кого это: Предприятие, которое ищет интегрированное решение для веб-парсинга.

Connotate работает вместе с Import.IO, который предоставляет решение для автоматизации парсинга веб-данных. Он предоставляет сервис для парсинга, который поможет вам сканировать, собрать и обработать данные.

Для кого это: исследователи, студенты и профессора.

Common Crawl основан на идее открытого исходного кода в эпоху цифровых технологий. Он предоставляет открытые наборы данных заранее просканированных веб-сайтов. Сервис содержит необработанные данные веб-страниц, извлеченные метаданные и отрывки текста.

9. Crawly

Для кого это: Для людей не обладающих навыками программирования.

Crawly предоставляет автоматический сервис, который парсит веб-сайт и превращает его в структурированные данные формата JSON и-или CSV. Программа может извлечь ограниченные элементы в течение нескольких секунд, в том числе: текст заголовка, HTML, комментарии, авторов, URL-адреса изображений, видео и т.п.

Для кого это: разработчики Python, с большим опытом программирования.

Content Grabber – это программное обеспечение, предназначенное для специалистов. Вы можете создавать свои собственные парсеры с помощью встроенных инструментов. Продукт очень гибок в работе со сложными веб-сайтами и сбором данных.

11. Diffbot

Для кого это: разработчики и бизнес.

Diffbot – это инструмент для поиска в сети, который использует машинное обучение, алгоритмы и общедоступные API-интерфейсы для извлечения данных из веб-страниц. Вы можете использовать Diffbot для анализа конкурентов, мониторинга цен, анализа поведения потребителей и многого другого.

12. Dexi.io

Для кого это: люди с навыками программирования и опытом парсинга.

Dexi.io – это браузерный парсер. Он предоставляет три типа роботов – "экстрактор", "краулер" и "конвейер". Конвейер содержит функцию Master robot, где один робот может управлять несколькими задачами. Поддерживается множество сторонних сервисов ("решатели" капчи, облачное хранилище и т. д.), которые вы можете легко интегрировать в своих роботов.

Для кого это: аналитики данных, маркетологи, которым не хватает навыков программирования.

Data Scraping Studio – это бесплатное программное обеспечение для сбора данных с веб-страниц, HTML, XML и PDF. Данный продукт в настоящее время доступен только для ОС Windows.

Для кого это: бизнес с ограниченными потребностями в данных, маркетологи, которым не хватает навыков программирования.

Easy Web Extract – это программное обеспечение для визуального просмотра веб-страниц. Он может извлекать содержимое (текст, URL, изображение, файлы) из веб-страниц и преобразовывать результаты в несколько форматов. Просто, удобно и быстро.

15. FMiner

Для кого это: аналитики данных, маркетологи, которым не хватает навыков программирования.

FMiner – это программа для просмотра веб-страниц с визуальным дизайнером диаграмм, которая позволяет вам создавать проект с помощью записи макросов без написания кода.

16. Scrapy

Для кого это: разработчики Python с навыками программирования и паринга

Scrapy используется для разработки прасеров. Что хорошо в этом продукте, так это то, что он поддерживает асинхронную обработку, которая позволит вам перейти к следующей задаче до ее завершения.

Для кого это: аналитики данных, маркетологи, которым не хватает навыков программирования.

Helium Scraper – это программное обеспечение для визуального парсинга сайтов, которое работает особенно хорошо с небольшими элементами на сайтах. Он имеет удобный интерфейс «укажи и кликни», который облегчает его использование.

18. Scrape.it

Для кого это: люди, которым нужны масштабируемые данные без написания кода.

Это решение позволяет хранить полученные данные локально. Вы можете создать свой парсер, используя его язык веб-парсеров (WSL), который имеет низкий порог входа и не требует написания сложного кода. Это хороший выбор, и его стоит попробовать, если вы ищете простой инструмент для парсинга веб-страниц.

Для кого это: среда анализа данных с помощью Python и R, идеальная для экономистов, статистиков и менеджеров данных, плохо знакомых с программированием.

Решение состоит из двух частей. Одной из них является QuickCode, который предназначен для экономистов, статистиков и менеджеров данных со знанием языков Python и R. Вторая часть – The Sensible Code Company, которая предоставляет веб-сервис для преобразования "сырой" информации в структурированные данные.

Для кого это : разработчики Python

Scraping Hub – это мощная облачная платформа. Имеет четыре различных типа инструментов – Scrapy Cloud, Portia, Crawlera и Splash. Большой плюс, что Scrapinghub предлагает набор IP-адресов для более чем 50 стран, что является решением проблем защитой от парсинга на некоторых сайтах.

Для кого это: Для бизнеса, который относится к автомобильной, медицинской, финансовой и электронной коммерции.

Screen Scraper предоставляет сервис для автомобильной отрасли, медицинской, финансовой и электронной коммерции. Этот инструмент удобнее и проще по сравнению с другими инструментами, как например Octoparse.

Для кого это: маркетинг и продажи.

Salestools.io предоставляет программное обеспечение для поиска в сети, которое помогает продавцам собирать данные в профессиональных сетях, таких как LinkedIn, Angellist, Viadeo.

Для кого это: инвесторы, хедж-фонды, аналитики рынка

24. UiPath

Для кого это: Бизнес всех масштабов.

UiPath – это автоматизированное ПО для автоматизации процессов парсинга.

Для кого это: аналитики данных, маркетологи, которым не хватает навыков программирования.

Web Content Extractor – это очень простая в использовании программа для парсинга в личных или корпоративных целях. Ее очень легко изучить и освоить, а также она имеет 14-дневную бесплатную пробную версию.

Для кого это: аналитики данных, маркетологи, которым не хватает навыков программирования.

WebHarvy – это программа для парсинга веб-страниц. Предназначена для для тех, кто не умеет программировать. Предоставляются отличные руководства по обучению парсингу, которые очень полезны для большинства начинающих пользователей.

Для кого это: аналитик данных, маркетологи, которым не хватает навыков программирования.

Web Scraper – расширение для браузера Chrome, созданное для сбора данных с веб-сайтов. Это бесплатное программное обеспечение подходит для парсинга динамических веб-страниц.

Для кого это: предприятия, маркетологов.

WebSundew – это инструмент для визуального парсинга. Версия Enterprise позволяет запускать парсинг на удаленном сервере и публиковать собранные данные через FTP.

Для кого это: разработчики, ИТ-специалисты

Winautomation – это инструмент для парсинга веб-страниц под Windows, который позволяет локально решать задачи парсинга данных.

Для кого это: аналитик данных, маркетологи, которым не хватает навыков программирования.

Web Robots – это облачная веб-платформа для парсинга динамических JavaScript-сайтов. У него есть расширение для веб-браузера, а также программное обеспечение для настольных компьютеров, с помощью которого достаточно легко собирать данные с веб-сайтов.

{ "author_name": "Максим Кульгин", "author_type": "self", "tags": [], "comments": 18, "likes": 11, "favorites": 106, "is_advertisement": false, "subsite_label": "services", "id": 78517, "is_wide": false, "is_ugc": true, "date": "Wed, 07 Aug 2019 16:08:39 +0300", "is_special": false }
Трибуна
Кейс «ПолиКап»: как в России появились первые сертифицированные бумажные биоразлагаемые крышки для кофе
Это наш первый продукт на пути к появлению целой линейки биоразлагаемой посуды и другой доступной экоупаковки…
Объявление на vc.ru
0
18 комментариев
Популярные
По порядку
Написать комментарий...
0

А почему отжаете Excel/CSV? Это же не читаемо и не обрабатываемо. Почему не дамп db?

Ответить
2

Ну как сказать, ведь в 90% случаев данные анализирует маркетолог. Бывает конечно, что люди загружают данные по АПИ к себе, в основной массе - Excel. Вот типа такого - это пример парсинга Wildberries. https://xmldatafeed.com/catalog/fashion/parsing-wildberries/

Ответить
0

А Вы через прокси работаете? Как Вас не банят?))). А если на сайтах асинхрон (ну когда DOM приходит полупустой в реквесте), то селениумом или у Вас что-то своё?

Ответить
1

да, через прокси, хромиум - банят конечно. Для каждого сайта свой подход - и не всегда получается, признаюсь.

Ответить
0

Учитесь парсеры на php/phyton делать. В итоге парсеры будут намного быстрее, бесплатные и полностью кастомизируемые.

А библиотеки сторонние в таком простом деле - это детсад для нубов.

Ответить
0

Если надо здесь и сейчас - не пойдет

Ответить
–1

Ещё как пойдет. Достаточно php, а внутри curl, preg_match и foreach.
Самое сложное здесь - освоить регулярки, но они и для библиотек нужны.

Ответить
0

Вы до контента сначала доберитесь, прежде чем форичить.

Ответить
0

нашим клиентам это просто не нужно - им "завтра" нужны данные. А не осваивать php ))

Ответить
0

Пыха для кравла?! Серьезно?

Ответить
0

1. бесплатных парсеров не бывает

2. На ПХП делать конечно можно...  но не серьезно ( лет 10 назад бросил это и перешел на другие технологии)

3. Сторонние библиотеки - смотря какие. Надо просто попробовать понять для чего они и научиться правильно применять. Велосипедостроение - это особая отличительная черта любителей ....

Ответить
0

А вы чем пользуетесь? Жаждем кровавых подробностей :)

Ответить
0

да там все просто, 3 разработчика, 2 года работы, множество серверов стек .net

Ответить
0

А реактовские и другие спа чем?)

Ответить
0

3 разработчика ... 2 года... и всего 400 сайтов?... скромно.

Ответить
0

поддержки много

Ответить
0

это точно,  90% трудозатрат уходит на это.

Ответить
0

Я бы дополнил статью неплохой библиотечкой для GO https://github.com/gocolly/colly

Ответить

Комментарии

null