Топ-30 условно бесплатных парсеров сайтов в 2019 году

Моя компания занимается парсингом сайтов в России уже более трёх лет, ежедневно мы парсим около 400 крупнейших сайтов в РФ. На выходе мы просто отдаем данные в формате Excel/CSV. Но существуют и другие решения — готовые конструкторы для запуска парсинга без программирования. Ниже их список и краткая аннотация к каждому.

В закладки

Парсинг страниц сайтов – это метод сбора данных с сайтов. Он превращает неструктурированную информацию в структурированные данные, которые можно использовать для анализа (например цен и-или ассортимента).

Для тех, которые не разбирается в программировании, написать свой парсер будет довольно сложно. У нас в команде парсингом занимаются три (!) программиста и задач все равно очень много.

К счастью, существуют инструменты, которые подходят как программистам, так и абсолютным новичкам. Вот наш список 30 самых популярных инструментов для парсинга в Интернете: от библиотеки с открытым исходным кодом до расширения браузера и ПО для настольных компьютеров.

Важно отметить, что все популярные сайты в России, которые мы парсим (например DNS, АШАН и т.п.) не очень любят этот процесс и всячески ему сопротивляются. И это может довольно сильно усложнить использование готовых визуальных конструкторов парсинга, которые упоминаются ниже. Кроме того, все перечисленные ниже решения имеют англоязычный интерфейс и документацию.

1. Beautiful Soup

Для кого: разработчики, обладающие хорошими навыками программирования для создания своего парсера.

Beautiful Soup – это библиотека Python с открытым исходным кодом, разработанная для парсинга HTML и XML-файлов. Это – основные синтаксические анализаторы Python, которые используются довольно широко. Если у вас есть навыки программирования, тогда объедините эту библиотеку с Python и получите отличный результат.

2. Octoparse

Для кого: Люди без опыта программирования в индустрии электронной коммерции, инвестиций, крипто-валюты, маркетинга, недвижимости и многих других.

Octoparse – это условно бесплатная платформа SaaS для парсинга. Вы можете использовать её для сбора данных с нужных сайтов и превращать полученную неструктурированную или частично структурированную информацию в упорядоченный набор данных без использования программирования. Платформа предоставляет готовые шаблоны для сбора, включая eBay, Twitter, BestBuy и многие другие.

3. Import.io

Для кого: Предприятие, которое ищет интегрированное решение для обработки веб-данных.

Import.io – это SaaS - платформа для парсинга сайтов. Платформа предоставляет программное обеспечение для парсинга веб-страниц, которое позволяет собирать информацию и структурировать ее в наборы данных. Вы можете интегрировать полученные данные в аналитические инструменты для отдела продаж и маркетинга.

4. Mozenda

Для кого: Предприятие и бизнес с масштабируемыми потребностями в данных.

Mozenda предоставляет инструмент для извлечения данных, который позволяет легко "захватывать" контент из Интернета. дополнительно предоставляются услуги в визуализации данных, что избавляет от необходимости нанимать собственного специалиста по аналитике.

5. ParseHub

Для кого: аналитики, маркетологи, которым не хватает навыков программирования.

ParseHub – это программа для визуального просмотра веб-страниц, которую вы можете использовать для получения данных из Интернета. Вы можете извлечь данные, нажав на любые поля на сайте с помощью визуального конструктора. Поддерживается ротация IP-адресов, которая поможет изменить ваш адрес, когда вы сталкиваетесь с сайтами, использующими защиту от парсинга.

6. CrawlMonster

Для кого это: SEO- специалисты и маркетологи

CrawlMonster – это бесплатная программа для сканирования веб-страниц. Он позволяет сканировать веб-сайты и анализировать содержимое сайта, исходный код, статус страницы и многое другое.

7. Connotate

Для кого это: Предприятие, которое ищет интегрированное решение для веб-парсинга.

Connotate работает вместе с Import.IO, который предоставляет решение для автоматизации парсинга веб-данных. Он предоставляет сервис для парсинга, который поможет вам сканировать, собрать и обработать данные.

8. Common Crawl

Для кого это: исследователи, студенты и профессора.

Common Crawl основан на идее открытого исходного кода в эпоху цифровых технологий. Он предоставляет открытые наборы данных заранее просканированных веб-сайтов. Сервис содержит необработанные данные веб-страниц, извлеченные метаданные и отрывки текста.

9. Crawly

Для кого это: Для людей не обладающих навыками программирования.

Crawly предоставляет автоматический сервис, который парсит веб-сайт и превращает его в структурированные данные формата JSON и-или CSV. Программа может извлечь ограниченные элементы в течение нескольких секунд, в том числе: текст заголовка, HTML, комментарии, авторов, URL-адреса изображений, видео и т.п.

10. Content Grabber

Для кого это: разработчики Python, с большим опытом программирования.

Content Grabber – это программное обеспечение, предназначенное для специалистов. Вы можете создавать свои собственные парсеры с помощью встроенных инструментов. Продукт очень гибок в работе со сложными веб-сайтами и сбором данных.

11. Diffbot

Для кого это: разработчики и бизнес.

Diffbot – это инструмент для поиска в сети, который использует машинное обучение, алгоритмы и общедоступные API-интерфейсы для извлечения данных из веб-страниц. Вы можете использовать Diffbot для анализа конкурентов, мониторинга цен, анализа поведения потребителей и многого другого.

12. Dexi.io

Для кого это: люди с навыками программирования и опытом парсинга.

Dexi.io – это браузерный парсер. Он предоставляет три типа роботов – "экстрактор", "краулер" и "конвейер". Конвейер содержит функцию Master robot, где один робот может управлять несколькими задачами. Поддерживается множество сторонних сервисов ("решатели" капчи, облачное хранилище и т. д.), которые вы можете легко интегрировать в своих роботов.

13. Data Scraping Studio

Для кого это: аналитики данных, маркетологи, которым не хватает навыков программирования.

Data Scraping Studio – это бесплатное программное обеспечение для сбора данных с веб-страниц, HTML, XML и PDF. Данный продукт в настоящее время доступен только для ОС Windows.

14. Easy Web Extract

Для кого это: бизнес с ограниченными потребностями в данных, маркетологи, которым не хватает навыков программирования.

Easy Web Extract – это программное обеспечение для визуального просмотра веб-страниц. Он может извлекать содержимое (текст, URL, изображение, файлы) из веб-страниц и преобразовывать результаты в несколько форматов. Просто, удобно и быстро.

15. FMiner

Для кого это: аналитики данных, маркетологи, которым не хватает навыков программирования.

FMiner – это программа для просмотра веб-страниц с визуальным дизайнером диаграмм, которая позволяет вам создавать проект с помощью записи макросов без написания кода.

16. Scrapy

Для кого это: разработчики Python с навыками программирования и паринга

Scrapy используется для разработки прасеров. Что хорошо в этом продукте, так это то, что он поддерживает асинхронную обработку, которая позволит вам перейти к следующей задаче до ее завершения.

17. Helium Scraper

Для кого это: аналитики данных, маркетологи, которым не хватает навыков программирования.

Helium Scraper – это программное обеспечение для визуального парсинга сайтов, которое работает особенно хорошо с небольшими элементами на сайтах. Он имеет удобный интерфейс «укажи и кликни», который облегчает его использование.

18. Scrape.it

Для кого это: люди, которым нужны масштабируемые данные без написания кода.

Это решение позволяет хранить полученные данные локально. Вы можете создать свой парсер, используя его язык веб-парсеров (WSL), который имеет низкий порог входа и не требует написания сложного кода. Это хороший выбор, и его стоит попробовать, если вы ищете простой инструмент для парсинга веб-страниц.

19. ScraperWiki

Для кого это: среда анализа данных с помощью Python и R, идеальная для экономистов, статистиков и менеджеров данных, плохо знакомых с программированием.

Решение состоит из двух частей. Одной из них является QuickCode, который предназначен для экономистов, статистиков и менеджеров данных со знанием языков Python и R. Вторая часть – The Sensible Code Company, которая предоставляет веб-сервис для преобразования "сырой" информации в структурированные данные.

20. ScrapingHub

Для кого это : разработчики Python

Scraping Hub – это мощная облачная платформа. Имеет четыре различных типа инструментов – Scrapy Cloud, Portia, Crawlera и Splash. Большой плюс, что Scrapinghub предлагает набор IP-адресов для более чем 50 стран, что является решением проблем защитой от парсинга на некоторых сайтах.

21. Screen Scraper

Для кого это: Для бизнеса, который относится к автомобильной, медицинской, финансовой и электронной коммерции.

Screen Scraper предоставляет сервис для автомобильной отрасли, медицинской, финансовой и электронной коммерции. Этот инструмент удобнее и проще по сравнению с другими инструментами, как например Octoparse.

22. Salestools.io

Для кого это: маркетинг и продажи.

Salestools.io предоставляет программное обеспечение для поиска в сети, которое помогает продавцам собирать данные в профессиональных сетях, таких как LinkedIn, Angellist, Viadeo.

23. ScrapeHero

Для кого это: инвесторы, хедж-фонды, аналитики рынка

24. UiPath

Для кого это: Бизнес всех масштабов.

UiPath – это автоматизированное ПО для автоматизации процессов парсинга.

25. Web Content Extractor

Для кого это: аналитики данных, маркетологи, которым не хватает навыков программирования.

Web Content Extractor – это очень простая в использовании программа для парсинга в личных или корпоративных целях. Ее очень легко изучить и освоить, а также она имеет 14-дневную бесплатную пробную версию.

26. WebHarvy Web Scraper

Для кого это: аналитики данных, маркетологи, которым не хватает навыков программирования.

WebHarvy – это программа для парсинга веб-страниц. Предназначена для для тех, кто не умеет программировать. Предоставляются отличные руководства по обучению парсингу, которые очень полезны для большинства начинающих пользователей.

27. Web Scraper.io

Для кого это: аналитик данных, маркетологи, которым не хватает навыков программирования.

Web Scraper – расширение для браузера Chrome, созданное для сбора данных с веб-сайтов. Это бесплатное программное обеспечение подходит для парсинга динамических веб-страниц.

28. Web Sundrew

Для кого это: предприятия, маркетологов.

WebSundew – это инструмент для визуального парсинга. Версия Enterprise позволяет запускать парсинг на удаленном сервере и публиковать собранные данные через FTP.

29. Winautomation

Для кого это: разработчики, ИТ-специалисты

Winautomation – это инструмент для парсинга веб-страниц под Windows, который позволяет локально решать задачи парсинга данных.

30. Web Robots

Для кого это: аналитик данных, маркетологи, которым не хватает навыков программирования.

Web Robots – это облачная веб-платформа для парсинга динамических JavaScript-сайтов. У него есть расширение для веб-браузера, а также программное обеспечение для настольных компьютеров, с помощью которого достаточно легко собирать данные с веб-сайтов.

Материал опубликован пользователем. Нажмите кнопку «Написать», чтобы поделиться мнением или рассказать о своём проекте.

Написать
{ "author_name": "Максим Кульгин", "author_type": "self", "tags": [], "comments": 13, "likes": 11, "favorites": 91, "is_advertisement": false, "subsite_label": "services", "id": 78517, "is_wide": false, "is_ugc": true, "date": "Wed, 07 Aug 2019 16:08:39 +0300" }
{"average":27619,"one":95,"ten":75}
Сколько денег вы откладываете в месяц?
Ответьте и узнаете, сколько копят другие.
0 ₽
70 000+ ₽
0 ₽
{ "id": 78517, "author_id": 20452, "diff_limit": 1000, "urls": {"diff":"\/comments\/78517\/get","add":"\/comments\/78517\/add","edit":"\/comments\/edit","remove":"\/admin\/comments\/remove","pin":"\/admin\/comments\/pin","get4edit":"\/comments\/get4edit","complain":"\/comments\/complain","load_more":"\/comments\/loading\/78517"}, "attach_limit": 2, "max_comment_text_length": 5000, "subsite_id": 200396, "last_count_and_date": null }
13 комментариев

Популярные

По порядку

Написать комментарий...
0

А почему отжаете Excel/CSV? Это же не читаемо и не обрабатываемо. Почему не дамп db?

Ответить
2

Ну как сказать, ведь в 90% случаев данные анализирует маркетолог. Бывает конечно, что люди загружают данные по АПИ к себе, в основной массе - Excel. Вот типа такого - это пример парсинга Wildberries. https://xmldatafeed.com/catalog/fashion/parsing-wildberries/

Ответить
0

А Вы через прокси работаете? Как Вас не банят?))). А если на сайтах асинхрон (ну когда DOM приходит полупустой в реквесте), то селениумом или у Вас что-то своё?

Ответить
1

да, через прокси, хромиум - банят конечно. Для каждого сайта свой подход - и не всегда получается, признаюсь.

Ответить
0

Учитесь парсеры на php/phyton делать. В итоге парсеры будут намного быстрее, бесплатные и полностью кастомизируемые.

А библиотеки сторонние в таком простом деле - это детсад для нубов.

Ответить
0

Если надо здесь и сейчас - не пойдет

Ответить
–1

Ещё как пойдет. Достаточно php, а внутри curl, preg_match и foreach.
Самое сложное здесь - освоить регулярки, но они и для библиотек нужны.

Ответить
0

Вы до контента сначала доберитесь, прежде чем форичить.

Ответить
0

нашим клиентам это просто не нужно - им "завтра" нужны данные. А не осваивать php ))

Ответить
0

Пыха для кравла?! Серьезно?

Ответить
0

А вы чем пользуетесь? Жаждем кровавых подробностей :)

Ответить
0

да там все просто, 3 разработчика, 2 года работы, множество серверов стек .net

Ответить
0

А реактовские и другие спа чем?)

Ответить
0
{ "page_type": "article" }

Прямой эфир

[ { "id": 1, "label": "100%×150_Branding_desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox_method": "createAdaptive", "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "ezfl" } } }, { "id": 2, "label": "1200х400", "provider": "adfox", "adaptive": [ "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "ezfn" } } }, { "id": 3, "label": "240х200 _ТГБ_desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fizc" } } }, { "id": 4, "label": "240х200_mobile", "provider": "adfox", "adaptive": [ "phone" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "flbq" } } }, { "id": 5, "label": "300x500_desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "ezfk" } } }, { "id": 6, "label": "1180х250_Interpool_баннер над комментариями_Desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "pp": "h", "ps": "bugf", "p2": "ffyh" } } }, { "id": 7, "label": "Article Footer 100%_desktop_mobile", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fjxb" } } }, { "id": 8, "label": "Fullscreen Desktop", "provider": "adfox", "adaptive": [ "desktop", "tablet" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fjoh" } } }, { "id": 9, "label": "Fullscreen Mobile", "provider": "adfox", "adaptive": [ "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fjog" } } }, { "id": 10, "disable": true, "label": "Native Partner Desktop", "provider": "adfox", "adaptive": [ "desktop", "tablet" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "clmf", "p2": "fmyb" } } }, { "id": 11, "disable": true, "label": "Native Partner Mobile", "provider": "adfox", "adaptive": [ "phone" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "clmf", "p2": "fmyc" } } }, { "id": 12, "label": "Кнопка в шапке", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "p1": "bscsh", "p2": "fdhx" } } }, { "id": 13, "label": "DM InPage Video PartnerCode", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "adfox_method": "createAdaptive", "adfox": { "ownerId": 228129, "params": { "pp": "h", "ps": "bugf", "p2": "flvn" } } }, { "id": 14, "label": "Yandex context video banner", "provider": "yandex", "yandex": { "block_id": "VI-223676-0", "render_to": "inpage_VI-223676-0-1104503429", "adfox_url": "//ads.adfox.ru/228129/getCode?pp=h&ps=bugf&p2=fpjw&puid1=&puid2=&puid3=&puid4=&puid8=&puid9=&puid10=&puid21=&puid22=&puid31=&puid32=&puid33=&fmt=1&dl={REFERER}&pr=" } }, { "id": 15, "label": "Плашка на главной", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "adfox": { "ownerId": 228129, "params": { "p1": "byudx", "p2": "ftjf" } } }, { "id": 16, "label": "Кнопка в шапке мобайл", "provider": "adfox", "adaptive": [ "tablet", "phone" ], "adfox": { "ownerId": 228129, "params": { "p1": "byzqf", "p2": "ftwx" } } }, { "id": 17, "label": "Stratum Desktop", "provider": "adfox", "adaptive": [ "desktop" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fzvb" } } }, { "id": 18, "label": "Stratum Mobile", "provider": "adfox", "adaptive": [ "tablet", "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fzvc" } } }, { "id": 19, "label": "Тизер на главной", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "p1": "cbltd", "p2": "gazs" } } } ]
Хакеры смогли обойти двухфакторную
авторизацию с помощью уговоров
Подписаться на push-уведомления
{ "page_type": "default" }