{"id":14284,"url":"\/distributions\/14284\/click?bit=1&hash=82a231c769d1e10ea56c30ae286f090fbb4a445600cfa9e05037db7a74b1dda9","title":"\u041f\u043e\u043b\u0443\u0447\u0438\u0442\u044c \u0444\u0438\u043d\u0430\u043d\u0441\u0438\u0440\u043e\u0432\u0430\u043d\u0438\u0435 \u043d\u0430 \u0442\u0430\u043d\u0446\u044b \u0441 \u0441\u043e\u0431\u0430\u043a\u0430\u043c\u0438","buttonText":"","imageUuid":""}

Максим Кульгин

7 авг 2019 7.08.2019

Топ-30 условно бесплатных парсеров сайтов в 2019 году

Моя компания занимается парсингом сайтов в России уже более трёх лет, ежедневно мы парсим около 400 крупнейших сайтов в РФ. На выходе мы просто отдаем данные в формате Excel/CSV. Но существуют и другие решения — готовые конструкторы для запуска парсинга без программирования. Ниже их список и краткая аннотация к каждому.

Парсинг страниц сайтов – это метод сбора данных с сайтов. Он превращает неструктурированную информацию в структурированные данные, которые можно использовать для анализа (например цен и-или ассортимента).

Для тех, которые не разбирается в программировании, написать свой парсер будет довольно сложно. У нас в команде парсингом занимаются три (!) программиста и задач все равно очень много.

К счастью, существуют инструменты, которые подходят как программистам, так и абсолютным новичкам. Вот наш список 30 самых популярных инструментов для парсинга в Интернете: от библиотеки с открытым исходным кодом до расширения браузера и ПО для настольных компьютеров.

Важно отметить, что все популярные сайты в России, которые мы парсим (например DNS, АШАН и т.п.) не очень любят этот процесс и всячески ему сопротивляются. И это может довольно сильно усложнить использование готовых визуальных конструкторов парсинга, которые упоминаются ниже. Кроме того, все перечисленные ниже решения имеют англоязычный интерфейс и документацию.

1. Beautiful Soup

Для кого: разработчики, обладающие хорошими навыками программирования для создания своего парсера.

Beautiful Soup – это библиотека Python с открытым исходным кодом, разработанная для парсинга HTML и XML-файлов. Это – основные синтаксические анализаторы Python, которые используются довольно широко. Если у вас есть навыки программирования, тогда объедините эту библиотеку с Python и получите отличный результат.

2. Octoparse

Для кого: Люди без опыта программирования в индустрии электронной коммерции, инвестиций, крипто-валюты, маркетинга, недвижимости и многих других.

Octoparse – это условно бесплатная платформа SaaS для парсинга. Вы можете использовать её для сбора данных с нужных сайтов и превращать полученную неструктурированную или частично структурированную информацию в упорядоченный набор данных без использования программирования. Платформа предоставляет готовые шаблоны для сбора, включая eBay, Twitter, BestBuy и многие другие.

3. Import.io

Для кого: Предприятие, которое ищет интегрированное решение для обработки веб-данных.

Import.io – это SaaS - платформа для парсинга сайтов. Платформа предоставляет программное обеспечение для парсинга веб-страниц, которое позволяет собирать информацию и структурировать ее в наборы данных. Вы можете интегрировать полученные данные в аналитические инструменты для отдела продаж и маркетинга.

4. Mozenda

Для кого: Предприятие и бизнес с масштабируемыми потребностями в данных.

Mozenda предоставляет инструмент для извлечения данных, который позволяет легко "захватывать" контент из Интернета. дополнительно предоставляются услуги в визуализации данных, что избавляет от необходимости нанимать собственного специалиста по аналитике.

5. ParseHub

Для кого: аналитики, маркетологи, которым не хватает навыков программирования.

ParseHub – это программа для визуального просмотра веб-страниц, которую вы можете использовать для получения данных из Интернета. Вы можете извлечь данные, нажав на любые поля на сайте с помощью визуального конструктора. Поддерживается ротация IP-адресов, которая поможет изменить ваш адрес, когда вы сталкиваетесь с сайтами, использующими защиту от парсинга.

6. CrawlMonster

Для кого это: SEO- специалисты и маркетологи

CrawlMonster – это бесплатная программа для сканирования веб-страниц. Он позволяет сканировать веб-сайты и анализировать содержимое сайта, исходный код, статус страницы и многое другое.

7. Connotate

Для кого это: Предприятие, которое ищет интегрированное решение для веб-парсинга.

Connotate работает вместе с Import.IO, который предоставляет решение для автоматизации парсинга веб-данных. Он предоставляет сервис для парсинга, который поможет вам сканировать, собрать и обработать данные.

8. Common Crawl

Для кого это: исследователи, студенты и профессора.

Common Crawl основан на идее открытого исходного кода в эпоху цифровых технологий. Он предоставляет открытые наборы данных заранее просканированных веб-сайтов. Сервис содержит необработанные данные веб-страниц, извлеченные метаданные и отрывки текста.

9. Crawly

Для кого это: Для людей не обладающих навыками программирования.

Crawly предоставляет автоматический сервис, который парсит веб-сайт и превращает его в структурированные данные формата JSON и-или CSV. Программа может извлечь ограниченные элементы в течение нескольких секунд, в том числе: текст заголовка, HTML, комментарии, авторов, URL-адреса изображений, видео и т.п.

10. Content Grabber

Для кого это: разработчики Python, с большим опытом программирования.

Content Grabber – это программное обеспечение, предназначенное для специалистов. Вы можете создавать свои собственные парсеры с помощью встроенных инструментов. Продукт очень гибок в работе со сложными веб-сайтами и сбором данных.

11. Diffbot

Для кого это: разработчики и бизнес.

Diffbot – это инструмент для поиска в сети, который использует машинное обучение, алгоритмы и общедоступные API-интерфейсы для извлечения данных из веб-страниц. Вы можете использовать Diffbot для анализа конкурентов, мониторинга цен, анализа поведения потребителей и многого другого.

12. Dexi.io

Для кого это: люди с навыками программирования и опытом парсинга.

Dexi.io – это браузерный парсер. Он предоставляет три типа роботов – "экстрактор", "краулер" и "конвейер". Конвейер содержит функцию Master robot, где один робот может управлять несколькими задачами. Поддерживается множество сторонних сервисов ("решатели" капчи, облачное хранилище и т. д.), которые вы можете легко интегрировать в своих роботов.

13. Data Scraping Studio

Для кого это: аналитики данных, маркетологи, которым не хватает навыков программирования.

Data Scraping Studio – это бесплатное программное обеспечение для сбора данных с веб-страниц, HTML, XML и PDF. Данный продукт в настоящее время доступен только для ОС Windows.

14. Easy Web Extract

Для кого это: бизнес с ограниченными потребностями в данных, маркетологи, которым не хватает навыков программирования.

Easy Web Extract – это программное обеспечение для визуального просмотра веб-страниц. Он может извлекать содержимое (текст, URL, изображение, файлы) из веб-страниц и преобразовывать результаты в несколько форматов. Просто, удобно и быстро.

15. FMiner

Для кого это: аналитики данных, маркетологи, которым не хватает навыков программирования.

FMiner – это программа для просмотра веб-страниц с визуальным дизайнером диаграмм, которая позволяет вам создавать проект с помощью записи макросов без написания кода.

16. Scrapy

Для кого это: разработчики Python с навыками программирования и паринга

Scrapy используется для разработки прасеров. Что хорошо в этом продукте, так это то, что он поддерживает асинхронную обработку, которая позволит вам перейти к следующей задаче до ее завершения.

17. Helium Scraper

Для кого это: аналитики данных, маркетологи, которым не хватает навыков программирования.

Helium Scraper – это программное обеспечение для визуального парсинга сайтов, которое работает особенно хорошо с небольшими элементами на сайтах. Он имеет удобный интерфейс «укажи и кликни», который облегчает его использование.

18. Scrape.it

Для кого это: люди, которым нужны масштабируемые данные без написания кода.

Это решение позволяет хранить полученные данные локально. Вы можете создать свой парсер, используя его язык веб-парсеров (WSL), который имеет низкий порог входа и не требует написания сложного кода. Это хороший выбор, и его стоит попробовать, если вы ищете простой инструмент для парсинга веб-страниц.

19. ScraperWiki

Для кого это: среда анализа данных с помощью Python и R, идеальная для экономистов, статистиков и менеджеров данных, плохо знакомых с программированием.

Решение состоит из двух частей. Одной из них является QuickCode, который предназначен для экономистов, статистиков и менеджеров данных со знанием языков Python и R. Вторая часть – The Sensible Code Company, которая предоставляет веб-сервис для преобразования "сырой" информации в структурированные данные.

20. ScrapingHub

Для кого это : разработчики Python

Scraping Hub – это мощная облачная платформа. Имеет четыре различных типа инструментов – Scrapy Cloud, Portia, Crawlera и Splash. Большой плюс, что Scrapinghub предлагает набор IP-адресов для более чем 50 стран, что является решением проблем защитой от парсинга на некоторых сайтах.

21. Screen Scraper

Для кого это: Для бизнеса, который относится к автомобильной, медицинской, финансовой и электронной коммерции.

Screen Scraper предоставляет сервис для автомобильной отрасли, медицинской, финансовой и электронной коммерции. Этот инструмент удобнее и проще по сравнению с другими инструментами, как например Octoparse.

22. Salestools.io

Для кого это: маркетинг и продажи.

Salestools.io предоставляет программное обеспечение для поиска в сети, которое помогает продавцам собирать данные в профессиональных сетях, таких как LinkedIn, Angellist, Viadeo.

23. ScrapeHero

Для кого это: инвесторы, хедж-фонды, аналитики рынка

24. UiPath

Для кого это: Бизнес всех масштабов.

UiPath – это автоматизированное ПО для автоматизации процессов парсинга.

25. Web Content Extractor

Для кого это: аналитики данных, маркетологи, которым не хватает навыков программирования.

Web Content Extractor – это очень простая в использовании программа для парсинга в личных или корпоративных целях. Ее очень легко изучить и освоить, а также она имеет 14-дневную бесплатную пробную версию.

26. WebHarvy Web Scraper

Для кого это: аналитики данных, маркетологи, которым не хватает навыков программирования.

WebHarvy – это программа для парсинга веб-страниц. Предназначена для для тех, кто не умеет программировать. Предоставляются отличные руководства по обучению парсингу, которые очень полезны для большинства начинающих пользователей.

27. Web Scraper.io

Для кого это: аналитик данных, маркетологи, которым не хватает навыков программирования.

Web Scraper – расширение для браузера Chrome, созданное для сбора данных с веб-сайтов. Это бесплатное программное обеспечение подходит для парсинга динамических веб-страниц.

28. Web Sundrew

Для кого это: предприятия, маркетологов.

WebSundew – это инструмент для визуального парсинга. Версия Enterprise позволяет запускать парсинг на удаленном сервере и публиковать собранные данные через FTP.

29. Winautomation

Для кого это: разработчики, ИТ-специалисты

Winautomation – это инструмент для парсинга веб-страниц под Windows, который позволяет локально решать задачи парсинга данных.

30. Web Robots

Для кого это: аналитик данных, маркетологи, которым не хватает навыков программирования.

Web Robots – это облачная веб-платформа для парсинга динамических JavaScript-сайтов. У него есть расширение для веб-браузера, а также программное обеспечение для настольных компьютеров, с помощью которого достаточно легко собирать данные с веб-сайтов.

6 показов

14K открытий

18 комментариев

Написать комментарий...

Алексей Nein

7.08.2019

А почему отжаете Excel/CSV? Это же не читаемо и не обрабатываемо. Почему не дамп db?

Ответить

Развернуть ветку

Максим Кульгин

8.08.2019 Автор

Ну как сказать, ведь в 90% случаев данные анализирует маркетолог. Бывает конечно, что люди загружают данные по АПИ к себе, в основной массе - Excel. Вот типа такого - это пример парсинга Wildberries. https://xmldatafeed.com/catalog/fashion/parsing-wildberries/

Ответить

Развернуть ветку

Алексей Nein

8.08.2019

А Вы через прокси работаете? Как Вас не банят?))). А если на сайтах асинхрон (ну когда DOM приходит полупустой в реквесте), то селениумом или у Вас что-то своё?

Ответить

Развернуть ветку

Максим Кульгин

8.08.2019 Автор

да, через прокси, хромиум - банят конечно. Для каждого сайта свой подход - и не всегда получается, признаюсь.

Ответить

Развернуть ветку

Аккаунт удален

7.08.2019

Комментарий недоступен

Ответить

Развернуть ветку

Семен Смирнов

7.08.2019

Если надо здесь и сейчас - не пойдет

Ответить

Развернуть ветку

Аккаунт удален

8.08.2019

Комментарий недоступен

Ответить

Развернуть ветку

Аккаунт удален

8.08.2019

Комментарий недоступен

Ответить

Развернуть ветку

Максим Кульгин

8.08.2019 Автор

нашим клиентам это просто не нужно - им "завтра" нужны данные. А не осваивать php ))

Ответить

Развернуть ветку

Аккаунт удален

8.08.2019

Комментарий недоступен

Ответить

Развернуть ветку

Sergey Deynego

13.09.2019

1. бесплатных парсеров не бывает

2. На ПХП делать конечно можно... но не серьезно ( лет 10 назад бросил это и перешел на другие технологии)

3. Сторонние библиотеки - смотря какие. Надо просто попробовать понять для чего они и научиться правильно применять. Велосипедостроение - это особая отличительная черта любителей ....

Ответить

Развернуть ветку

Аккаунт удален

8.08.2019

Комментарий недоступен

Ответить

Развернуть ветку

Максим Кульгин

8.08.2019 Автор

да там все просто, 3 разработчика, 2 года работы, множество серверов стек .net

Ответить

Развернуть ветку

Аккаунт удален

8.08.2019

Комментарий недоступен

Ответить

Развернуть ветку

Sergey Deynego

13.09.2019

3 разработчика ... 2 года... и всего 400 сайтов?... скромно.

Ответить

Развернуть ветку

Максим Кульгин

13.09.2019 Автор

поддержки много

Ответить

Развернуть ветку

Sergey Deynego

13.09.2019

это точно, 90% трудозатрат уходит на это.

Ответить

Развернуть ветку

Alexander Burtsev

13.09.2019

Я бы дополнил статью неплохой библиотечкой для GO https://github.com/gocolly/colly

Ответить

Развернуть ветку

Написать комментарий...

15 комментариев

Раскрывать всегда