Парсинг под микроскопом. Как эффективно собирать информацию в сети. Часть 2

Типы парсеров сайтов по способу доступа к интерфейсу:

Облачные парсеры

Программы размещаются на серверах разработчиков. Необходимо скачивать лишь результаты парсинга. Доступ к ПО осуществляется через веб-интерфейс или по API. Все сервисы имеют бесплатную версию, ограниченную периодом использования или количеством страниц для сканирования. Примеры облачных парсеров: Import.io, Octoparce

Программы-парсеры

В данном случае программы устанавливаются на ПК. Как правило, такие парсеры совместимы с ОС Windows. Для запуска на Mac OS необходимо использовать виртуальные машины. Отдельные программы могут работать со съемных носителей. Примеры программ-парсеров: ParserOK, Datacol

Типы парсеров сайтов по используемой технологии:

Парсеры на основе C#, Python и PHP

Такие парсеры создаются программистами для определенных задач, которые нельзя (или не эффективно) решать за счет стандартных программ, находящихся в свободном доступе.

Парсеры-расширения для браузеров

Собирать данные могут бесплатные расширения для браузеров, которые извлекают данные из html-кода страниц при помощи языка запросов Xpath и выгружают их в форматы XLSX, CSV, XML, JSON, Google Sheets и т.д. Примеры парсеров-расширений для Chrome: Parsers, Scraper.

Парсинг сайтов в Excel

В MS Excel парсинг реализован при помощи макросов, с последующей выгрузкой данных в форматы XLS и CSV. Пример парсера-макроса: ParserOK (бесплатная версия в течение 10 дней).

Парсинг в Google Sheets

В Google Sheets парсить данные можно при помощи функций importxml и importhtml. Первая применяется для сбора мета тегов и заголовков, количества внешних ссылок со страницы, количества товаров на странице категории и т.д. Вторая импортирует данные из таблиц и списков, размещенных на странице сайта.

Типы парсеров сайтов по назначению:

Программы-парсеры могут отличаться по типу решаемых задач, например:

  • мониторинг конкурентов;
  • сбор данных в определенной нише рынка;
  • парсинг товаров и цен;
  • парсинг данных соцсетей;
  • проверка оптимизации ресурса и т.д. (например, выявление битых ссылок на сайте).

Как выбрать подходящий парсер:

Для начала необходимо определить конкретную цель парсинга: для чего вам это необходимо. Какие данные, в каком объеме и в каком виде вы собираетесь получить в итоге? Как часто вам надо собирать и обрабатывать эти данные?

  • Если у вас ограничен бюджет и есть свободное время, можно разобраться со стандартными программами и сделать всё самостоятельно. Возможно, для этого потребуется освоить новую для вас тему, или значительно повысить свои компетенции в данной области.
  • Если вы не имеете свободного времени и/или не хотите загружать себя лишней технической информацией, обратитесь к профессионалам. Они помогут вам не только быстро собрать необходимый контент, но и залить его на ваш сайт.
  • Когда необходим большой объем информации со сложным функционалом, возможно, лучшим решением будет заказать создание парсера с гибкими настройками под ваши задачи.

Остались вопросы? Связаться с автором статьи можно через Telegram: @SolutionsStudio

77
9 комментариев

Есть ли принципиальные различия между работой парсеров на C# и Python? 

Здравствуйте, Виктор! На С# работает быстрее, что очень важно, когда массив информации большой. Кроме того, на С# более дружественный интерфейс, с которым справиться каждый, кто знаком с Windows.

2

Что скажете: парсинг вредит сайту - правда или миф?

Если парсер настроен грамотно, не агрессивен по отношению к серверу, который содержит необходимую информацию, то абсолютно никакого вреда принести не может.

1

Спасибо за то, что систематизировали классификацию в одной статье.

Здравствуйте, Елена! Всегда пожалуйста!

Какую можно вынести пользу, если заказать парсинг собственного сайта?