Парсинг под микроскопом. Как эффективно собирать информацию в сети. Часть 1

Парсинг (скраппинг) — это сбор информации в Интернете специальной программой-парсером по заранее заданным условиям. Если такую работу проводить вручную, она будет рутинной и трудоемкой. Для того, чтобы облегчить выполнение подобных задач, создаются специальные программы-парсеры.

С технической точки зрения, парсинг — это синтаксический анализ текста сайтов. Вне зависимости от того, на каком языке написан парсер, алгоритм его действия остается следующим:

  • Получение доступа к структуре страниц веб-ресурса.
  • Чтение, затем извлечение и обработка полученных данных.
  • Сохранение итоговой информации в определенном формате.

Иными словами, вы получаете доступ к исходному коду страницы, после чего программа анализирует его и находит некоторые соответствия. Затем сопоставляет и сохраняет информацию в соответствии с заданными условиями. Некоторые программы сохраняют данные в SQl, другие в XML, XLS, HTML или в обычный TXT.

Технически “парсить” можно практически все, в зависимости от того, какой программой вы пользуетесь, и насколько защищен интересующий вас веб-ресурс. Объектом парсинга могут быть данные сайтов, поисковой выдачи, интернет-магазинов, социальных сетей и т.д.

В “благих целях” обычно применяется для сбора и анализа больших объемов технической и коммерческой информации в собственных проектах или на сайтах конкурентов, и/или первичного заполнения сайта контентом (к примеру, товары для интернет-магазина).

Какие задачи можно решать при помощи парсинга

Наиболее активными “парсерами” всемирной сети являются роботы поисковых систем. Кроме того, аналогичную технологию используют, например, программы автоматической проверки уникальности текстовой информации.

Парсинг можно использовать для:

  • сбора информации о характеристиках товаров и ценах конкурентов;
  • поиска резонансных страниц для анализа контент-стратегии конкурентов;
  • проверки на наличие бэклинка (держит ли какой-то определенный ресурс ссылку на ваш контент, и задана ли эта ссылка правильно);
  • сбора метаданных сайта для SEO-специалистов;
  • технической оптимизации веб-ресурса;
  • сбора открытой информации о профилях людей, которые активны, оставляют какие-то публикации, отзывы вашим конкурентам;
  • получения информации с Play Store (дата обновления игры, сколько установок, какая стоимость, кто разработчики, контактные данные и т.д);
  • парсинга поисковой выдачи Google или Яндекс.

Этично (законно) ли это?

На законодательном уровне сбор открытой информации в Интернете ничем не ограничен. Если информация размещена в открытом доступе и не защищена авторскими правами или какими-то другими ограничениями, значит, ее можно копировать и распространять. Но при парсинге фото товаров стоит быть очень аккуратным, поскольку не всегда возможно определить уникальные фото, сделанные владельцем магазина, что может повлечь за собой претензии со стороны этого владельца.

Ссылка на первоисточник контента может рассматриваться как способ легитимизации.

Законным является сбор сведений, для получения которых не требуется авторизация. При этом надо учитывать, что персональные данные пользователей защищены законодательством, и собирать их без согласия владельцев нельзя, что особенно актуально при запросе парсинга социальных сетей.

Кроме того, надо иметь ввиду, что программа-парсер — это робот, который во время обращений к какому-то веб-ресурсу может создавать большой поток входящего трафика. Если создатель программы устанавливает частоту подключений около 250 в секунду, то работа парсера по нагрузке на сервер, содержащий необходимый ему ресурс, может быть аналогична DoS-атаке. Что, в свою очередь, может привести к блокированию работы программы со стороны администратора ресурса.

Остались вопросы? Связаться с автором статьи можно через Telegram: @SolutionsStudio

8 комментариев

Никогда не задумывался, что уникальность текста проверяется с помощью парсера. Было бы интересно почитать об этом подробнее.

Да, совершенно верно, технология одна и та же.

Спасибо. Теперь я знаю, что в большинстве случаев парсинг - это не противозаконно.

Пожалуйста! Да, вы правы.

Парсинг соцсетей - это всегда не законно? Или это зависит от того, выставляют ли пользователи свои контакты в открытый доступ?

Если контакты находятся в свободном доступе, то нет никакой разницы, увидите вы их лично, или, условно говоря, программа их обнаружит и покажет вам. Если же для получения контактных данных нужна авторизация на сервисе, или наличие каких-то специальных прав, то использование парсера в таких условиях будет рассматриваться как нарушение законодательства.

Заполнение интернет-магазина спарсеными у конкурентов товарами - это, конечно, удобно. Но ведь желательно, чтобы текст был уникальным на своём сайте. Жаль, что это пока только вручную делается.