5 способов облегчить себе жизнь с помощью парсера

Эта статья поможет тем, кому необходимо обрабатывать большой объем информации в интернете. Это может быть ваш сайт, сайт конкурентов или соцсети.

Unsplash Darwin Vegher @darwiiiin<br /><br />
Unsplash Darwin Vegher @darwiiiin

Об использовании парсинга говорят мало. Это подтверждает статистика запросов в Яндексе. В марте 2020 года было 7521 запросов. С апреля 2018 года эта цифра выросла всего на 38%. Парсинг может быть эффективен во многих сферах. Можно обрабатывать данные веб-страниц интернет-магазинов, форумов, блогов и других интернет-ресурсов, а также файлов различных форматов. Расскажу, что такое парсер и как он может вам помочь.

Данные в сети интернет расположены на веб-сайтах и представлены для человека в виде некоторого набора графических элементов, текста, изображений. Человек осуществляет парсинг каждый день: ищет номер телефона на веб-страничке, нужное изображение, просматривает товары в интернет-магазине.

С английского языка «to parse» – разбирать, анализировать. Однако способности человека ограничены. Поиск больше нескольких десятков номеров на сайте может стать современной пыткой.

А если необходимо найти сотни и тысячи номеров, адресов страниц в соцсетях на сотнях веб-страниц по определенным условиям и запросам? Тогда знающие люди используют специальные программы – парсеры. Вручную нереально освоить такой объем информации.

Также какая-то информация может быть скрыта от глаз пользователя, но она есть в коде веб-страницы.

Специальные программы анализируют код страницы с помощью различных алгоритмов от совсем простых (которые может написать начинающий программист) до сложнейших статистических моделей с использованием теории хаоса и нейронных сетей.

Парсеры вытаскивают нужную информацию, даже если владелец информации не хотел ею делиться. На многих сайтах номера телефонов отображаются не цифрами, а картинкой. Но хороший парсер справиться с таким препятствием.

Парсинг имеет сомнительную репутацию, так как часто его используют для составления спам-баз. Вспомните, как после размещения резюме на HeadHunter, всю следующую неделю вам постоянно звонили сомнительные организации и предлагали работу. Фирмы получили ваш номер и другие данные с помощью парсера.

Зато парсинг любят маркетологи и предприниматели. Они ищут клиентов с в соцсетях, на тематических форумах, торговых площадках, анализируя страницы, хэштеги и прочие данные. Создают себе свою базу клиентов, которую могут собирать годами.

А потом можно делать рекламу не по безликим настройкам таргета, а уже по готовой базе живых людей.

Таким образом, парсер — это программа, которая анализирует данные с интернет-ресурсов и систематизирует их в файл.

Парсер может решить следующие проблемы:

Наполнить интернет-магазин

В маленьком онлайн-магазине возможно описать и выставить цены нескольким десяткам или сотням товаров. Но у крупных магазинов могут быть тысячи наименований. При том, что и цены, и информация постоянно меняются.

Парсер позволит собирать описания к товарам с сайтов поставщиков и наполнять свой сайт. Он не только соберет текстовое наполнение, но и поработает с изображениями. Парсер может сразу выгружать данные на ваш сайт.

Я советую подходить с умом к такому лайфхаку. Проверяйте, адаптируйте описания. И всегда есть риск, что поисковикам не понравится неоригинальный контент, и на первые позиции ваш ресурс не попадет Уникальный контент всегда ценится выше. Используйте механизм с умом.

Для таких целей подойдет программа Elbuz.

Разработчики утверждают, что с ней вы наполните интрнет-магазин в 10 раз быстрее, чем самостоятельно.

Также справятся с задачей Дигернаут.

Самопарсинг

Парсер нужен не только, чтобы «заглядывать» в окна конкурентам. Парсер поможет оптимизировать свой сайт: найти битые ссылки, пробелы в тексте, отсутствие изображений. Сервис соотнесет информацию о наличии товара на складе и информацию на сайте. И информация будет постоянно обновляться.

Для парсинга собственного сайта или соцсетей можно обратиться к специалисту. Но не все начинающие предприниматели готовы платить за это. Тогда можно выбрать простую программу для парсинга, которая рассчитана на людей без навыков программирования.

Как правило, используют SEO-парсеры для анализа собственного сайта.

С задачей хорошо справится сервис PR-CY. Этот парсер не только проверит внутренние, внешние и технические характеристики веб-страницы, но и даст рекомендации, как исправить.

Если вам не нужен такой полный анализ, установите специальное расширение для браузера. Это самый простой вид парсеров. Например, расширение Parsers или Scraper.

Поиск лучших резюме

У известной кладовой всех вакансий и резюме HeadHunter есть API, но пока его функционал не решает все потребности клиентов, поэтому они обращаются к парсерам. (Хоть и администрация HH против парсинга данных).

Например, нужно найти на сайте с вакансиями всех программистов младше 35 лет с высшим образованием и стажем работы более трех лет, проживающими в городе Новосибирске. И потом вытащить их ФИО и номера телефонов и сохранить это в табличку Excel.

Работодатель и соискатель смогут находить подходящие варианты без ручного поиска.

Главное, не нарушать нормальную активность, иначе ваш аккаунт могут заблокировать. Чтобы избежать блокировки, имитируйте скорость человеческой активности при работе с парсером.

Из-за политики HeadHunter работайте только с надежным парсером. Многие обращаются к программистам, которые напишут скрипт на Python и Pandas.

Или можете воспользоваться Zennoposter.

Сбор контактной информации

Парсинг поможет составить списки контактов с дополнительной информацией: номера телефонов, почта, адрес. Данные потенциальных клиентов бесценны для бизнеса. Можно рассылать выгодные предложения на почту, оповещать об акциях по sms, сегментировать аудиторию.

Обычно контактную информацию собирают с соцсетей. В связи с их популярностью и эффективностью таргетированной рекламы есть много специальных парсеров. Самые популярные для Instagram Zengram, Tooligram, Pepper.Ninja. Для работы с вконтакте используют TargetHunter, Церебро Таргет, Segmento Target.

Работа агентства таргетированной рекламы неизбежно сопряжена с работой в сервисах парсинга.

Если говорить о работе с таргетированной рекламой во ВКонтакте, то функционал их рекламного кабинета довольно скудный, поэтому чтобы более эффективно расходовать бюджет и показывать рекламу только нужным нам пользователям, необходимо использовать парсеры.

Мы собираем данные об интересах пользователей и показа более релевантных рекламных предложений. Мы видим улучшение результатов рекламных кампаний, соответственно больше заявок, больше клиентов и больше прибыли для бизнеса.

Денис Журавлев, интернет-марктеолог, управляющий партнер LionSMM, основатель Zhuravel Marketing

Законно ли это? Нет. Это нарушение ФЗ “о персональных данных”. За такими действиями последует правовая ответственность. Многие отстаивают позицию, что раз человек разместил данные в социальной сети — он делает их публичными. Но судебная практика так не считает. Человек должен лично и осознанно разрешить использование его данных.

Хотя в мире есть противоречивая судебная практика. Например, hiQ Labs выиграла суд у гиганта Linkedin. Компания собирала открытые данные для научных исследований. Суд встал на позицию ограничения монополий на данные крупных корпораций. При этом есть решения суда с противоположной позицией. Кроме того соблюдение правил и персональных данных еще не гарантирует соблюдение норм об авторском праве.

Есть позиция, что не нарушает законодательсво парсинг групп или пабликов , так как программа использует только аккаунты.

Мы знаем из закона, что любая информация, относящаяся прямо или косвенно к физическому лицу, является персональной. Из этого определения нельзя сказать, что аккаунт не попадает под это определение. В каждом конкретном случае вопрос о данных будет решать суд. Тем более на аватарке часто стоят реальные фотографии.

Мы в 5 CATS используем парсинг для разных целей, от сбора ключевых слов для контекстной рекламы до составления баз ретаргетинга для социальных сетей. Парсинг всегда помогает собрать данные более точно и сэкономить время (всё, что делают парсеры, можно сделать вручную, затратив на это миллионы лет).

Сейчас почти каждый проект по продвижению ВКонтакте не обходится без парсеров, используем мы разные, в основном это Церебро Таргет и Таргет Хантер. Однако некоторые парсеры мы писали сами с нуля. Например, однажды перед нами стояла задача собрать сообщества ВКонтакте, которые подключены к маркет-платформе и при этом их суммарный охват превышает 20.000 человек. Маркет-платформа позволяет их все проранжировать, но не позволяет выгрузить в документ в виде списка ссылок. Такой парсер мы написали сами за 20 минут и моментально выполнили задачу.

Любой парсинг всегда даёт разные результаты в зависимости от той задачи, которую ему ставят. Программы могут собирать аккаунты пользователей, которые ведут себя определенным образом: ставят лайки на посты, подписываются на разные сообщества, участвуют в опросах. Как правило, базы ретаргетинга, которые мы получаем с помощью парсинга, работают более эффективно и оптимизируют стоимость целевого действия, чем похожие настройки, выставленные без помощи дополнительных инструментов. Мы постоянно тестируем разные программы и опытным путём находим то, что выполняет конкретную задачу.

Дмитрий Банчуков, основатель агентства SMM-агентства “5 CATS”

Парсинг контента в соцсетях

Можно быть самым крутым писателем с дипломом Йельского университета, Но какой в этом смысл, если твои посты не набирают лайки и расшаривания. Парсер поможет понять, какой контент в сети вызывает отклик у аудитории.

Особенно парсинг помогает начинающим блогерам: можно сразу составить контент-план из самых интересных тем для потенциальной ЦА блога.

Однако сложно завоевать популярность, генерируя вторичный контент. Эксперименты с темами могут оказаться как провальными, так и вывести ваш блог в топ. Просто соблюдайте баланс между «безопасными» темами и новыми форматами.

Для парсинга контента конкурентов подойдет такой парсер, как Netpeak Spider.

Как не испортить себе жизнь парсингом: юридические вопросы

Описывая все способы использования парсинга во благо бизнесу или блога, мы намекали на возможные проблемы с законом. Сложно однозначно дать юридическую инструкцию к парсингу, так как специальных норм и утвердившейся судебной практики нет, нужно выводить правила из других законов.

Главный совет: не делайте того, в чем не уверены. Найдите юриста и проконсультируйтесь, если не готовы брать ответственность за нарушение правил.


Для понимания общей картины необходимо провести четкую линию между Россией и остальным миром.

В нашей системе права и судебной практике нет определенных последствий для компаний за парсинг. Система понятий вокруг этого процесса сильно размыта. Этот вопрос находится в серой зоне права: нет прямых законов ни разрешающих, ни запрещающих этот процесс.

В качестве опоры российским бизнесменам приходится основываться на авторских правах, охране информации и злоупотреблении гражданскими правами. Для тех, кто собирается использовать этот инструмент, рекомендую тщательно изучить пользовательское соглашение и авторские права ресурса, парсинг с которого вы собираетесь осуществить. Однако стоит отметить, что законодательно существуют лишь следующие ограничения:

1. Не допускается нарушение Авторских и смежных прав.

2. Не допускается неправомерный доступ к охраняемой законом компьютерной информации.

3. Не допускается сбор сведений, составляющих коммерческую тайну, незаконным способом.

4. Не допускается заведомо недобросовестное осуществление гражданских прав (злоупотребление правом).

5. Не допускается использование гражданских прав в целях ограничения конкуренции.

Таким образом, даже в случае достаточно агрессивной политики какой-либо компании в отношении парсинга, привлечь к ответственности в России за это действие будет крайне проблематично - ведь на большинство сайтов, которые активно подвергаются парсингу весь контент представлен пользователями (объявления, заметки и т.д.), и авторские правы на него не распространяются. Ситуация же в остальном мире выглядит довольно противоречивой. С одной стороны, Google в том или ином виде парсит информацию со всего интернета, с другой - судебная практика имеет большое количество оправдательных и обвинительных приговоров. Поэтому не рекомендую использовать софт для парсинга по отношению к иностранным компаниям, заранее не придя с ними к договоренности.

Александр Дужников, o-Founder портала о недвижимости Move.ru, ГК A3F Group и Marketcall

Заключение

Парсеров много, но все они работают по одному принципу:

1. Сперва вы устанавливаете рамки поиска данных.

2. Программа анализирует информацию в этих границах: на сайте, в соцсети, во всем интернете.

3. Вы указываете, в каком виде хотите получить отчет.

4. Сервис систематизирует данные и выводит их файлом. Это может быть PDF, TXT и другие форматы.

Парсинг – отличный инструмент для экономии времени и денег. Только вам решать во благо ли использовать его. А если не хотите, чтобы парсер использовали против вас – не разбрасывайтесь персональными данными и контактной информацией. Особенно данными банковских карт.

1717
8 комментариев

Статье 7 часов,64 добавления в закладки,0 комментов.

Возможно это говорит о том,что парсинг востребован.

На днях снова ругался на неудобный поиск на airbnb (вероятно,специально,для выжачи жилья в нужном сайту порядке).

Но сходу не нашел каких-то актуальных парсеров под него. Или не так искал. Есть такие?

1
Ответить

Готовое решение «под ключ» не находила, но на github выложены исходники парсеров для AirBnb, если разбираетесь в программировании (я не разбираюсь)

Ответить

Комментарий недоступен

Ответить

Об использовании парсинга говорят мало. Это подтверждает статистика запросов в Яндексе. В марте 2020 года было 7521 запросов

Запросы по слову API не пробовали считать?

Ответить

Не сравнивайте парсинг и API. API предоставит только те возможности по взаимодействию, которые вложил в него разработчик. Парсинг гораздо более широкое понятие, которое используется для произвольного анализа и сбора данных. И именно в этом его суть, т.к. зачастую владелец страницы не заинтересован в том, чтобы эти данные были собраны.
Иначе бы все пользовались API, а не изобретали велосипеды, не обходили капчу, не использовали нейронки для парсинга, не искали в картинках и куче блоков <div> номера телефонов и проч. 

Ответить

Я бы скорее отметил следующие пункты:
1. Парсинг — слово, которое знают кодеры. Ищут инфу по реализации также кодеры. Так что надо смотреть запрос "how to parse..." и ему подобные;
2. Для русского человека этот запрос должен выглядеть как "сбор данных", "что там у конкурентов" и им подобные.

Но это придирки — статья как ликбез вполне себе.

Ответить

Комментарий недоступен

Ответить