{"id":13772,"url":"\/distributions\/13772\/click?bit=1&hash=93a368816b1e347dfad2882f455fc9bb4606ce94b2370bda4e82b172745bc14e","title":"\u00ab\u041c\u0430\u0440\u043a\u0435\u0442\u00bb \u0437\u0430\u043f\u0443\u0441\u0442\u0438\u043b \u0440\u0435\u0444\u0435\u0440\u0430\u043b\u043a\u0443 \u0434\u043b\u044f \u043f\u0440\u043e\u0434\u0430\u0432\u0446\u043e\u0432","buttonText":"\u0427\u0442\u043e \u0434\u0435\u043b\u0430\u0442\u044c","imageUuid":"d09521f5-ee9c-5e06-8358-733cd4596e9d","isPaidAndBannersEnabled":false}

5 способов облегчить себе жизнь с помощью парсера

Эта статья поможет тем, кому необходимо обрабатывать большой объем информации в интернете. Это может быть ваш сайт, сайт конкурентов или соцсети.

Unsplash Darwin Vegher @darwiiiin

Об использовании парсинга говорят мало. Это подтверждает статистика запросов в Яндексе. В марте 2020 года было 7521 запросов. С апреля 2018 года эта цифра выросла всего на 38%. Парсинг может быть эффективен во многих сферах. Можно обрабатывать данные веб-страниц интернет-магазинов, форумов, блогов и других интернет-ресурсов, а также файлов различных форматов. Расскажу, что такое парсер и как он может вам помочь.

Данные в сети интернет расположены на веб-сайтах и представлены для человека в виде некоторого набора графических элементов, текста, изображений. Человек осуществляет парсинг каждый день: ищет номер телефона на веб-страничке, нужное изображение, просматривает товары в интернет-магазине.

С английского языка «to parse» – разбирать, анализировать. Однако способности человека ограничены. Поиск больше нескольких десятков номеров на сайте может стать современной пыткой.

А если необходимо найти сотни и тысячи номеров, адресов страниц в соцсетях на сотнях веб-страниц по определенным условиям и запросам? Тогда знающие люди используют специальные программы – парсеры. Вручную нереально освоить такой объем информации.

Также какая-то информация может быть скрыта от глаз пользователя, но она есть в коде веб-страницы.

Специальные программы анализируют код страницы с помощью различных алгоритмов от совсем простых (которые может написать начинающий программист) до сложнейших статистических моделей с использованием теории хаоса и нейронных сетей.

Парсеры вытаскивают нужную информацию, даже если владелец информации не хотел ею делиться. На многих сайтах номера телефонов отображаются не цифрами, а картинкой. Но хороший парсер справиться с таким препятствием.

Парсинг имеет сомнительную репутацию, так как часто его используют для составления спам-баз. Вспомните, как после размещения резюме на HeadHunter, всю следующую неделю вам постоянно звонили сомнительные организации и предлагали работу. Фирмы получили ваш номер и другие данные с помощью парсера.

Зато парсинг любят маркетологи и предприниматели. Они ищут клиентов с в соцсетях, на тематических форумах, торговых площадках, анализируя страницы, хэштеги и прочие данные. Создают себе свою базу клиентов, которую могут собирать годами.

А потом можно делать рекламу не по безликим настройкам таргета, а уже по готовой базе живых людей.

Таким образом, парсер — это программа, которая анализирует данные с интернет-ресурсов и систематизирует их в файл.

Парсер может решить следующие проблемы:

Наполнить интернет-магазин

В маленьком онлайн-магазине возможно описать и выставить цены нескольким десяткам или сотням товаров. Но у крупных магазинов могут быть тысячи наименований. При том, что и цены, и информация постоянно меняются.

Парсер позволит собирать описания к товарам с сайтов поставщиков и наполнять свой сайт. Он не только соберет текстовое наполнение, но и поработает с изображениями. Парсер может сразу выгружать данные на ваш сайт.

Я советую подходить с умом к такому лайфхаку. Проверяйте, адаптируйте описания. И всегда есть риск, что поисковикам не понравится неоригинальный контент, и на первые позиции ваш ресурс не попадет Уникальный контент всегда ценится выше. Используйте механизм с умом.

Для таких целей подойдет программа Elbuz.

Разработчики утверждают, что с ней вы наполните интрнет-магазин в 10 раз быстрее, чем самостоятельно.

Также справятся с задачей Дигернаут.

Самопарсинг

Парсер нужен не только, чтобы «заглядывать» в окна конкурентам. Парсер поможет оптимизировать свой сайт: найти битые ссылки, пробелы в тексте, отсутствие изображений. Сервис соотнесет информацию о наличии товара на складе и информацию на сайте. И информация будет постоянно обновляться.

Для парсинга собственного сайта или соцсетей можно обратиться к специалисту. Но не все начинающие предприниматели готовы платить за это. Тогда можно выбрать простую программу для парсинга, которая рассчитана на людей без навыков программирования.

Как правило, используют SEO-парсеры для анализа собственного сайта.

С задачей хорошо справится сервис PR-CY. Этот парсер не только проверит внутренние, внешние и технические характеристики веб-страницы, но и даст рекомендации, как исправить.

Если вам не нужен такой полный анализ, установите специальное расширение для браузера. Это самый простой вид парсеров. Например, расширение Parsers или Scraper.

Поиск лучших резюме

У известной кладовой всех вакансий и резюме HeadHunter есть API, но пока его функционал не решает все потребности клиентов, поэтому они обращаются к парсерам. (Хоть и администрация HH против парсинга данных).

Например, нужно найти на сайте с вакансиями всех программистов младше 35 лет с высшим образованием и стажем работы более трех лет, проживающими в городе Новосибирске. И потом вытащить их ФИО и номера телефонов и сохранить это в табличку Excel.

Работодатель и соискатель смогут находить подходящие варианты без ручного поиска.

Главное, не нарушать нормальную активность, иначе ваш аккаунт могут заблокировать. Чтобы избежать блокировки, имитируйте скорость человеческой активности при работе с парсером.

Из-за политики HeadHunter работайте только с надежным парсером. Многие обращаются к программистам, которые напишут скрипт на Python и Pandas.

Или можете воспользоваться Zennoposter.

Сбор контактной информации

Парсинг поможет составить списки контактов с дополнительной информацией: номера телефонов, почта, адрес. Данные потенциальных клиентов бесценны для бизнеса. Можно рассылать выгодные предложения на почту, оповещать об акциях по sms, сегментировать аудиторию.

Обычно контактную информацию собирают с соцсетей. В связи с их популярностью и эффективностью таргетированной рекламы есть много специальных парсеров. Самые популярные для Instagram Zengram, Tooligram, Pepper.Ninja. Для работы с вконтакте используют TargetHunter, Церебро Таргет, Segmento Target.

Работа агентства таргетированной рекламы неизбежно сопряжена с работой в сервисах парсинга.

Если говорить о работе с таргетированной рекламой во ВКонтакте, то функционал их рекламного кабинета довольно скудный, поэтому чтобы более эффективно расходовать бюджет и показывать рекламу только нужным нам пользователям, необходимо использовать парсеры.

Мы собираем данные об интересах пользователей и показа более релевантных рекламных предложений. Мы видим улучшение результатов рекламных кампаний, соответственно больше заявок, больше клиентов и больше прибыли для бизнеса.

Денис Журавлев, интернет-марктеолог, управляющий партнер LionSMM, основатель Zhuravel Marketing

Законно ли это? Нет. Это нарушение ФЗ “о персональных данных”. За такими действиями последует правовая ответственность. Многие отстаивают позицию, что раз человек разместил данные в социальной сети — он делает их публичными. Но судебная практика так не считает. Человек должен лично и осознанно разрешить использование его данных.

Хотя в мире есть противоречивая судебная практика. Например, hiQ Labs выиграла суд у гиганта Linkedin. Компания собирала открытые данные для научных исследований. Суд встал на позицию ограничения монополий на данные крупных корпораций. При этом есть решения суда с противоположной позицией. Кроме того соблюдение правил и персональных данных еще не гарантирует соблюдение норм об авторском праве.

Есть позиция, что не нарушает законодательсво парсинг групп или пабликов , так как программа использует только аккаунты.

Мы знаем из закона, что любая информация, относящаяся прямо или косвенно к физическому лицу, является персональной. Из этого определения нельзя сказать, что аккаунт не попадает под это определение. В каждом конкретном случае вопрос о данных будет решать суд. Тем более на аватарке часто стоят реальные фотографии.

Мы в 5 CATS используем парсинг для разных целей, от сбора ключевых слов для контекстной рекламы до составления баз ретаргетинга для социальных сетей. Парсинг всегда помогает собрать данные более точно и сэкономить время (всё, что делают парсеры, можно сделать вручную, затратив на это миллионы лет).

Сейчас почти каждый проект по продвижению ВКонтакте не обходится без парсеров, используем мы разные, в основном это Церебро Таргет и Таргет Хантер. Однако некоторые парсеры мы писали сами с нуля. Например, однажды перед нами стояла задача собрать сообщества ВКонтакте, которые подключены к маркет-платформе и при этом их суммарный охват превышает 20.000 человек. Маркет-платформа позволяет их все проранжировать, но не позволяет выгрузить в документ в виде списка ссылок. Такой парсер мы написали сами за 20 минут и моментально выполнили задачу.

Любой парсинг всегда даёт разные результаты в зависимости от той задачи, которую ему ставят. Программы могут собирать аккаунты пользователей, которые ведут себя определенным образом: ставят лайки на посты, подписываются на разные сообщества, участвуют в опросах. Как правило, базы ретаргетинга, которые мы получаем с помощью парсинга, работают более эффективно и оптимизируют стоимость целевого действия, чем похожие настройки, выставленные без помощи дополнительных инструментов. Мы постоянно тестируем разные программы и опытным путём находим то, что выполняет конкретную задачу.

Дмитрий Банчуков, основатель агентства SMM-агентства “5 CATS”

Парсинг контента в соцсетях

Можно быть самым крутым писателем с дипломом Йельского университета, Но какой в этом смысл, если твои посты не набирают лайки и расшаривания. Парсер поможет понять, какой контент в сети вызывает отклик у аудитории.

Особенно парсинг помогает начинающим блогерам: можно сразу составить контент-план из самых интересных тем для потенциальной ЦА блога.

Однако сложно завоевать популярность, генерируя вторичный контент. Эксперименты с темами могут оказаться как провальными, так и вывести ваш блог в топ. Просто соблюдайте баланс между «безопасными» темами и новыми форматами.

Для парсинга контента конкурентов подойдет такой парсер, как Netpeak Spider.

Как не испортить себе жизнь парсингом: юридические вопросы

Описывая все способы использования парсинга во благо бизнесу или блога, мы намекали на возможные проблемы с законом. Сложно однозначно дать юридическую инструкцию к парсингу, так как специальных норм и утвердившейся судебной практики нет, нужно выводить правила из других законов.

Главный совет: не делайте того, в чем не уверены. Найдите юриста и проконсультируйтесь, если не готовы брать ответственность за нарушение правил.


Для понимания общей картины необходимо провести четкую линию между Россией и остальным миром.

В нашей системе права и судебной практике нет определенных последствий для компаний за парсинг. Система понятий вокруг этого процесса сильно размыта. Этот вопрос находится в серой зоне права: нет прямых законов ни разрешающих, ни запрещающих этот процесс.

В качестве опоры российским бизнесменам приходится основываться на авторских правах, охране информации и злоупотреблении гражданскими правами. Для тех, кто собирается использовать этот инструмент, рекомендую тщательно изучить пользовательское соглашение и авторские права ресурса, парсинг с которого вы собираетесь осуществить. Однако стоит отметить, что законодательно существуют лишь следующие ограничения:

1. Не допускается нарушение Авторских и смежных прав.

2. Не допускается неправомерный доступ к охраняемой законом компьютерной информации.

3. Не допускается сбор сведений, составляющих коммерческую тайну, незаконным способом.

4. Не допускается заведомо недобросовестное осуществление гражданских прав (злоупотребление правом).

5. Не допускается использование гражданских прав в целях ограничения конкуренции.

Таким образом, даже в случае достаточно агрессивной политики какой-либо компании в отношении парсинга, привлечь к ответственности в России за это действие будет крайне проблематично - ведь на большинство сайтов, которые активно подвергаются парсингу весь контент представлен пользователями (объявления, заметки и т.д.), и авторские правы на него не распространяются. Ситуация же в остальном мире выглядит довольно противоречивой. С одной стороны, Google в том или ином виде парсит информацию со всего интернета, с другой - судебная практика имеет большое количество оправдательных и обвинительных приговоров. Поэтому не рекомендую использовать софт для парсинга по отношению к иностранным компаниям, заранее не придя с ними к договоренности.

Александр Дужников, o-Founder портала о недвижимости Move.ru, ГК A3F Group и Marketcall

Заключение

Парсеров много, но все они работают по одному принципу:

1. Сперва вы устанавливаете рамки поиска данных.

2. Программа анализирует информацию в этих границах: на сайте, в соцсети, во всем интернете.

3. Вы указываете, в каком виде хотите получить отчет.

4. Сервис систематизирует данные и выводит их файлом. Это может быть PDF, TXT и другие форматы.

Парсинг – отличный инструмент для экономии времени и денег. Только вам решать во благо ли использовать его. А если не хотите, чтобы парсер использовали против вас – не разбрасывайтесь персональными данными и контактной информацией. Особенно данными банковских карт.

0
8 комментариев
Написать комментарий...
Dmitry Dubov

Статье 7 часов,64 добавления в закладки,0 комментов.

Возможно это говорит о том,что парсинг востребован.

На днях снова ругался на неудобный поиск на airbnb (вероятно,специально,для выжачи жилья в нужном сайту порядке).

Но сходу не нашел каких-то актуальных парсеров под него. Или не так искал. Есть такие?

Ответить
Развернуть ветку
Дарья Еремеева
Автор

Готовое решение «под ключ» не находила, но на github выложены исходники парсеров для AirBnb, если разбираетесь в программировании (я не разбираюсь)

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Семен Смирнов
Об использовании парсинга говорят мало. Это подтверждает статистика запросов в Яндексе. В марте 2020 года было 7521 запросов

Запросы по слову API не пробовали считать?

Ответить
Развернуть ветку
Илья Наздрюхин

Не сравнивайте парсинг и API. API предоставит только те возможности по взаимодействию, которые вложил в него разработчик. Парсинг гораздо более широкое понятие, которое используется для произвольного анализа и сбора данных. И именно в этом его суть, т.к. зачастую владелец страницы не заинтересован в том, чтобы эти данные были собраны.
Иначе бы все пользовались API, а не изобретали велосипеды, не обходили капчу, не использовали нейронки для парсинга, не искали в картинках и куче блоков <div> номера телефонов и проч. 

Ответить
Развернуть ветку
Nick Fomich

Я бы скорее отметил следующие пункты:
1. Парсинг — слово, которое знают кодеры. Ищут инфу по реализации также кодеры. Так что надо смотреть запрос "how to parse..." и ему подобные;
2. Для русского человека этот запрос должен выглядеть как "сбор данных", "что там у конкурентов" и им подобные.

Но это придирки — статья как ликбез вполне себе.

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
EveryStraus _

Насчет резюме — все не так однозначно. Когда ведется поиск кандидатов на линейные позиции низшего звена, вроде администратора салона красоты, парсеры действительно могут помочь, но когда дело касается топ-менеджмента и узконаправленных специалистов — человеческое участие ничего не заменит.

Ответить
Развернуть ветку
Читать все 8 комментариев
null