{"id":10290,"title":"\u0412\u0437\u043b\u043e\u043c \u043d\u0435 \u043f\u0440\u043e\u0439\u0434\u0451\u0442. \u0421 \u0442\u0435\u0445\u043d\u043e\u043b\u043e\u0433\u0438\u0435\u0439 \u0443\u0434\u0430\u043b\u0451\u043d\u043d\u043e\u0433\u043e \u0434\u043e\u0441\u0442\u0443\u043f\u0430 \u043a \u043f\u0440\u043e\u0446\u0435\u0441\u0441\u043e\u0440\u0443","url":"\/redirect?component=advertising&id=10290&url=https:\/\/vc.ru\/promo\/305439-reshenie-dlya-biznesa-zashchitit-rabochie-kompyutery-i-tratit-menshe-na-tehpodderzhku&placeBit=1&hash=30863a1eda304e5fdd806f3aac980e7c84709ee5e2c10ff8a84ec0fda3e88cc5","isPaidAndBannersEnabled":false}

5 способов облегчить себе жизнь с помощью парсера

Эта статья поможет тем, кому необходимо обрабатывать большой объем информации в интернете. Это может быть ваш сайт, сайт конкурентов или соцсети.

Unsplash Darwin Vegher @darwiiiin

Об использовании парсинга говорят мало. Это подтверждает статистика запросов в Яндексе. В марте 2020 года было 7521 запросов. С апреля 2018 года эта цифра выросла всего на 38%. Парсинг может быть эффективен во многих сферах. Можно обрабатывать данные веб-страниц интернет-магазинов, форумов, блогов и других интернет-ресурсов, а также файлов различных форматов. Расскажу, что такое парсер и как он может вам помочь.

Данные в сети интернет расположены на веб-сайтах и представлены для человека в виде некоторого набора графических элементов, текста, изображений. Человек осуществляет парсинг каждый день: ищет номер телефона на веб-страничке, нужное изображение, просматривает товары в интернет-магазине.

С английского языка «to parse» – разбирать, анализировать. Однако способности человека ограничены. Поиск больше нескольких десятков номеров на сайте может стать современной пыткой.

А если необходимо найти сотни и тысячи номеров, адресов страниц в соцсетях на сотнях веб-страниц по определенным условиям и запросам? Тогда знающие люди используют специальные программы – парсеры. Вручную нереально освоить такой объем информации.

Также какая-то информация может быть скрыта от глаз пользователя, но она есть в коде веб-страницы.

Специальные программы анализируют код страницы с помощью различных алгоритмов от совсем простых (которые может написать начинающий программист) до сложнейших статистических моделей с использованием теории хаоса и нейронных сетей.

Парсеры вытаскивают нужную информацию, даже если владелец информации не хотел ею делиться. На многих сайтах номера телефонов отображаются не цифрами, а картинкой. Но хороший парсер справиться с таким препятствием.

Парсинг имеет сомнительную репутацию, так как часто его используют для составления спам-баз. Вспомните, как после размещения резюме на HeadHunter, всю следующую неделю вам постоянно звонили сомнительные организации и предлагали работу. Фирмы получили ваш номер и другие данные с помощью парсера.

Зато парсинг любят маркетологи и предприниматели. Они ищут клиентов с в соцсетях, на тематических форумах, торговых площадках, анализируя страницы, хэштеги и прочие данные. Создают себе свою базу клиентов, которую могут собирать годами.

А потом можно делать рекламу не по безликим настройкам таргета, а уже по готовой базе живых людей.

Таким образом, парсер — это программа, которая анализирует данные с интернет-ресурсов и систематизирует их в файл.

Парсер может решить следующие проблемы:

Наполнить интернет-магазин

В маленьком онлайн-магазине возможно описать и выставить цены нескольким десяткам или сотням товаров. Но у крупных магазинов могут быть тысячи наименований. При том, что и цены, и информация постоянно меняются.

Парсер позволит собирать описания к товарам с сайтов поставщиков и наполнять свой сайт. Он не только соберет текстовое наполнение, но и поработает с изображениями. Парсер может сразу выгружать данные на ваш сайт.

Я советую подходить с умом к такому лайфхаку. Проверяйте, адаптируйте описания. И всегда есть риск, что поисковикам не понравится неоригинальный контент, и на первые позиции ваш ресурс не попадет Уникальный контент всегда ценится выше. Используйте механизм с умом.

Для таких целей подойдет программа Elbuz.

Разработчики утверждают, что с ней вы наполните интрнет-магазин в 10 раз быстрее, чем самостоятельно.

Также справятся с задачей Дигернаут.

Самопарсинг

Парсер нужен не только, чтобы «заглядывать» в окна конкурентам. Парсер поможет оптимизировать свой сайт: найти битые ссылки, пробелы в тексте, отсутствие изображений. Сервис соотнесет информацию о наличии товара на складе и информацию на сайте. И информация будет постоянно обновляться.

Для парсинга собственного сайта или соцсетей можно обратиться к специалисту. Но не все начинающие предприниматели готовы платить за это. Тогда можно выбрать простую программу для парсинга, которая рассчитана на людей без навыков программирования.

Как правило, используют SEO-парсеры для анализа собственного сайта.

С задачей хорошо справится сервис PR-CY. Этот парсер не только проверит внутренние, внешние и технические характеристики веб-страницы, но и даст рекомендации, как исправить.

Если вам не нужен такой полный анализ, установите специальное расширение для браузера. Это самый простой вид парсеров. Например, расширение Parsers или Scraper.

Поиск лучших резюме

У известной кладовой всех вакансий и резюме HeadHunter есть API, но пока его функционал не решает все потребности клиентов, поэтому они обращаются к парсерам. (Хоть и администрация HH против парсинга данных).

Например, нужно найти на сайте с вакансиями всех программистов младше 35 лет с высшим образованием и стажем работы более трех лет, проживающими в городе Новосибирске. И потом вытащить их ФИО и номера телефонов и сохранить это в табличку Excel.

Работодатель и соискатель смогут находить подходящие варианты без ручного поиска.

Главное, не нарушать нормальную активность, иначе ваш аккаунт могут заблокировать. Чтобы избежать блокировки, имитируйте скорость человеческой активности при работе с парсером.

Из-за политики HeadHunter работайте только с надежным парсером. Многие обращаются к программистам, которые напишут скрипт на Python и Pandas.

Или можете воспользоваться Zennoposter.

Сбор контактной информации

Парсинг поможет составить списки контактов с дополнительной информацией: номера телефонов, почта, адрес. Данные потенциальных клиентов бесценны для бизнеса. Можно рассылать выгодные предложения на почту, оповещать об акциях по sms, сегментировать аудиторию.

Обычно контактную информацию собирают с соцсетей. В связи с их популярностью и эффективностью таргетированной рекламы есть много специальных парсеров. Самые популярные для Instagram Zengram, Tooligram, Pepper.Ninja. Для работы с вконтакте используют TargetHunter, Церебро Таргет, Segmento Target.

Работа агентства таргетированной рекламы неизбежно сопряжена с работой в сервисах парсинга.

Если говорить о работе с таргетированной рекламой во ВКонтакте, то функционал их рекламного кабинета довольно скудный, поэтому чтобы более эффективно расходовать бюджет и показывать рекламу только нужным нам пользователям, необходимо использовать парсеры.

Мы собираем данные об интересах пользователей и показа более релевантных рекламных предложений. Мы видим улучшение результатов рекламных кампаний, соответственно больше заявок, больше клиентов и больше прибыли для бизнеса.

Денис Журавлев
интернет-марктеолог, управляющий партнер LionSMM, основатель Zhuravel Marketing

Законно ли это? Нет. Это нарушение ФЗ “о персональных данных”. За такими действиями последует правовая ответственность. Многие отстаивают позицию, что раз человек разместил данные в социальной сети — он делает их публичными. Но судебная практика так не считает. Человек должен лично и осознанно разрешить использование его данных.

Хотя в мире есть противоречивая судебная практика. Например, hiQ Labs выиграла суд у гиганта Linkedin. Компания собирала открытые данные для научных исследований. Суд встал на позицию ограничения монополий на данные крупных корпораций. При этом есть решения суда с противоположной позицией. Кроме того соблюдение правил и персональных данных еще не гарантирует соблюдение норм об авторском праве.

Есть позиция, что не нарушает законодательсво парсинг групп или пабликов , так как программа использует только аккаунты.

Мы знаем из закона, что любая информация, относящаяся прямо или косвенно к физическому лицу, является персональной. Из этого определения нельзя сказать, что аккаунт не попадает под это определение. В каждом конкретном случае вопрос о данных будет решать суд. Тем более на аватарке часто стоят реальные фотографии.

Мы в 5 CATS используем парсинг для разных целей, от сбора ключевых слов для контекстной рекламы до составления баз ретаргетинга для социальных сетей. Парсинг всегда помогает собрать данные более точно и сэкономить время (всё, что делают парсеры, можно сделать вручную, затратив на это миллионы лет).

Сейчас почти каждый проект по продвижению ВКонтакте не обходится без парсеров, используем мы разные, в основном это Церебро Таргет и Таргет Хантер. Однако некоторые парсеры мы писали сами с нуля. Например, однажды перед нами стояла задача собрать сообщества ВКонтакте, которые подключены к маркет-платформе и при этом их суммарный охват превышает 20.000 человек. Маркет-платформа позволяет их все проранжировать, но не позволяет выгрузить в документ в виде списка ссылок. Такой парсер мы написали сами за 20 минут и моментально выполнили задачу.

Любой парсинг всегда даёт разные результаты в зависимости от той задачи, которую ему ставят. Программы могут собирать аккаунты пользователей, которые ведут себя определенным образом: ставят лайки на посты, подписываются на разные сообщества, участвуют в опросах. Как правило, базы ретаргетинга, которые мы получаем с помощью парсинга, работают более эффективно и оптимизируют стоимость целевого действия, чем похожие настройки, выставленные без помощи дополнительных инструментов. Мы постоянно тестируем разные программы и опытным путём находим то, что выполняет конкретную задачу.

Дмитрий Банчуков
основатель агентства SMM-агентства “5 CATS”

Парсинг контента в соцсетях

Можно быть самым крутым писателем с дипломом Йельского университета, Но какой в этом смысл, если твои посты не набирают лайки и расшаривания. Парсер поможет понять, какой контент в сети вызывает отклик у аудитории.

Особенно парсинг помогает начинающим блогерам: можно сразу составить контент-план из самых интересных тем для потенциальной ЦА блога.

Однако сложно завоевать популярность, генерируя вторичный контент. Эксперименты с темами могут оказаться как провальными, так и вывести ваш блог в топ. Просто соблюдайте баланс между «безопасными» темами и новыми форматами.

Для парсинга контента конкурентов подойдет такой парсер, как Netpeak Spider.

Как не испортить себе жизнь парсингом: юридические вопросы

Описывая все способы использования парсинга во благо бизнесу или блога, мы намекали на возможные проблемы с законом. Сложно однозначно дать юридическую инструкцию к парсингу, так как специальных норм и утвердившейся судебной практики нет, нужно выводить правила из других законов.

Главный совет: не делайте того, в чем не уверены. Найдите юриста и проконсультируйтесь, если не готовы брать ответственность за нарушение правил.


Для понимания общей картины необходимо провести четкую линию между Россией и остальным миром.

В нашей системе права и судебной практике нет определенных последствий для компаний за парсинг. Система понятий вокруг этого процесса сильно размыта. Этот вопрос находится в серой зоне права: нет прямых законов ни разрешающих, ни запрещающих этот процесс.

В качестве опоры российским бизнесменам приходится основываться на авторских правах, охране информации и злоупотреблении гражданскими правами. Для тех, кто собирается использовать этот инструмент, рекомендую тщательно изучить пользовательское соглашение и авторские права ресурса, парсинг с которого вы собираетесь осуществить. Однако стоит отметить, что законодательно существуют лишь следующие ограничения:

1. Не допускается нарушение Авторских и смежных прав.

2. Не допускается неправомерный доступ к охраняемой законом компьютерной информации.

3. Не допускается сбор сведений, составляющих коммерческую тайну, незаконным способом.

4. Не допускается заведомо недобросовестное осуществление гражданских прав (злоупотребление правом).

5. Не допускается использование гражданских прав в целях ограничения конкуренции.

Таким образом, даже в случае достаточно агрессивной политики какой-либо компании в отношении парсинга, привлечь к ответственности в России за это действие будет крайне проблематично - ведь на большинство сайтов, которые активно подвергаются парсингу весь контент представлен пользователями (объявления, заметки и т.д.), и авторские правы на него не распространяются. Ситуация же в остальном мире выглядит довольно противоречивой. С одной стороны, Google в том или ином виде парсит информацию со всего интернета, с другой - судебная практика имеет большое количество оправдательных и обвинительных приговоров. Поэтому не рекомендую использовать софт для парсинга по отношению к иностранным компаниям, заранее не придя с ними к договоренности.

Александр Дужников
o-Founder портала о недвижимости Move.ru, ГК A3F Group и Marketcall

Заключение

Парсеров много, но все они работают по одному принципу:

1. Сперва вы устанавливаете рамки поиска данных.

2. Программа анализирует информацию в этих границах: на сайте, в соцсети, во всем интернете.

3. Вы указываете, в каком виде хотите получить отчет.

4. Сервис систематизирует данные и выводит их файлом. Это может быть PDF, TXT и другие форматы.

Парсинг – отличный инструмент для экономии времени и денег. Только вам решать во благо ли использовать его. А если не хотите, чтобы парсер использовали против вас – не разбрасывайтесь персональными данными и контактной информацией. Особенно данными банковских карт.

0
8 комментариев
Популярные
По порядку
Написать комментарий...
Dmitry Dubov

Статье 7 часов,64 добавления в закладки,0 комментов.

Возможно это говорит о том,что парсинг востребован.

На днях снова ругался на неудобный поиск на airbnb (вероятно,специально,для выжачи жилья в нужном сайту порядке).

Но сходу не нашел каких-то актуальных парсеров под него. Или не так искал. Есть такие?

Ответить
1
Развернуть ветку
Дарья Еремеева

Готовое решение «под ключ» не находила, но на github выложены исходники парсеров для AirBnb, если разбираетесь в программировании (я не разбираюсь)

Ответить
0
Развернуть ветку
Роман Александров

Из-за того что отсутствует API и на странице календарь сделан на JS парсить приходится полноценным браузером, что достаточно ресурсозатратно. Плюс разметка постоянно меняется, поэтому парсер придется часто переделывать. Я где-то 3 недели потихоньку писал парсер, замучился от того что одна и та же страница карточки объекта могла иметь разную разметку, хотели с партнером анализировать рынок недвижимости по bigdata, но кризис нарушил планы, пока отложили. 
Я бы советовал если заказывать, то у разработчиков работающих на RPA решениях типа selenium, pip/nodejs +headless chrome, zennoposter и bablosoft. 

Ответить
0
Развернуть ветку
Семен Смирнов

Об использовании парсинга говорят мало. Это подтверждает статистика запросов в Яндексе. В марте 2020 года было 7521 запросов

Запросы по слову API не пробовали считать?

Ответить
0
Развернуть ветку
Илья Наздрюхин

Не сравнивайте парсинг и API. API предоставит только те возможности по взаимодействию, которые вложил в него разработчик. Парсинг гораздо более широкое понятие, которое используется для произвольного анализа и сбора данных. И именно в этом его суть, т.к. зачастую владелец страницы не заинтересован в том, чтобы эти данные были собраны.
Иначе бы все пользовались API, а не изобретали велосипеды, не обходили капчу, не использовали нейронки для парсинга, не искали в картинках и куче блоков <div> номера телефонов и проч. 

Ответить
0
Развернуть ветку
Nick Fomich

Я бы скорее отметил следующие пункты:
1. Парсинг — слово, которое знают кодеры. Ищут инфу по реализации также кодеры. Так что надо смотреть запрос "how to parse..." и ему подобные;
2. Для русского человека этот запрос должен выглядеть как "сбор данных", "что там у конкурентов" и им подобные.

Но это придирки — статья как ликбез вполне себе.

Ответить
0
Развернуть ветку
Роман Александров

Бесплатные решения для парсинга:
imacros плагин для браузеров
Ui vision RPA плагин для браузеров
Uipath 
bablosoft
selenium
Table capture плагин для chrome

Ответить
0
Развернуть ветку
EveryStraus _

Насчет резюме — все не так однозначно. Когда ведется поиск кандидатов на линейные позиции низшего звена, вроде администратора салона красоты, парсеры действительно могут помочь, но когда дело касается топ-менеджмента и узконаправленных специалистов — человеческое участие ничего не заменит.

Ответить
0
Развернуть ветку
Читать все 8 комментариев
Сервис поиска временных сотрудников Ventra Go! привлёк 700 млн рублей от фонда «ВТБ Капитал Инвестиции» Статьи редакции

Платформа помогает компаниям находить кассиров, продавцов, курьеров и других сотрудников.

Акции роста российских эмитентов на ближайшие 5 лет

Пандемия меняет мир и формируется новая тенденция на ближайшие годы. Ниже будут представлены компании, акции которых способны в новых мировых реалиях опередить динамику фондовых индексов.

Украли деньги с карты Тинькофф

30.12.2021 года я с семьей дочери поехала в магазин "Спортмастер" в г. Москва покупать коньки. Уведомлений от Тинькофф не было. 31.12.2021 года я увидела что есть какие то пуш уведомление при нажатии на него оно исчезло. Когда я зашла в онлайн приложение, то увидела что у меня с кредитной карты сняли 106 000 рублей , было снятие 7 суммами. Кроме…

Digital-склад: как избежать ошибок при переносе инфраструктуры в облако
Uber извинился перед собаками

Генеральный директор Uber Дара Хосровшахи принес извинения и даже дал скидку в 10 долларов…собакам.

MVP за 2 дня на no-code: как запустить свой стартап с минимумом вложений

Мы решили узнать, как и чем сейчас живут реальные no-code разработчики. Об особенностях работы с no-code мы говорим в интервью из первых уст со стартапером и зерокодером из США, Александром Манохиным. Он рассказал о том, как пришёл в разработку “без кода”, как самостоятельно освоил эту технологию, поделился трудностями, стереотипами вокруг…

Исследователи нашли уязвимость в Safari — она позволяет узнать историю браузера и имена пользователей Google Статьи редакции

При посещении сайта браузер создаёт базу данных с недавней активностью пользователя, к которой могут получить доступ другие сайты.

Круговая видеостена на 96 панелей и умное управление: как мы внедряли автоматизацию в ресторане в «Сколково» и что вышло

За красивой картинкой — 8200 метров кабеля и два двухметровых трековых шкафа с оборудованием. При этом энергопотребление ресторана сильно не увеличено.

Идеальный тимлид: миф или реальность?

Кто такой идеальный тимлид? Что ожидает руководство от такого сотрудника? Колонка Алексея Кирсанова, руководителя разработки «Битрикс24».

Twitter приобрел миноритарный пакет акций Aleph Group — материнской компании Httpool

Twitter Inc. (TWTR) — первая из компаний Кремниевой долины, которая стала акционером глобальной рекламной группы Aleph, объединяющей компании IMS, Httpool, Wise.Blue и AdDynamo. Таким образом Twitter поддержит международную образовательную инициативу Aleph Group по усилению цифровой экосистемы в странах с развивающейся экономикой.

Геозоны: разделяй и властвуй

Ильдар Бикташев, руководитель отдела картографии и алгоритмов, уже рассказывал, какие задачи стоят перед картографическими сервисами Master Delivery. Сегодня продолжаем разговор о том, как геоаналитические разработки решают маркетинговые и логистические задачи бизнеса.

null