Рубрика развивается при поддержке

Можно ли защитить свой сайт от парсинга? Нет, и вот почему

Моя компания занимается парсингом интернет-магазинов в России уже более трёх лет, ежедневно мы парсим около 400 крупнейших сайтов в РФ. И еще не встречали защиты, которую мы не смогли бы обойти.

В закладки

За последние годы мы реализовали множество проектов, связанных с получением данных крупнейших сайтов. Это, например, HeadHunter, «Яндекс.Еда», Beru.ru, «Ламода». И сегодня спрашиваем сами себя — можно ли защититься от этого? Более того, к нам уже обращаются компании, которые просят проверить свою защиту от парсинга "извне" так сказать. Расскажем чуть подробнее сложности, с которыми вы столкнетесь, если решите заняться защитой от парсинга.

Вначале - что такое Скрапинг, или парсинг? Это сбор данных с различных интернет-ресурсов. Общий принцип работы можно объяснить так: боты обращаются к открытым страницам целевого сайта, получают HTML-код, разбирают его на составляющие (парсят), ищут нужные данные и сохраняют в своей базе данных. Таким образом получается «чистая» копия данных, хранящихся на сайте, — товаров, резюме, изображений, текстов. Если над одним сайтом проводить парсинг регулярно, то можно отслеживать изменения. Например, наблюдать за изменением цен или товарных запасов. Самыми заметными парсерами являются поисковые системы. «Яндекс» и Google напрямую занимаются парсингом: они заходят на сайт и индексируют его — собирают информацию. Защищаясь от парсинга, подумайте — не заблокируете ли вы заодно и свое присутствие в поисковиках и любимый SEO?

У людей, далеких от IT, присутствует эдакое идеализированное представление о программировании как в компьютерных играх 80-х: вы надеваете шлем виртуальной реальности и погружаетесь в «Матрицу». На самом деле вся информация и все взаимодействия — это нули и единицы. Здесь нет ничего человеческого. Нет различия между данными, введенными компьютером или человеком.

Для вашего веб-сервера все равно, кто запрашивает данные — бот или человек. Оба они делают это одинаково. Если посетители могут получить доступ к контенту на вашем сайте, то и наш бот сможет получить такой же доступ (с вероятностью 99%). Все технологические решения против парсинга могут помешать реальным пользователям в той же мере, что и ботам.

Давайте рассмотрим все технические способы, которыми веб-сайт может попытаться заблокировать бота. Для желающих узнать больше деталей, посмотрите статью на этом сайте, где мы перечисляем основные источники защиты от парсинга, чтобы максимально осложнить жизнь желающим собрать с вашего сайта данные.

Техническая защита от парсинга

Блокировка "плохого" юзер-агента

Любой запрос к веб-серверу содержит заголовки, в том числе данные о браузере — так называемый юзер-агент (user agent), идентификатор клиента.

Решение: заголовки меняются произвольным образом и любой бот может имитировать реальных пользователей. Более того, на нашей стороне HTTP-заголовки рандомизируются (если это необходимо) между сеансами парсинга, поэтому так заблокировать бот невозможно.

Блокировка IP-адресов

Хорошо, заголовки можно произвольно менять, но невозможно менять IP-адрес, с которого обращается клиент. Можно же определить адреса ботов и заблокировать их?

Решение: «поддельные» IP-адреса — прокси. Это более сложно, чем подмена HTTP-заголовков, но тоже ничего экстраординарного. Мы используем комбинацию из ротации запросов и ротации IP-адресов, чтобы избежать идентифицируемых шаблонов поведения бота. У нас есть доступ к большому количеству IP-адресов, к тому же, как и в предыдущем случае, по IP-адресу отделить ботов от живых пользователей практически невозможно.

Да, есть списки прокси, провайдеров и т. п., которые можно блокировать. Но, во-первых, так вы отсечете и живых пользователей, а во-вторых, живых прокси гораздо больше, чем «черных списков», и всех заблокировать вряд ли возможно.

Использование капчи (captcha)

Конечно, вы можете добавить капчу для ограничения доступа в определенные разделы сайта или ограничения определенных действий.

Решение: API для решения капчи. Капча только добавит неудобств обычным пользователям. Все методы капчи (в том числе для reCAPTCHA от Google) легко обходятся с помощью сторонних сервисов, вроде 2Captcha, в которых реальные люди решают задачи, поставленные перед нашими ботами. Стоимость услуг минимальна (например, 100 рублей за 1000 задач).

Невидимая капча

Ваш сайт может анализировать поведение определенной сессии — использовать так называемую невидимую капчу. Невидимая капча использует комбинацию различных переменных для оценки вероятности того, что данный клиент является ботом.

Нет единого рецепта, как это реализовать. Различные провайдеры используют разные параметры для профилирования пользователей. Эта услуга предоставляется некоторыми CDN (например, Cloudflare) и традиционными провайдерами капчи, например Google reCAPTCHA.

Решение: даже пока не требуется, так как технология на самом деле не работает для ботов, а обычным пользователям только мешает (иногда).

По словам бывшего руководителя отдела Google по распознаванию кликфрода Шумана Гоземаджумдера, невидимая капча «просто создает новый тип задач, с которыми продвинутые боты по-прежнему справляются, а для людей они становятся большой проблемой».

Проверка электронной почты

Вы можете проверять живых пользователей по электронной почте — например, просить регистрацию для доступа на форум или для показа товарных запасов.

Решение: одноразовые ящики. Их можно регистрировать на собственном домене миллионами, а при блокировании одного быстро переходить на другой. Кроме того, создавать временные почтовые ящики можно и у существующих крупных провайдеров.

Изменение структуры сайта

Сайт может время от времени менять структуру, и в ответ на запрос HTML-код будет меняться.

Решение: на самом деле это самый дурацкий способ защиты. В большинстве случаев современные методы парсинга не сильно (если вообще) зависят от структуры сайта. Даже если предположить, что наши процессы зависят от структуры веб-сайта, то:

  • изменения структуры для вас «стоит» больше сил и времени, чем для нас;
  • наши системы уведомят, как только это произойдет;
  • это повлияет также на реальных пользователей.

Что еще можно применить?

Есть еще несколько методов защиты, которые можно применять, — это защита на уровне SMS-верификации, защита на уровне API с помощью ключа, на уровне фреймворков. Были даже предложения сделать Flash-версию сайта или генерить страницы в виде картинок.

Но все они либо также достаточно понятно обходятся (с помощью других фреймворков или системных утилит), либо катастрофичны для бизнеса с точки зрения пользовательского опыта (представляете магазин на Flash в 2019 году?). Так что мы в данной статье их рассматривать не будем. Если хотите обсудить — напишите в комментариях, и я расскажу подробнее о каждом случае.

Блокировка 98% парсеров

Хотя нельзя заблокировать все парсеры, вы можете помешать или заблокировать самые простые из них (а таких большинство), используя комбинацию вышеуказанных методов.

Стоит ли это ваших усилий? Ответ зависит от следующих факторов:

  • Какое влияние оказывают боты на ваш сайт/бизнес?
  • Повлияет ли это на реальных пользователей?

Чаще всего ответ заключается в том, что оно того не стоит.

Моральная защита

Как мы выяснили, технически побороть парсеры вряд ли получится. После этого большинство компаний переходят из области IT в область морали и пытаются представить тех, кто занимается скрапингом, в невыгодном свете. Рассмотрим их возражения.

Боты создают нагрузку

Скорее всего, правильно и разумно спроектированные боты обращаются к сайту 1–2 раза в секунду, что никакой нагрузки на сайт, который должен выдерживать сотни запросов в секунду, не создает. Да, есть "умельцы" которые совершенно не думают о владельцах сайтов и запускают парсинг в 100 потоков формируя просто запредельную паразитную нагрузку.

Вы тратите деньги компании, которая содержит сайт!

В общем случае — тоже нет. Электронный магазин или каталог товаров ничего от парсинга не теряет: трафик у него практически неограниченный, нагрузки боты, как мы говорили выше, не создают.

Безусловно, есть частные случаи. Например, мы хотели анализировать цены на авиабилеты, но оказалось, что получение любых запросов о стоимости перелета и наличии билетов обходится агрегаторам в определенную сумму. И если парсить их, то это приведет к неким неоправданным затратам (это не точно). Для нас самих это является некой моральной дилеммой, которую мы так и не смогли разрешить, а потому билеты мы так и не парсим, хотя запросы поступают регулярно. С другой стороны, если люди создают ресурс в общий доступ, нужно быть готовым к тому, что туда "прибегут боты", если не наши, так других исполнителей. И получается, отказываясь от парсинга мы просто перенаправляем поток денег за эту услугу конкурентам :)

Парсинг сайтов незаконен!?

Владелец сайта не может технически заблокировать ботов. Но есть ли у него юридические инструменты для этого?

Короткий ответ: нет. Ни в России, ни в США автоматизированное получение открытой информации с сайта не является преступлением.

Парсинг — это лишь сбор того, что мы можем своими глазами увидеть на сайте и скопировать руками. Таким образом, под статью об авторском праве могут попасть лишь действия с уже собранной информацией, т. е. действия самого заказчика. Просто человек это делает долго, медленно и с ошибками, а парсер — быстро и не ошибается.

Резюме

Собирая данные с топ-100 российских eCommerce-магазинов, мы сталкивались с совершенно разными механизмами блокировок, но итог один: данные собираются.

В настоящее время не существует технических способов заблокировать доступ конкретного бота к контенту на вашем сайте, потому что вы не можете отличить ботов от живых людей. Все перечисленные механизмы действуют лишь в качестве сдерживающего фактора, но не являются решением.

Ни один из этих методов не блокирует ботов, а внедрение некоторых или всех этих механизмов дорого обойдется компании с точки зрения 1) стоимости технической разработки и 2) неудобств для реальных пользователей.

Как мне кажется, гораздо интереснее для компании сделать и развивать свой открытый API, который будет предоставлять доступ к данным. За открытыми данными и созданием экосистем будущее.

p.s. пожалуй один из действенных и дешёвых способов частично противодействовать парсингу — ставить на фотографии свои ватермарки. Текстовая информация без прилагающихся изображений резко теряет в цене, не во всех случаях, конечно, но в подавляющем большинстве из них. Так что, хотите уберечь свой интернет-магазин от парсеров— проставьте свои водяные знаки на фотографии товаров.

Материал опубликован пользователем.
Нажмите кнопку «Написать», чтобы поделиться мнением или рассказать о своём проекте.

Написать
{ "author_name": "Максим Кульгин", "author_type": "self", "tags": [], "comments": 137, "likes": 16, "favorites": 88, "is_advertisement": false, "subsite_label": "services", "id": 91769, "is_wide": false, "is_ugc": true, "date": "Fri, 08 Nov 2019 18:25:46 +0300", "is_special": false }
Облачная платформа
Основа для цифровизации бизнеса
0
{ "id": 91769, "author_id": 20452, "diff_limit": 1000, "urls": {"diff":"\/comments\/91769\/get","add":"\/comments\/91769\/add","edit":"\/comments\/edit","remove":"\/admin\/comments\/remove","pin":"\/admin\/comments\/pin","get4edit":"\/comments\/get4edit","complain":"\/comments\/complain","load_more":"\/comments\/loading\/91769"}, "attach_limit": 2, "max_comment_text_length": 5000, "subsite_id": 200396, "last_count_and_date": null }
137 комментариев
Популярные
По порядку
Написать комментарий...
14

Качнул я ваш пример :)
В итоге получил детсад, а не парсинг.
1. csv в формате win1251 - кто так делает? csv для utf8! чтобы залетали символы, которые будут вне win1251, всякие умляуты, градусы и так далее. для нубов есть xls, достаточно.
2. где характеристики?!
3. артикулы с петровича левые. это не артикулы, а код товара. внутренний код. который ничего не значит. пример - 100478. это лабуда, а не артикул. артикул вот - "S201 C6 6000"

Короче, идите учитесь.

Ответить
3

Хороший парсинг, для примера - это когда залетают все характеристики и сопутствующие товары. Коды товара же и цены с наименованиями спарсит любой школьник.

Ответить
0

Бл, и сайт ещё на вордпрессе. Точно профессионалы, куда ж я раньше-то смотрел...

Ответить
9

Большинство сайтов на вродпрессе, думаю даже магазинов, что не так с ним?

Ответить
10

Когда узнаете, что с WP не так - сообщите тут) Я дам знать в BBC, Белый Дом, ТехКранч.

Ответить
3

Все с ним так- отличный механизм - всячески советую - быстро красиво доступно 

Ответить
1

Да хотя бы 100500 запросов при загрузке обычной страницы. Я уж молчу о том, как работает крон. Будет срабатывать при каждом посещении сайта. Никто не посещает - не сработает. Да и вообще какого черта чел заходит на страницу "о компании", а у него в этот момент помимо рендеринга страницы крон выясняет не надо ли чего запустить или еще не время?! Идиотизм. Не отвечаю за ВП нынешней версии, мб там и по-другому сделали. Уже несколько лет как отказался от него.  А еще обожаю плагины, которые суют свои css/js на все страницы!! Ставишь какую-нибудь контакт форм на отдельную страницу, а ее скрипты\стили грузятся везде, ваще везде. 

Ответить
3

Да хотя бы 100500 запросов при загрузке обычной страницы.

Бред, есть инструменты и для отладки запросов. Если вы про запросы к серверу - то неактуально в HTTP/2.
Будет срабатывать при каждом посещении сайта. Никто не посещает - не сработает

Нет, он работает независимо от посещения сайта.

А еще обожаю плагины, которые суют свои css/js на все страницы!!

Не ставьте сторонние плагины, не будет проблем.

а у него в этот момент помимо рендеринга страницы крон выясняет не надо ли чего запустить

Это на что-то, кроме времени загрузки в PageSpeed влияет?

Ответить
0

Да всем плевать думаю. Это какие-то гиковые вопросы...
А вообще ВП кастомизируется и держит большой траф.

Ответить
5

у Мерседес Бенц сайт тоже на вордпрессе. Мерседес не профессионалы? :)
у nginx сайт на WordPress - они тоже не профи?
Александр куда больше профи чем все эти не профи? )

Ответить
1

Не, ну автопроизводители вообще мимо кассы. Они до сих пор IT-департамент считают "непроизводственными расходами".

Ответить
3

Просто Мерседес моя любимая марка авто :)
Мне нравится как они сделаны. Явно люди не глупые.
Лидерами глупые люди не становятся.
Наверное у них есть деньги на найм лучших специалистов, которые умеют принимать адекватные решения.
И вот они решили сделать сайт на WP.
Почему?

Ответить
0

У них есть деньги нанять аутсорс который сделает как скажут дяди из ИТ-департамента или как выгоднее, а не как лучше

Ответить
–3

Да какой-то школьник "замутил бизнес" 100%

Ответить
6

Ну мне 45 второй мой бизнес https://notissimus.com и у нас например клиент Фк Зенит - ну и другие крупные компании , а так да- школьник я:)) 

Ответить
–4

так вот кто делает все эти ублюдские приложения

Ответить
–3

всегда интересно было, почему, при наличии огромного выбора профессиональных студий компании в спб (и не только) выбирали вас. В итоге мы имеем массу отвратительных приложений вполне неплохих компаний на xamarin, дизайнером которых был слепой крот. Проясните ситуацию, вместо того, чтобы ставить минусы и в кусты, как типичный рашн бизнесмен, товарищ не школьник

Ответить
1

Чтобы дать вам нормальный ответ, нужно услышать адекватный вопрос . А так даже время тратить не хочется, тем более вам ведь и ответ не важен, типичный хейтер

Ответить
0

типичный хейтер

Другого я не ожидал от вас. Девяностые закончились, если вы не заметили.

Ни одно из приложений, которые сделаны вашей студией, нельзя назвать даже близко хорошими. Приложение iPort (на минуточку, они торгуют ни разу не беляшами) выглядит как привет из 2010-го, не адаптировано под большие экраны, а работает вообще на грани фантастики. А так да, я типичный хейтер

Ответить
–1

Приложение iport мы как раз переделываем, но странно что вы не записали ФК Зенит, Хк ска, буше... более свежие решения. Потратили время... впрочем сложно донести до вас мысль что заказчики определяют что и как нам делать. У вас видимо никогда своего бизнеса не было раз такие выводы делаете .

Ответить
0

Как вы вообще смогли такое сдать? Я как профессионал спрашиваю.

Ответить
0

Приложение Буше - самое медленное говно, что я видел со времен четвертого андроида. 
Ждать минуту пока прогрузится вьюха с куар кодом - бесценный юзерэкспириенс. 

Ответить
2

https://vc.ru/services/82959-prodayushchiy-i-krasivyy-internet-magazin-na-wordpress-za-260-s-nulya-nash-opyt Вот посмотрите насколько удобны инструмент вордпресс даже имея разработчиков в штате мы давно перестали промо сайты делать сами, хотя вначале допускали эти ошибки

Ответить
–3

Да мы все уже поняли, что статья это лишь повод рекламы вордпресса в комментах. )

Ответить
0

Очень удобно вордпресс - у меня в команде порядка 10 разработчиков и мы уже давно перестали для самих себя делать сайты сами - вордпресс лучше быстрее 

Ответить
1

Лучше\быстрее? Чем что? Чем самопис на пхп 4 версии? Попробуйте лару\симфони и оцените скорость. Сделать простенький бэк на них за несколько дней - проще простого. 

Ответить
0

Разрабатываю и на Ларавел и на ВП, в зависимости от задач. Зачем делать лэндинг не на вордпрессе, мне не понятно.

Ответить
1

А мне не понятно зачем делать лендинг на вордпрессе. Что, самому написать легковестный движок под лендинг никак? Или вы любите клиентов путать, давая им админку для лендинга, в которой 95% функций просто не нужны, да и не будут работать, т.к. у лендинга нет ни комментов, ни категорий, ни тегов ни смайлов .... ? Дома чтобы забить гвоздь, Вы, видимо, покупаете промышленное оборудование для строительства, в том числе с функцией забивания гвоздей. 

Ответить
1

Для лендинга вообще не нужен движок, о чём Вы?
Лендинг - это 1 html-страница, горсточка css и js.
Плюс php для отправки форм.
ВСЁ

Тут ни вордпресс не нужен, равно как никакой другой движок.

Ответить
0

Лендинги разные бывают. У меня бывали клиенты, которым нужен лендинг с новостями, или чтоб все цены править из админки, или самому вписывать липовые отзывы и тд и тп. Сам лендинг уже перестал быть визитной карточкой с телефоном, где никто ничего не меняет. Конечно, такие есть, но большинству требуется менять много информации, а платить за каждое изменение верстальщику они не хотят, равно как и в код лезть. 

Ответить
1

ОК. Тогда отлично подойдёт MODX. Настраиваем ресурсы чётко, здесь то, здесь сё, всё аккуратно открывается слева.
Вписываем вот сюда текст, а вот тут картинка, а вот тут файл.
Идеальнейше получается. Столько проектов подобных сдали.
Нужно всего лишь при создании вложить чуть-чуть времени и настроить, как именно клиенту удобно будет, а модх это не вордпресс, не надо загонять клиента в рамки.

И никаких тормозов не будет, как на WP яндекс ругается.

Ответить
0

Это кому как. Я не люблю cms, в них нужно разбираться, читать документацию, и накой? Чтобы потом пытаться продать свое умение сделать проект на cms "xxx" ? Я уж молчу о том, какая бы cms не была - в ней обязательно будут лишние процессы, все эти cms созданы в первую очередь быть универсальными. В общем я за разработку как таковую, а не за "сделать сайт на конструкторе XXX". Свое мнение не навязываю, другие пусть делают как угодно. Для меня главное, чтобы проект был максимально эффективным, ничего лишнего в нем не было, он покрывал все нужды клиента, и клиент не путался в большом разнообразии настроек, половина из которых конкретно для его проекта не имеет никакого значения. 

Ответить
0

Это дольше, чем установить шаблон и накидать в элементоре страницу.

Особенно если надо галерею какую-нибудь запилить, или возможность обновлять новости.

Ответить
–1

Что, самому написать легковестный движок под лендинг никак?

Вы мне за это х3 заплатите по сравнению с лендингом на вордпресе?

Я и на битриксе видел лендинги, которые выходят раз в 10 дороже, чем то же самое на ВП, а потом еще и докупать что-то приходится, для какой-нибудь очередной функции.

Дома чтобы забить гвоздь, Вы, видимо, покупаете промышленное оборудование для строительства, в том числе с функцией забивания гвоздей.

Вы как альтернативу предлагаете отправится на рудники, добыть там железную руду, обжечь её, выковать молоток и затем забить гвоздь.

Ответить
1

Лендинг на битриксе - это вообще рука-лицо.
Я недавно прямо на встрече об этом сказал клиенту. В духе "вы че тут, вообще @#$нулись, нахера битрикс для лендингов?". Показал наши варианты на чистом html, они были в шоке. В итоге я подумал - и отказался с ними работать.
Мне такие в @опу ужаленные клиенты не нужны.

Ответить
0

Мне сказали, пристижно. Лол :)

Да я им просто ставлю ценник за любые правки х5 - х10, это же битрикс, разработчики на нем мало не берут )

Ответить
0

Вы мне за это х3 заплатите по сравнению с лендингом на вордпресе?

Да делайте на чем хотите - мне пофигу, ко мне потом прибегают со словами: "Мне тут на вордпрессах гавно сделали, исправьте пожалуйста, а то скорость по гугл спиду 20, работает все долго, плагины слетают ололло". Вы как профессионал должны делать хорошо, а не за что деньги платят. Сделали движок для себя, и ставите на все последующие лендинги так, чтобы клиенту было удобно. Канеш если клиенты у вас по 500 рублей с кворка то да, извините, вам мой совет не подойдет. 

Я и на битриксе видел лендинги, которые выходят раз в 10 дороже, чем то же самое на ВП, а потом еще и докупать что-то приходится, для какой-нибудь очередной функции.

А это тут причем? Закон эскобара, шо то .... шо это

Вы как альтернативу предлагаете отправится на рудники, добыть там железную руду, обжечь её, выковать молоток и затем забить гвоздь.

Да, как вариант, выковал молоток - и забивай им все последующие гвозди. Ничего плохого в этом нет. 

Ответить
0

Да делайте на чем хотите - мне пофигу, ко мне потом прибегают со словами:

Фронт при включенном кешировании статический. Что вы там в пэйджспиде меряете, я хз, инструмент устарел ле 6-7 назад. Дальше я даже писать не буду, вы несете какую-то хрень.

Да, как вариант, выковал молоток - и забивай им все последующие гвозди. Ничего плохого в этом нет.

Давайте я вам дам молоток, а сам возьму пистолет, и посмотрим кто забьет больше гвоздей.
Я несколько раз переписывал самописные лендинги на вп, от таких экспертов как вы похоже, клиенты потом от счастья прыгали, как же все гладко работает.

Ответить
0

Это когда уже приходят клиенты - демо данные мы упрощаем 

Ответить
1

Замечательно! О каком качестве может идти речь, если вы даже образец сделать нормально не можете, потому что это видите ли "образец". Ну уберите его тогда, раз не хотите им заниматься. Достали пофигисты, делают все черти как, зато рекламироваться не забывают. 

Ответить
–1

На сайте полно примеров вы хотяб посмотрели сами то? 

Ответить
–1

На кой мне самому время тратить? Александр посмотрел, убедился, мне достаточно его описания увиденного, которое Вы попытались оспорить в ключе: "это ж образец, вот поэтому и фигово сделан". Какой мне прок смотреть другие примеры?

Ответить
–2

Что-то мне показывается, что статья не про это? Не про кодировку и характеристики товара. Вам не кажется, что если они они спасрили коды товара (т.е уже подгрузили страницу и распарсили), то добавить характеристика - это одна строчка кода?

Ответить
4

Где еще я не видел вброса про "сопротивление парсингу бесполезно"... Однако, 99% ботов отсекаются довольно-таки простыми средствами. Оставшемуся 1%  приходится использовать гораздо более дорогие ресурсы и сетки резидентальных проксей, которые и медленнее, и тоже палятся рано или поздно, и дороже.

Ответить
1

Можете поподробнее описать средства отсечения 99% ботов?

Ответить
1

99% ботов просто скачивают страницу, не получая сопутствующие файлы, не интерпретируя JS, не имитируя действия пользователей, не выполняя никаких осмысленных в контексте страницыдействий. 99% процентов ботов ходят через известные сетки проксей. Из них 90% юзают скудные наборы из одних и тех же IP-адресов или подсетей. Самые примитивные способы анализа логов и выписывания банов / троттлинга / подмены данных работают просто отлично.

Я месяцами скармливал конкуренту своего заказчика повышенные цены :)

Ответить
0

Ну по подсетям искать ботов дело рискованное, таким образом можно выдать не ту цену поисковику, если бот конечно маскируется под робота или легитимному пользователю, который может оказаться под одним IP с ботом

Ответить
5

Поисковики, как раз, идентифицируются и вайтлистятся очень легко. Тем более, что они ходят за специально подготовленными для них фидами по специальным урлам. Их подсети известны, можно делать reverse DNS запросы и т.д. и т.п.

Вероятность того, что с индийского хостера или китайского университета заходит реальный покупатель шоколадок с доставкой по России, ничтожно мала. Может, 1 на пару триллионов. Обычно это или развернутая на виртуальном сервере прокся, или хакнутые компы / роутеры. Значит, если оттуда пошли сотни запросов — это боты.

Ответить
0

В таком случае что мешает прикупить для парсинга 100/200 рф прокси?

Ответить
0

Тоже любопытно узнать ))

Ответить
3

Парсят, значит ты популярен. И парсится все равно открытая информация

Есть ли мнение другой стороны, у кого бизнес реально страдает из за парсинга?

Это, например, HeadHunter, «Яндекс.Еда», Beru.ru, «Ламода»

Найди лишнее)

Ответить
–8

Чел тебя не в России так в Европе или Америке засудят, когда компании подадут в суд на владельца вашего домена или компании, поверь за ворованные с фотостоков фотки прилетает по шапке... хули ты хвалишься что вы там умеете там парсить данные с чужих сайтов компаний, некоторые сайты в открытую предоставляют доступ к API. 
Парсинг тебе никак не поможет т.к. контент вторичен для поисковых систем - и там идут в бой уже механизмы - факторы реального поведения, 1 чел никогда не сможет разместить 10000 контента в день, в итоге твой сайт уйдет в пессимизацию как ГС (govnosite).

Ответить
8

1. Закусывайте.
2. В принципе, завязывайте писать пьяным в этих наших интернетах.
3. Читать вашу малоадекватную писанину весьма тяжко, а уж отвечать на неё и вовсе мало кто захочет.

Ответить
0

"Хехе, вы нас блокируете , а мы все равно вас спарсим. Ооо, смотри, что это у меня в руках? Это данные!"

Вреда от парсера нет. Не понимаю, зачем их отсекать?

Ответить
3

ну как-то же надо было инфоповод придумать для лишней рекламы

Ответить
2

Ну как это нет?
Работаю сейчас в компании по торговле автозапчастями. для грузовиков,  так у нас на это целый человек выделен, пишет парсеры, и на основе данных о наличии и ценах у конкурентов выстраивается ценовая политика 

Ответить
0

Все так, за этим и приходят люди - ассортиментный и ценовой анализ

Ответить
0

Отсечь хотят не конкретно парсеры, а любых ботов, т.к. они создают ложную статистику посещений, что может быть плохо при купле/продаже рекламы

Ответить
1

Интернет-магазин, который, помимо собственных продаж, ещё и на сторонней рекламе зарабатывать хочет? Однако.

Ответить
0

ок может неудачный пример, но у ботов может быть куча других примений

Ответить
0

Речь в статье идёт именно о парсерах, а не любых ботах в принципе.

Ответить
0

я к тому что парсер от другого бота никак не отличишь, поэтому они тоже попадают под блокировку

Ответить
1

ну так себе сервис. я лично уже год пользуюсь datacol-ом

Ответить
1

Как решали вопрос с incapsula? Ставили ферму из headless браузеров?

Ответить
0

Да все верно 

Ответить
1

1. Блокировать IP из сетей хостеров сдающих сервера в аренду - совсем не так сложно. Да, в некоторых странах можно купить прокси в сетях не хостеров, а у "человеческих провайдеров", в РФ например можно, а вот на Украине - нельзя. Но даже в тех странах, где можно - это уже очень сильно удорожит парсинг и сделает его возможно нерентабельным.

2. "Невидимую капчу" можно (и нужно) делать не по поведению, а по программному окружению. Тот же гугл именно так и делает. Да, на сбор данных об окружении нужно время, но можно страницу быстро отдавать с версткой и дизайном без ключевых данных, а потом ключевые данные подгружать после проверки окружения.

Ответить
0

А где посмотреть ваши тарифы? Просто на сайте везде 0Р. вижу. Как монетизируетесь?

Ответить
0

если у вас проблемы даже с нахождением тарифов, то может вам пока рановато в парсинг?

Ответить
0

Может быть, но если мы растём сильно квартал к кварталу- может не рано?)

Ответить
0

Бесплатно примеры Парсинга- чтобы люди поняли как это выглядит , а потом мы даём уже полный доступ на портал наш и там все данные

Ответить
0

А что по ценам то в итоге? Вы API шарите или только выгрузки и сколько это стоит?

Ответить
0

По апи можно забирать, цена где то 6000 р один сайт в месяц без лимита по количеству страниц товаров

Ответить
0

А есть ограничение на число запросов? Фильтрация выборки или может какие другие плюшки?

Ответить
0

Мы отдаём условно вам сырые данные по всему сайту а вы у себя уже крутите их

Ответить
0

Один сайт защищался таким образом:
Цены товара отображались как набор картинок. У каждой цифры была своя картинка. В коде страницы у каждой картинки был свой цыфробуквенный код, каждый раз новый.

Для парсинга требовался программист, который разберёт алгоритм шифровки картинок, это да. Зато какая нагрузка на серверах генерировать эти картинки вместо цифр?

Ответить
1

Распознованием картинок - мы так делали 

Ответить
0

Дайте ссылку на магазин, где картинки приходится распознавать

Ответить
0

Лет 5 назад такая защита была на http://www.starcitygames.com/, картинка генерилась и потом смещалась с помощью css. Ради интереса тогда писал парсер, который распознает и потом так же находит число со смещением, повторяя алгоритм из css.

Проверил сейчас, они убрали эту защиту :) Мне кажется, это и правда не имеет смысла.

Ответить
0

Еще интересен момент с SEO. Роботу тоже зашифрованные картинки отдавались?

Ответить
0

Своя потому что там на мой непрофессиональный взгляд сайт вообще не был никак оптимизирован, на всякие сео было пофиг.
А надо ли вообще что-то улучшать в интернет магазине, если ты уже макдональдс соеди фастфуда

Ответить
0

Ну если компания умеет считать деньги, то SEO-оптимизация конечно пригодится.
А можно ссылочку на такой магазин?

Ответить
0

Starcitygames.com
Зачем считать, есть ты в топе Гугла по целевым запросам

Ответить
0

Извините, не нашел зашифрованные картинки. Цены рендерятся текстом

Ответить
0

Сейчас уже да

Ответить
0

Разумеется в статье почти полный бред. Защита от парсеров, тем более таких примитивных есть, просто вы не ходите на такие сайты,  а маркеты и не против, чтобы их обкачивали.
Еще не очень понятно почему изменение структуры сайта не поможет? Достаточно раз в день циклично менять названия условных классов и все, до свидания.

Ответить
0

Достаточно раз в день циклично менять названия условных классов и все, до свидания.

Это же детечится легко, вам переверстывать циклично сайт раз в день будет сложнее, чем программисту парсера поправить регулярки.

Ответить
1

это можно автоматизировать. фреймворки аля vuejs уберут все классы и опишут всё инлайн-стилями, как искать будете в структуре из только дивов с большой вложенностью?
фб в рекламе выводит слова побуквенно отдельно по тегу на букву
есть рекапча которая хоть и обходится, но дорого
тот же cloudflare может элементарно отрезать большинство ботов-парсеров предлагая пройти капчу гугла.
в общем, методов защиты, как и обхода, много, статья от начинающих начинающим.

Ответить
2

Цену, например. По маске содержимого "руб" и максимально близко расположенное в дереве число. В крайнем случае  всегда можно страницу отрендерить и дальше обработать.
 
есть рекапча которая хоть и обходится, но дорого

Рекапча ударит по всем пользователям. Как правило важную информацию за ней не прячут, прячут личную, но это не то что кто-то сильно хочет парсить.

фреймворки аля vuejs уберут все классы и опишут всё инлайн-стилями

Что мне мешает получить нужную информацию из JS скриптов?

фб в рекламе выводит слова побуквенно отдельно по тегу на букву

Это на столько не проблема, что не понятно зачем.

Вы похоже слабо вообще понимаете, какие инструменты есть у программиста для парсинга контента с сайта.

Ответить
0

1 приложил скрин. Там руб не пахнет, отрендерите в селениуме и будете распознавать картинку?

Рекапча по дефолту включена для любого бота по запросу сайта на cloudflare, а там 10млн сайтов на минутку и на многие вы ходите по много раз в день. Как мешает вам? Никак.

Вам помешает в случае с vue отсутствие реста и наличие ssr, например. А также минификация скриптов. Попарсите рекламу фб раз такой молодец, боюсь не получится.

В итоге - похоже вы не знаете о нормальных методах защиты от парсинга. Не всё, что вы видите как ’руб.’ можно спарсить регуляркой. Хорошие защиты существуют, бот детектится достаточно просто и как только вы прошли детект(даже на базе бека), я могу отдавать вам совсем не те цены, которые надо. Речь не о банальных проверках js, а о движениях мыши, скроллах, вашей частоте и истории переходов. Да, вы можете рандомизированно имитировать действия в фантоме или селениуме, но любое неожиданное окно в духе ’нажми шифт на клаве если не бот’ на 13ой просмотренной странице выдаст вас как бота, потому что мозг не запрогаешь. Голь на выдумки хитра. Взломщики ломают двери потому что включают голову, scraping же про автоматизацию получения, а не регулярный автоматизированный взлом, такое не сработает, если компания борется с парсингом, увы.

Ответить
2

Тут вопрос цели, если мне клиент поставит цель получать информацию с какого-то сайта, он получит её, вопрос цены. :)

Вы пока ни одного способа, который бы меня заставил отказаться от заказа не показали.
За парсинг того, что вы на скрине показали, я возьмусь. Но понятное дело, у них там разного рода защит наверно вариантов 100, так что это будет не дешего.

наличие ssr

Напишу клиенту расширение для браузера, которое будет в фоне просматривать страницы требуемого ресурса раз в рандомное количество минут их переключая, пожалуйста детектите, лол.

’нажми шифт на клаве если не бот’

ни разу не видел ни на одном ресурсе, что бы подобное выскакивало при просмотре контента. Вы фантазируете.

Ответить
0

Вы фантазируете

втыкаю вам палки в колеса. тут вопрос цели, если мне клиент поставит цель не дать вам получать информацию, вы её не получите, вопрос цены
Вы пока ни одного способа, который бы меня заставил отказаться от заказа не показали.

я понимаю, что вы и проксей купите и решений рекапч. но согласитесь, вы сдадитесь быстрее, чем я. потому что при защите возможно вставить палки не только в выдачу(регулярки поправите, отображу картинкой), но и в сам процесс(следим за вашей инфой и действиями, втыкаем капчи по условиям, ...), а также их комбинирование - менять верстку программно ситуативно случайно. я видел решения когда случайно генерили шрифты и меняли буквы так, чтобы "c)qri0" писалось юзеру как "привет". если вам на каждый запрос будет отдаваться новый случайно сгенерированный шрифт, то у вас кроме OCR не останется вариантов.

придумывать и генерить средства защиты проще, чем их отгадывать, увы. посмотрите на изощренность тех же капч.

в итоге: защититься от парсинга полностью нельзя(как и от ddos, как и от болезни), но можно придумать проблем парсеру - чтобы ему приходилось совершать дорогостоящие действия(разгадка капчи, например). поскольку каждая стоит денег, а данные не так дороги, то скорее всего бюджет клиента на парсинг каких-нибудь цен конкурента быстро станет достаточно дорогим и клиент скорее откажется, чем будет поддерживать вашу деятельность на протяжении длительного времени.

Ответить
1

Тут скорее наоборот. Быстрее сдастся бизнес, а не тот кто парсит.

Рекапчи для всех? Значит будет более высокая цена лида. Не каждый захочет капчи разгадывать, чтобы товары в магазине посмотреть. Если рекапчу сделать послабее, то побольше проксей и она не среагирует.

Менять верстку программно? Этого будет недостаточно, придется менять и структуру страницы. Получите постоянные баги, и следовательно увеличенные затраты на поддержку и регресс вашего функционала.
Бизнес на подобную хрень потратит больше денег, чем тот кто парсит.

Ответить
0

 Получите постоянные баги, и следовательно увеличенные затраты на поддержку

Тоже ерунда, вы же не ручками будете это делать как мартышка, это также автоматизируется и настраивается по шаблону. Билдится на сервере и отдается клиенту.

Хотя не пойму смысла, если реальный пользователь может увидеть контент, значит его может увидеть и машина. Можно только лишь затруднить доступ.

Ответить
1

 разгадка капчи, например

Тут не согласен, разгадка капч стоит очень дешево, пол бакса за 1000 разгаданных капч.

Вообще это все извечный вопрос борьбы брони и меча, если очень заморочиться, можно эмулировать настоящего пользователя, с настоящей прогрузкой сайта в браузере, эмуляцией действий с его стороны, скроллами, движениями мышки, реальным поведением и т.д.

Это конечно дороже чем прогрузка сайта на серваке, и инстанс такого пользователя нельзя палить массовым парсингом множества ресурсов и такой инстанс скорее всего будет заточен именно под ваш ресурс, но все возможно. Это все всегда вопрос цены🤷‍♀️

Ответить
0

рекапча подороже. машинки под эмуляцию недорого найдутся, окей. чистые ip/прокси ещё в копеечку встанут

Ответить
0

Это просто смешно 2-4 бакса за тысячу капч )

Ответить
0

Нет, вы раньше сдадитесь, мне это все поправить - дело пары часов, вам мастерить новые системы защиты - дело недель. И спец для этого нужен более дорогой.

"c)qri0" писалось юзеру как "привет"

Да пусть передается. Полезная информация всегда выдается в доступном виде, что бы её мог получить и мог ей воспользоваться клиент.

Ответить
0

Все так, но капча ударит по всем пользователям.

Ответить
0

cloudflare с капчей для ботов пользуется 20млн интернет-ресурсов. как вас коснулось это? думаю - никак. вы не похожи на бота, бота видно издалека.

Ответить
0

 вы не похожи на бота, бота видно издалека

Ерунда, когда был аккаунт в самом cloudflare, периодически вываливалось их знаменитое дурацкое "One more step", при навигации внутри своего же аккаунта (!) и том, что я сидел постоянно с одного белого статичного IP, который не засвечен ни в каких блэклистах🤷‍♀️Хз что с ними не так.

Ответить
0

Тоже постоянно ловлю "One more step" на разных сайтах, в основном на зарубежных, у меня клиенты - интернет магазины и всякие сервисы связанные с продажами, для них подобное недопустимо.

Ответить
0

Нет, я просто сразу вставлю автоматическую циркуляцию названий и все. А в парсере придется лезть и глазами искать что же там случилось. И так каждый раз.

Ответить
0

Я выше написал )

Ответить
0

Про xpath Вы, конечно, не слышали?

Ответить
0

А как он поможет? Вариант с 2иркуляцией классов я придумал с ходу, если посидеть, подумать, то можно такого наворотить.

Ответить
3

А так, что при использовании xpath на классы можно вообще забить. А регулярно менять структуру так себе затея. Ну поменяли, и парсер так же легко поменяли.
Кроме классов в html могут быть и другие атрибуты, которые могут быть завязаны на логику и тут с заменой уже будет немного сложнее. Но в целом все эти методы курам на смех.

Ответить
1

Плоско мыслите. Умный парсер вообще не заточен на классы/id. Я точно также сходу уже придумал как спарсить контент даже если там разметка будет меняться🤷‍♀️
Свой сервис что-ли написать теперь?🤣

Ответить
1

Нет смысла, парсинг стоит очень дешево, не зависимо от сложности ))

Ответить
0

А чем xpath поможет от изменения классов / структуры. 
Другое дело что ежедневно менять название классов / структуру - такое себе решение.

Ответить
0

По поводу классов написал в ответе Александру Балалееву ниже. А по поводу замены структуры ещё раз выскажусь, что это так себе затея по ряду причин. Напоминает борьбу с ветряными мельницами.

UPD. Сильно структуру вы не будете менять регулярно, поймёте, что это бесполезно и  по всей видимости не делают это сайты, которые парсит ТС.

Кроме того, можно и нужно парсить по ряду критериев дополнительных (если возможно).

Ответить
0

Да можно просто по содержимому парсить. Вообще плевать тогда на то, что будет на сайте, разве что он обманки там расставит невидимые, но это и боты поисковиков могут скушать.

Ответить
1

Верно и тогда можно себе навредить. В общем я считаю, кому надо, тот спарсит.

Ответить
0

верно и обратное - кому надо, тот защитит.

Ответить
1

Единственный способ защитить сайт от парсинга - выдернуть из сервера сетевой провод.

Ответить
0

Это война до последней капли крови :) Любую защиту пишет человек и парсит тоже человек. Только защита будет стоить дороже фикса парсинга.

Ответить
0

А какая ценность этих данных? Кто готов за них платить? Ваши говно-парсеры блокируют не потому, что кто-то боится за свои данные, а потому как это паразитическая нагрузка на сайт.

Ответить
0

Те кто мониторит цены и ассортимент конкурентов 

Ответить
–1

За деньги эти данные готов отдавать и маркет, причём с хорошим api. У крупных игроков цены могут меняться с интервалом от 20 до 40 минут, смысл в таком такой себе. Контент предоставляют вендоры бесплатно. Какая-то херь, простите.

Ответить
1

Не все есть на маркете - днс например. Кроме того, людям нужно часто сравнение цен на свой товар на разных площадках в ексель и таких примеров много

Ответить
–3

"Не все есть на маркете - днс например." - Магазин одного товара в одном магазине. Витринный экземпляр при тебе пакуют и - да он новый, муха не сидела! И кому он нужен? 

Ответить
0

в dns есть(были) даже свои линейки продуктов.
товаров там побольше, чем во многих продуктовых.
если не знаете - лучше промолчать.

Ответить
0

"в dns есть(были) даже свои линейки продуктов." - Ну разве что клавиатуры и мышки можно брать в сегменте low-end.

Ответить
0

У них были, как минимум, собственные ноуты на базе Clevo. По сути лучшие игровые ноутбуки на рынке.

Ответить
–3

Сотрудник DNS detected? Или рекламист DNS?

Ответить
0

Вот эта динамика изменения цен также является предметом коммерческого интереса.

Ответить
0

магазины хотят знать цены конкурентов и готовы за это платить

Ответить

Комментарий удален

0

Какое то другое средство отсечение, не описанное в статье ?

Ответить
0

"И еще не встречали защиты, которую мы не смогли бы обойти." - Такая защита существуют. Но на другом уровне. Для её обхода пока еще нужно привлекать людей средней квалификации. Это недорого. Примерно 1500 руб. за день работы и обработку двух-трех кейсов.

Ответить
0

Эту статью уже читал года пол назад, может меньше. Зачем снова?)

Ответить
0

Нотивка, продокт-плойсмент )

Ответить
0

хм, а кто-то может фейсбук парсить? ищу таких 

Ответить
0

Много кто может, но все довольно недолго. 

Ответить
0

недолго мы и сами можем )) 

Ответить
0

Почему недолго?

Ответить
0

фейсбук банит ботов

Ответить
0

А для чего его парсить? Что такое нужно, чего нельзя получить по API? Или API не всем дают?

Ответить
0

надо данные не одного аккаунта, а десятков

Ответить