{"id":14270,"url":"\/distributions\/14270\/click?bit=1&hash=a51bb85a950ab21cdf691932d23b81e76bd428323f3fda8d1e62b0843a9e5699","title":"\u041b\u044b\u0436\u0438, \u043c\u0443\u0437\u044b\u043a\u0430 \u0438 \u0410\u043b\u044c\u0444\u0430-\u0411\u0430\u043d\u043a \u2014 \u043d\u0430 \u043e\u0434\u043d\u043e\u0439 \u0433\u043e\u0440\u0435","buttonText":"\u041d\u0430 \u043a\u0430\u043a\u043e\u0439?","imageUuid":"f84aced9-2f9d-5a50-9157-8e37d6ce1060"}

Спам, звонки, мошенники — да когда уже запретят парсинг?

Меня зовут Максим Кульгин, моя компания xmldatafeed занимается парсингом сайтов в России много лет. Ежедневно мы парсим ассортимент с более 500 крупнейших интернет-магазинов и собираем открытые данные с 5.5 млн. сайтов в Рунете. Иногда мы получаем волну ненависти в комментариях. Нас необоснованно обвиняют и в том, что стало невозможно брать трубку, и в том, что паблики ВКонтакте воруют друг у друга контент :)…

Давайте разбираться.

Да, несмотря на растущую всеобщую озабоченность, парсинг (сбор открытых данных в сети) остается инструментом, широко используемым мошенниками. Боты атакуют, звонят, беспокоят, смартфоны становятся всё более уязвимыми — и чем кончится эта вакханалия никто не знает.

Скандал, вызванный действиями британской консультационной фирмы «Кэмбридж Аналитика» ещё несколько лет назад заставил человечество пристально взглянуть на проблему неожиданного сбора данных.

По мере того, как всё больше мошенников осознают те перспективы, которые открывает парсинг, а сам процесс благодаря появлению новых инструментов становится всё более доступным — тем всё чаще и чаще мы замечаем, что парсинг используется с дурными намерениями.

Возьмем для примера Facebook, некогда олицетворявший надежды на новый чудный сетевой мир (и который не выдержал проверки историей и в конце концов опустился до тошнотворной экстремистской организации, наконец-то официально запрещённой в РФ).

История с «Кэмбридж Аналитика» официально появилась в марте 2018-го, а осенью 2019-го, всего полтора года спустя, Facebook снова попадает в заголовки газет: огромное количество телефонных номеров пользователей — по разным оценкам около 420 миллионов — были похищены в результате… простого чтения Facebook.

Что происходит дальше? Facebook пытается отвертеться, перекладывая всю ответственность на «плохих парней», занимающихся парсингом (в скобках — не удержался, чтоб не прокомментировать):

Парсинг — это проблема всей отрасли. Его не только трудно предотвратить (ага, особенно, если догадаться публиковать телефоны пользователей открытым текстом), но и обнаружить. В этом случае, как мы и объявляли в апреле 2018 года (и за полтора года ничему не научились) общедоступные телефонные номера были спарсены в нарушение нашей политики разрешений.

Вот почему мы убрали возможность находить друзей по номеру телефона — мошенники злоупотребляли этой функцией (вот незадача!). Как было сказано ещё в тот раз: «Учитывая масштаб и изощренность наблюдаемой активности можно предположить, что большинство профилей на Facebook были таким образом попросту спарсены…». («А что, так можно было?») С тех пор мы также вносим изменения в нашу платформу, чтобы снизить риск парсинга. (Ну, молодцы, чё…)

Так кто виноват в том, что пользователи добровольно соглашались с публикацией своего телефона, а «специалисты» по безопасности социальной сети посчитали по своей дикой наивности, что одного запрета мелким шрифтом где-то в пользовательском соглашении достаточно для того, чтобы остановить злоумышленников?!

Так что ж это за мошенничество с парсингом?

Сам парсинг хорошо и подробно описан в Wiki DataVisor:

Парсинг — это автоматическое извлечение больших объемов данных с веб-страниц и приложений. Распространенные инструменты, используемые на практике, включают ботов, готовые или специально создаваемые скрипты, а также сторонние сервисы.

Существуют как законные, так и незаконные формы парсинга.

Как тут определить: что является «хорошим» законным парсингом, а что «плохим» незаконным?

Приходится исходить из того, что парсинг сам по себе не является преступлением. Законодательство всех развитых стран не пытается «навести тень на плетень»: всё, что может быть прочитано законными способом, может быть прочитано с помощью любых инструментов: от Google Chrome и Mozilla Firefox до браузеров с машинным интерфейсом и консольных утилит.

Весь вопрос сводится к тому: для чего парсинг осуществляется и какие деяния последуют после успешного сбора данных? И тут уже мы говорим не о парсинге, а о таких вещах, как:

  • причинение вреда имуществу;
  • преступления в сфере компьютерной информации;
  • нормы договорного права;
  • права на интеллектуальную собственность;
  • законы, устанавливающие правила работы с персональными данными.

Использование ботов, например, для чтения данных веб-страниц и для индексации поисковыми системами считается легальной и допустимой формой парсинга.

А вот использование ботов для парсинга изображений и текста с сайтов социальных сетей под создание поддельных аккаунтов — нет.

Мы не занимаемся преступной деятельностью и не делаем ничего, что могло бы навредить людям. Мы — часть прогресса и работаем на благо нашего общества. К нам постоянно обращаются с противозаконными просьбами — мы вежливо отказываем.

Но интересы людей должен охранять закон, а не нравственные представления участников сети. Будь в Америке принят и работай аналогичный закон о персональных данных — люди бы не пострадали от балбесов-маркетологов из Facebook.

И так везде.

Парсинг веб-страниц с помощью ботов

Количество ботов в интернете неуклонно растет. Иногда уже непонятно: кого всё-таки больше — людей или ботов? В год компании подвергаются более 3 млрд. автоматизированных атак ботами. Несколько сотен миллионов атак совершаются с помощью мобильных устройств.

Не вручную же с мобильников орудовать… Вот так это выглядит.

Тот же DataVisor писал:

Мошенники постоянно находят способы совершения злонамеренных действий, используют мобильные каналы связи. Они атакуют целые отрасли, включая финансовые услуги, торговые площадки, социальную коммерцию, игры. Используют всё более изощренные методы.

Злоумышленники используют ботов для увеличения масштаба своей преступной деятельности, скорости выполняемых действий, а также для запутывания следов.

В последнее время, как сообщает DataVisor, «мошенники усилили свои атаки, обратившись к новому и более продвинутому типу ботов — APB (Advanced Persistent Bot, „упорные и продвинутые роботы“).

Такие роботы способны использовать множество методов обфускации, включая реалистичную имитацию человеческого поведения, динамическую смену IP-адресов, использование распределенных атак с задействованием тысяч IP-адресов».

Виды мошеннических атак, ставших возможными благодаря парсингу

Парсинг, а если говорить шире, то использование ботов может служить для выполнения нескольких видов атак.

Мошенничество с приложениями

Парсинг личных данных, взятых с сайтов социальных сетей, может включать в себя всё, что угодно: от уличных адресов до профессий. Далее собранная информация может быть использована для подачи мошеннических заявок на получение займов и кредитных карт.

Как защититься: думайте, какую информацию публикуете о себе и где именно.

Поддельные списки товаров

Данные, взятые с маркетплейсов могут использоваться для создания поддельных, вводящих в заблуждение, вредоносных списков товаров на одноранговых (P2P) торговых площадках, таких как Craigslist, OfferUp и Wallapop.

Как защититься: не пытаться покупать что-то за гроши.

Обман

Рекламные объявления могут быть использованы для вымогательства денег у покупателей: фишинга, получения личной информации или, банально, обмана покупателей с целью продажи контрафактной продукции.

Как защититься: ходить на маркетплейсы по закладкам в браузере или через поисковик, а не по ссылкам в рекламе; думать о том, что делаете.

Мошенничество с цифровой рекламой

Боты могут искусственно «накручивать» переходы по рекламным объявлениям, искажая статистику, на основе которой оплачивается рекламная компания. Это называется «скликивание». Многие предприниматели даже и не подозревают о том, что их рекламный бюджет в значительной степени уходит «в никуда» из-за подобной деятельности, заказанной конкурентами.

Как защититься: оцените подверженность этому виду мошенничества и, если надо, почитайте статью о том, как можно самостоятельно защититься от скликивания.

Этапы мошенничества

Предотвращение и остановка вредоносного парсинга — это непростая задача. Казалось бы, чем раньше удастся устранить эту проблему, тем меньше ущерба будет нанесено. На самом деле — нет.

Думать о том, какие данные вы делаете публичными — вот первый совет, как не бояться последствий парсинга. Смешно звучит, но именно этим советом Facebook мог бы воспользоваться ещё в то время, когда сотрудники его «подразделения политической рекламы» впервые подняли шумиху вокруг Cambridge Analytica!

А противодействие парсингу традиционными методами не только не сможет остановить профессионалов, но только затруднит жизнь посетителям, отвратит часть клиентов, ухудшит продвижение сайта. Мы уже писали об этом ранее. Но если всё же хотите защититься от парсинга и противоправных последствий, то чуть ниже найдете несколько простых советов.

Любая атака, в том числе основанная на мошенничестве с использованием данных, подразумевает несколько этапов развития. Каждый из них имеет свою особенность.

Сбор данных

На этом этапе злоумышленник занят сбором данных, которые ему понадобятся для осуществления предполагаемой атаки. Точное обнаружение подозрительных действий здесь очень сложно, поскольку практически невозможно отличить злонамеренное посещение страницы от добропорядочного.

Подготовка к атаке

Необходимые данные уже получены и теперь закладывается основа для их использования в автоматизированных действиях. Возможно проделываются тестовые считывания и тому подобные шаги, которые теоретически могут оставлять цифровой след. Если этот этап возможно как-то выявить, то только с помощью специальных средств целостного анализа данных.

Атака

Подготовка завершена, все средства активизированы. Обнаружение возможно, но ответные действия будут запаздывать и могут принести больше вреда, чем пользы. В самом негативном сценарии: отслеживание ущерба — единственный оставшийся вариант.

Прекращение мошеннического парсинга

Используя целостный анализ данных, можно выявлять подозрительные действия, которые — хотя и кажутся безобидными по отдельности — являются частью скоординированных злонамеренных усилий.

Выявляя подобные шаблоны, можно теоретически определить потенциально мошеннические учетные записи, а значит, и предотвратить действия до того, как они причинят вред.

Такие советы часто встречаются «в интернетах». Но это очень призрачный шанс на противодействие. Скажу, что действительно эффективно.

На изображения надо ставить «водяные знаки» или скрытые метки. Тогда появится возможность наказать воров в суде. Иски бывают по 100–200 тыс. рублей за одну фотографию. Если публикуете картинки из общедоступных источников — подкиньте несколько своих со скрытыми метками.

Ограничивайте количество запросов с одного IP-адреса в рамках одной сессии. А ещё лучше вместо IP-адреса отталкиваться от fingerprints браузера. Там можно собрать сотни параметров: размеры экрана, версию операционной системы, местоположение, сборку браузера… Только аккуратно, чтобы не навредить пользователям.

Усложняйте парсинг, тем самым увеличивая его себестоимость. Если у вас маленький бизнес, парсить вас для многих окажется нерентабельно.

Спасибо за внимание! Я старался быть краток и по делу.

Не стесняйтесь задавать свои вопросы в комментариях!

Не ругайтесь! :) Я понимаю, что парсинг сразу настраивает на негатив. Но это обычный бизнес, которым, уверяю вас, занимаются почти все торговые компании (так или иначе).

Не парсинг — плохой. Безответственность пользователей и тех, кто взялся работать с их персональными данными — вот причина всех неприятностей.

Ещё я регулярно описываю наш опыт в Телеграмм-канале.

0
23 комментария
Написать комментарий...
Андрей Шмиг

Если бы не кликбейт в заголовке - был бы лайк… после первого абзаца, к сожалению, сложилось впечатление, что ссылка на собственный сайт и статья притянутая за сами знаете что.

Кроме того, в одном из абзацев пишете, цитирую: «… точное обнаружение подозрительных действий здесь очень сложно, поскольку практически невозможно отличить злонамеренное посещение страницы от добропорядочного»… привет 4млн рублей на НИОКР от ФСИ? Или «это другое»?

Раньше статьи вызывали интерес, а теперь стали вызывать некую неприязнь… может быть потому что из «делюсь опытом по бизнесу и своему направлению» в живом виде это стало все-таки превращаться в попахивающую рекламу… а местами и противоречащую информацию и рядом сомнений по чистоте предпринимаемых действий…

Несмотря на все это - успехов! Может быть погоня за хайпом и вниманием проиграет искренности и открытости, а так же первоначально декларируемым целям и позиционированию.

Ответить
Развернуть ветку
don mega

От парсинга нельзя защитится но можно его сильно замедлить:
1) ограничение количества запросов с одного айпи
2) медленная выдача инфы
3) выдача инфы через js скрипты и клики
4) выдача инфы в iframe
5) генерация со страницы медленных скрытых запросов на другие сайты
6) код в виде webassember
7) лоадер с видео/картинкой требующий клика и передающий дальше код

И тд

Ответить
Развернуть ветку
Родитель номер один

Дожили, поганые парсеры теперь пишут статьи на Виси и рассказывают о своем "бизнесе".

Дальше что, здесь будут писать статьи спамеры, "служба безопасности Сбербанка" и продавцы детской порнографии?

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Петр

У вас странный притянутый за уши пример. Вы демонстрируете мобильную proxy ферму в контексте атак, где это просто инструмент подмены ip адресов. Как-то странно для ребят которые занимаются Парсингом данных

Ответить
Развернуть ветку

Комментарий удален модератором

Развернуть ветку
Невероятный Блондин
размеры экрана, версию операционной системы, местоположение, сборку браузера… Только аккуратно, чтобы не навредить пользователям.

За сбор фингерпринтов надо [▇▇▇▇▇▇▇]
Но норм браузеры с этим борются

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Alex Melnikoff

прочитайте, например, про brave
они против слежки и традиционной рекламы, ее они блокируют. по желанию можно или так сидеть(что лично я делаю), а можно включить рекламу партнеров и там какие-то криптофантики платят за просмотр. ими потом можно донатить нужному сайту. то есть прибыль от рекламы может отправиться любимому автору контента.
зачем им это? вероятно, получают свой %%, если включаешь показ рекламы. если не включаешь-роняешь результативность традиционной и тоже кто-то им занесет.

по сравнению с эдблоками, умеет внутри самого браузера подменять всякие маркирующие пиксели и другие способы трекинга. работает на мобиле. быстрее хрома и лисы

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Alex Melnikoff

.

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Илья Ланкевич

Так много оправданий… зачем?

Ответить
Развернуть ветку
Родитель номер один

Чувак видимо видимо постоянно объясняет окружающим, что он - "не такой", не вредитель, а бизнесмен.

Ответить
Развернуть ветку
Jonas Kotovsky

"Не парсинг — плохой." аааа, понятно

Ответить
Развернуть ветку
Уша Миткин

Всякая медаль как бы о двух сторонах. Вот, скажем, администрация ресторана недрогнувшей дланью решительно возводит препоны для парсеров на своём сайте – дабы не тырил себе неведомо кто картинки с екатеринбургерами. А в это время некий разработчик (да, вот такое совпадение!) только что забабахал мощный агрегатор предложений от точек общепита и запускает в тырнет парсеры ресторанных сайтов, дабы регулярно собирали свежую инфу и подбирали страждущим наиболее интересные кулинарные предложения местного разлива, с перенаправлением на сайт соответствующего ресторана. Занятный вариант, правда?

Ответить
Развернуть ветку
Максим

Парсинг 5,5 миллионов сайтов? Акий вы фантазер 😂

Ответить
Развернуть ветку
Максим Кульгин
Автор

вовсе нет. за 3 месяца обходим.

Ответить
Развернуть ветку
Максим

Мне кажется тогда надо уточнить, что такое "парсинг" в нашем случае. Вот представьте, есть сайт, например, местной аптеки в Новосибирске. У него есть много страниц и прочей информации. Чтобы написать парсер такого сайта нужно минимум 2 недели потратить до какого-то mvp. А еще есть сайты типа авито, которые чтобы парсить, надо потратить много времени на написание кода, а потом еще его поддержку. Так вот вопрос, вы 5.5 миллионов сайтов когда собираете, это получается, что для всех 5.5 миллионов есть какой-то код, который делает полный ETL-процесс или что подразумевается?

Ответить
Развернуть ветку
Максим Кульгин
Автор

собираем всю значимую контактную информацию, включая ИНН и т.п.

Ответить
Развернуть ветку
20 комментариев
Раскрывать всегда