Спам, звонки, мошенники — да когда уже запретят парсинг?

Меня зовут Максим Кульгин, моя компания xmldatafeed занимается парсингом сайтов в России много лет. Ежедневно мы парсим ассортимент с более 500 крупнейших интернет-магазинов и собираем открытые данные с 5.5 млн. сайтов в Рунете. Иногда мы получаем волну ненависти в комментариях. Нас необоснованно обвиняют и в том, что стало невозможно брать трубку, и в том, что паблики ВКонтакте воруют друг у друга контент :)…

Давайте разбираться.

Да, несмотря на растущую всеобщую озабоченность, парсинг (сбор открытых данных в сети) остается инструментом, широко используемым мошенниками. Боты атакуют, звонят, беспокоят, смартфоны становятся всё более уязвимыми — и чем кончится эта вакханалия никто не знает.

Скандал, вызванный действиями британской консультационной фирмы «Кэмбридж Аналитика» ещё несколько лет назад заставил человечество пристально взглянуть на проблему неожиданного сбора данных.

По мере того, как всё больше мошенников осознают те перспективы, которые открывает парсинг, а сам процесс благодаря появлению новых инструментов становится всё более доступным — тем всё чаще и чаще мы замечаем, что парсинг используется с дурными намерениями.

Возьмем для примера Facebook, некогда олицетворявший надежды на новый чудный сетевой мир (и который не выдержал проверки историей и в конце концов опустился до тошнотворной экстремистской организации, наконец-то официально запрещённой в РФ).

История с «Кэмбридж Аналитика» официально появилась в марте 2018-го, а осенью 2019-го, всего полтора года спустя, Facebook снова попадает в заголовки газет: огромное количество телефонных номеров пользователей — по разным оценкам около 420 миллионов — были похищены в результате… простого чтения Facebook.

Что происходит дальше? Facebook пытается отвертеться, перекладывая всю ответственность на «плохих парней», занимающихся парсингом (в скобках — не удержался, чтоб не прокомментировать):

Парсинг — это проблема всей отрасли. Его не только трудно предотвратить (ага, особенно, если догадаться публиковать телефоны пользователей открытым текстом), но и обнаружить. В этом случае, как мы и объявляли в апреле 2018 года (и за полтора года ничему не научились) общедоступные телефонные номера были спарсены в нарушение нашей политики разрешений.
Вот почему мы убрали возможность находить друзей по номеру телефона — мошенники злоупотребляли этой функцией (вот незадача!). Как было сказано ещё в тот раз: «Учитывая масштаб и изощренность наблюдаемой активности можно предположить, что большинство профилей на Facebook были таким образом попросту спарсены…». («А что, так можно было?») С тех пор мы также вносим изменения в нашу платформу, чтобы снизить риск парсинга. (Ну, молодцы, чё…)

Так кто виноват в том, что пользователи добровольно соглашались с публикацией своего телефона, а «специалисты» по безопасности социальной сети посчитали по своей дикой наивности, что одного запрета мелким шрифтом где-то в пользовательском соглашении достаточно для того, чтобы остановить злоумышленников?!

Сам парсинг хорошо и подробно описан в Wiki DataVisor:

Парсинг — это автоматическое извлечение больших объемов данных с веб-страниц и приложений. Распространенные инструменты, используемые на практике, включают ботов, готовые или специально создаваемые скрипты, а также сторонние сервисы.

Существуют как законные, так и незаконные формы парсинга.

Как тут определить: что является «хорошим» законным парсингом, а что «плохим» незаконным?

Приходится исходить из того, что парсинг сам по себе не является преступлением. Законодательство всех развитых стран не пытается «навести тень на плетень»: всё, что может быть прочитано законными способом, может быть прочитано с помощью любых инструментов: от Google Chrome и Mozilla Firefox до браузеров с машинным интерфейсом и консольных утилит.

Весь вопрос сводится к тому: для чего парсинг осуществляется и какие деяния последуют после успешного сбора данных? И тут уже мы говорим не о парсинге, а о таких вещах, как:

причинение вреда имуществу;
преступления в сфере компьютерной информации;
нормы договорного права;
права на интеллектуальную собственность;
законы, устанавливающие правила работы с персональными данными.

Использование ботов, например, для чтения данных веб-страниц и для индексации поисковыми системами считается легальной и допустимой формой парсинга.

А вот использование ботов для парсинга изображений и текста с сайтов социальных сетей под создание поддельных аккаунтов — нет.

Мы не занимаемся преступной деятельностью и не делаем ничего, что могло бы навредить людям. Мы — часть прогресса и работаем на благо нашего общества. К нам постоянно обращаются с противозаконными просьбами — мы вежливо отказываем.

Но интересы людей должен охранять закон, а не нравственные представления участников сети. Будь в Америке принят и работай аналогичный закон о персональных данных — люди бы не пострадали от балбесов-маркетологов из Facebook.

И так везде.

Количество ботов в интернете неуклонно растет. Иногда уже непонятно: кого всё-таки больше — людей или ботов? В год компании подвергаются более 3 млрд. автоматизированных атак ботами. Несколько сотен миллионов атак совершаются с помощью мобильных устройств.

Не вручную же с мобильников орудовать… Вот так это выглядит.<br />

Тот же DataVisor писал:

Мошенники постоянно находят способы совершения злонамеренных действий, используют мобильные каналы связи. Они атакуют целые отрасли, включая финансовые услуги, торговые площадки, социальную коммерцию, игры. Используют всё более изощренные методы.

Злоумышленники используют ботов для увеличения масштаба своей преступной деятельности, скорости выполняемых действий, а также для запутывания следов.

В последнее время, как сообщает DataVisor, «мошенники усилили свои атаки, обратившись к новому и более продвинутому типу ботов — APB (Advanced Persistent Bot, „упорные и продвинутые роботы“).

Такие роботы способны использовать множество методов обфускации, включая реалистичную имитацию человеческого поведения, динамическую смену IP-адресов, использование распределенных атак с задействованием тысяч IP-адресов».

Парсинг, а если говорить шире, то использование ботов может служить для выполнения нескольких видов атак.

Мошенничество с приложениями

Парсинг личных данных, взятых с сайтов социальных сетей, может включать в себя всё, что угодно: от уличных адресов до профессий. Далее собранная информация может быть использована для подачи мошеннических заявок на получение займов и кредитных карт.

Как защититься: думайте, какую информацию публикуете о себе и где именно.

Поддельные списки товаров

Данные, взятые с маркетплейсов могут использоваться для создания поддельных, вводящих в заблуждение, вредоносных списков товаров на одноранговых (P2P) торговых площадках, таких как Craigslist, OfferUp и Wallapop.

Как защититься: не пытаться покупать что-то за гроши.

Обман

Рекламные объявления могут быть использованы для вымогательства денег у покупателей: фишинга, получения личной информации или, банально, обмана покупателей с целью продажи контрафактной продукции.

Как защититься: ходить на маркетплейсы по закладкам в браузере или через поисковик, а не по ссылкам в рекламе; думать о том, что делаете.

Мошенничество с цифровой рекламой

Боты могут искусственно «накручивать» переходы по рекламным объявлениям, искажая статистику, на основе которой оплачивается рекламная компания. Это называется «скликивание». Многие предприниматели даже и не подозревают о том, что их рекламный бюджет в значительной степени уходит «в никуда» из-за подобной деятельности, заказанной конкурентами.

Как защититься: оцените подверженность этому виду мошенничества и, если надо, почитайте статью о том, как можно самостоятельно защититься от скликивания.

Предотвращение и остановка вредоносного парсинга — это непростая задача. Казалось бы, чем раньше удастся устранить эту проблему, тем меньше ущерба будет нанесено. На самом деле — нет.

Думать о том, какие данные вы делаете публичными — вот первый совет, как не бояться последствий парсинга. Смешно звучит, но именно этим советом Facebook мог бы воспользоваться ещё в то время, когда сотрудники его «подразделения политической рекламы» впервые подняли шумиху вокруг Cambridge Analytica!

А противодействие парсингу традиционными методами не только не сможет остановить профессионалов, но только затруднит жизнь посетителям, отвратит часть клиентов, ухудшит продвижение сайта. Мы уже писали об этом ранее. Но если всё же хотите защититься от парсинга и противоправных последствий, то чуть ниже найдете несколько простых советов.

Любая атака, в том числе основанная на мошенничестве с использованием данных, подразумевает несколько этапов развития. Каждый из них имеет свою особенность.

Сбор данных

На этом этапе злоумышленник занят сбором данных, которые ему понадобятся для осуществления предполагаемой атаки. Точное обнаружение подозрительных действий здесь очень сложно, поскольку практически невозможно отличить злонамеренное посещение страницы от добропорядочного.

Подготовка к атаке

Необходимые данные уже получены и теперь закладывается основа для их использования в автоматизированных действиях. Возможно проделываются тестовые считывания и тому подобные шаги, которые теоретически могут оставлять цифровой след. Если этот этап возможно как-то выявить, то только с помощью специальных средств целостного анализа данных.

Атака

Подготовка завершена, все средства активизированы. Обнаружение возможно, но ответные действия будут запаздывать и могут принести больше вреда, чем пользы. В самом негативном сценарии: отслеживание ущерба — единственный оставшийся вариант.

Используя целостный анализ данных, можно выявлять подозрительные действия, которые — хотя и кажутся безобидными по отдельности — являются частью скоординированных злонамеренных усилий.
Выявляя подобные шаблоны, можно теоретически определить потенциально мошеннические учетные записи, а значит, и предотвратить действия до того, как они причинят вред.

Такие советы часто встречаются «в интернетах». Но это очень призрачный шанс на противодействие. Скажу, что действительно эффективно.

На изображения надо ставить «водяные знаки» или скрытые метки. Тогда появится возможность наказать воров в суде. Иски бывают по 100–200 тыс. рублей за одну фотографию. Если публикуете картинки из общедоступных источников — подкиньте несколько своих со скрытыми метками.

Ограничивайте количество запросов с одного IP-адреса в рамках одной сессии. А ещё лучше вместо IP-адреса отталкиваться от fingerprints браузера. Там можно собрать сотни параметров: размеры экрана, версию операционной системы, местоположение, сборку браузера… Только аккуратно, чтобы не навредить пользователям.

Усложняйте парсинг, тем самым увеличивая его себестоимость. Если у вас маленький бизнес, парсить вас для многих окажется нерентабельно.

Спасибо за внимание! Я старался быть краток и по делу.

Не стесняйтесь задавать свои вопросы в комментариях!

Не ругайтесь! :) Я понимаю, что парсинг сразу настраивает на негатив. Но это обычный бизнес, которым, уверяю вас, занимаются почти все торговые компании (так или иначе).

Не парсинг — плохой. Безответственность пользователей и тех, кто взялся работать с их персональными данными — вот причина всех неприятностей.

Ещё я регулярно описываю наш опыт в Телеграмм-канале.

Спам, звонки, мошенники — да когда уже запретят парсинг?

Так что ж это за мошенничество с парсингом?

Парсинг веб-страниц с помощью ботов

Виды мошеннических атак, ставших возможными благодаря парсингу

Этапы мошенничества

Прекращение мошеннического парсинга