Парсинг сайтов. Россия и мир. Как с точки зрения закона выглядит один из самых полезных инструментов?

Попробую рассмотреть один из лучших способов сбора информации в интернете – парсинг – с юридической точки зрения. Эта публикация касается некоторых обще-правовых вопросов, связанных с парсингом, но не является юридической консультацией. Моя компания занимается парсингом сайтов в России уже более трёх лет, ежедневно мы парсим около 400 крупнейших сайтов в РФ и постоянно изучаем правовую оценку этого бизнеса. К сожалению (или к счастью для нас) в России судебной практики в отношении парсинга совсем мало, чего нельзя сказать про зарубежный опыт.

Парсинг сайтов. Россия и мир. Как с точки зрения закона выглядит один из самых полезных инструментов?

Парсинг – это автоматизированный процесс извлечения данных с чужого веб-сайта. Но стоит разобраться, действительно ли это один из самых полезных инструментов ИТ для сбора данных или ловушка, влекущая неизбежные проблемы с законом? Парсинг мог бы непременно стать одним из совершеннейших способов "добычи" контента по всей сети, но к нему прилагается оговорка: с этим инструментом очень сложно разобраться с юридической стороны.

Парсинг – не то же самое, что API. Например, компания может открыть доступ к API, чтобы позволить другим системам взаимодействовать с ее данными; при этом качество и количество доступных данных через API, как правило, ниже, чем можно получить, используя парсинг. Кроме того, парсинг предоставляет более актуальную информацию, чем через API, и значительно проще настраивается со структурной точки зрения.

Области применения «парсинговой» информации очень многочисленны. Спортивный журналист может использовать парсинг, чтобы исследовать бейсбольную статистику для статьи. Или, например, в электронной коммерции можно извлекать наименования товаров и цены на них из разных источников для последующего анализа (вот вам пример - можете скачать итоги парсинга БЕРУ.РУ и посмотреть как они выглядят, там, кстати, есть полезная информация по поставщикам).

Но, хоть парсинг и, несомненно, мощный инструмент, когда дело касается правовых вопросов, могут появиться трудности. Поскольку в процессе парсинга изначально существующий контент из разных источников присваивается тем, кто этот инструмент использует, появляются этические и юридические затруднения.

В чем разница между терминами "парсинг" и "краулинг"?

Давайте для начала определимся с терминами, чтобы быть уверенными, что думаем об одном и том же. Парсинг – это процесс регулярного автоматического скачивания данных с веб-страницы и извлечение из нее конкретной информации. Иными словами это то чем мы занимаемся для наших клиентов - парсим сайты так, чтобы данные поступали регулярно (в основном по товарам).

Извлеченная информация может храниться практически где угодно (в базе данных, файле и т.д.). Краулинг – это процесс автоматического скачивания данных с веб-страницы, извлечение гиперссылок, которые на ней есть, и переход по ним. Скачанные данные обычно хранятся в каталоге или в базе данных, чтобы можно было легко запустить поиск по ним.

Например, вы используете парсер, чтобы извлечь данные о прогнозе погоды с сайта метеорологической службы. Это позволит вам проанализировать их. С другой стороны, вы можете использовать краулер, чтобы скачать данные сразу со многих сайтов, и сделать поисковой движок. Может, вы уже слышали про Гуглбота (Googlebot), собственный веб-краулер Гугла. Выходит, по сути, парсеры и веб-краулеры используются в самых разных целях.

Мы, кстати, уже публиковали статью на VC.RU где рассказывали про наш опыт парсинга крупных Российских Интернет- магазинов.

Почему парсинг часто представляют в негативном свете?

Репутация парсинга была сильно подмочена в последние несколько лет, и это справедливо:

  • Его все больше используют в интересах бизнеса, чтобы получить конкурентное преимущество. Так что часто за этим стоит финансовая мотивация.
  • Часто парсинг используют, совершенно игнорируя авторское право и условия обслуживания на сайте (правила использования). Хотя кто их вообще читает? :)
  • Парсинг нередко используют нечестно, злоупотребляют им. Например, парсеры могут посылать куда как больше запросов в секунду, чем человек, и это выливается в неожиданную нагрузку на сайты. Еще парсеры могут оставаться анонимными и никак себя не определять. И, в конце концов, они могут выполнять еще и запрещенные действия: обходить меры безопасности, которые защищают данные от автоматического скачивания и делают их недоступными в любом другом случае.

Множество людей и компаний используют свои собственные парсеры прямо сейчас. Их так много, что это уже стало головной болью компаний, чьи сайты парсят. Например, страдают социальные сети (типа Фейсбука, LinkedIn и т.д.) и онлайн-магазины (типа Амазона). Возможно, именно поэтому у Фейсбука есть отдельные правила для автоматического сбора данных.

С другой стороны, это исторический факт: краулинг использовался известными поисковыми движками (типа Гугла, Бинга и т.д.), чтобы скачивать и каталогизировать веб. За долгие годы эти компании заработали положительную репутацию, потому что они создали совершенно необходимые инструменты, которые сделали сайты, которые они краулят, более ценными. Так что, по сути, краулинг представляется в более выгодном свете, хотя им тоже иногда можно злоупотребить.

Так парсить законно или незаконно?

Посмотрим ситуацию в Европе и США, а далее вернемся к России (у нас ситуация гораздо "мягче", пока...)

Парсинг и краулинг не незаконны сами по себе. В конце концов, вы можете парсить или краулить свой собственный сайт, вам никто не указ. Проблема может возникнуть, когда вы парсите чей-то чужой сайт, не получив письменного разрешения или вопреки условиям обслуживания (правила пользования, обычно на них есть ссылка в футере сайта, хотя кто же их читает :). По сути, вы сами ставите себя в слегка уязвимую позицию.

Только подумайте об этом. Вы используете чужую пропускную способность, свободно получаете и используете чужие данные. Логично было бы решить, что владельцу данных это не понравится, потому что то, что вы делаете, может ему каким-нибудь образом навредить. Так что, в зависимости от многих факторов (и настроения владельца), он полностью вправе преследовать вас в судебном порядке.

Знаю, о чем вы сейчас подумали. «Ой да ладно! Это же смешно! С какой стати владелец будет подавать на меня в суд?». Конечно, он может вас просто проигнорировать. Или просто использовать свои технические возможности, чтобы заблокировать вас. Или просто прислать вам запретительное письмо. Но технически ничто не может помешать владельцу подать на вас в суд.

Нужны доказательства? Дело LinkedIn против неизвестных ответчиков: LinkedIn подал в суд на примерно 1-100 человек, которые анонимно парсили сайт. И за что он подал в суд на всех этих людей?

Давайте посмотрим:

  • Нарушение Закона о компьютерном мошенничестве и злоупотреблении.
  • Нарушение уголовного кодекса Калифорнии.
  • Нарушение Закона об авторском праве в цифровую эпоху.
  • Нарушение договора.
  • Вторжение на чужую территорию.
  • Хищение.

Этот судебный процесс вызывает реальное беспокойство, потому что на самом деле неясно, что будет с теми «анонимными» людьми. Учтите: если на вас подадут в суд, вы не сможете просто отклонить иск (я правда не очень понимаю, что будет если мы в России будем парсить зарубежные сайты и на нас подадут в суд в Калифорнии). Вам нужно будет защищаться в суде, чтобы доказать, что вы не сделали ничего противоправного. И неважно, честно это или нет, действительно вы сделали что-то незаконное или нет.

Другая проблема состоит в том, что право – это скорее всего нечто, к чему вы непривычны. Потому что в то время как вы будете использовать логику, здравый смысл и техническую экспертизу, они будут использовать правовой язык и серую зону права, чтобы доказать, чтобы вы сделали что-то плохое. Это определенно не та ситуация, в которой приятно оказаться. Так что вам понадобится адвокат, и это может стоить вам кучу денег.

К тому же, если отталкиваться от судебного процесса LinkedIn, описанного выше, можно увидеть, что дела несомненно могут становиться довольно сложными и объемными, даже если вы «просто парсили сайт».

Типичные контраргументы

Я прекрасно понимаю, что в целом люди стараются оправдать парсинг и краулинг, принижая их значимость. И у таких людей обычно одни и те же типичные аргументы, которые используются снова и снова. Давайте сделаем обзор самых распространенных.

«Я могу делать все что угодно с общедоступными данными»

Проблема в том, что авторские права на «творческую расстановку» данных могут кому-то принадлежать, как описано на сайте cendi.gov: «Авторское право на факты не может кому-то принадлежать. Тем не менее, творческая выборка, координация и расстановка информации и материалов, которые формируют базу данных или компиляцию, могут быть защищены законом (а могут и не быть). Однако заметьте, что защита авторского права распространяется только на творческие аспекты, не на сами факты, которые хранятся в базе данных или компиляции.

Итак, сайт – включая его страницы, дизайн, планировку и базу данных – может быть защищен законом об авторском праве, потому что считается творческой работой. И если вы парсите этот сайт, чтобы извлечь информацию, то даже сам факт простого копирования и сохранения веб-страницы с помощью парсера может быть расценен как нарушение авторского права. В Соединенных Штатах авторская работа защищена Законом об авторском праве в цифровую эпоху.

«Это добросовестное использование!»

Это серая зона:

  • В деле Келли против Arriba Soft Corp. суд постановил, что Ditto.com, поисковой движок, работавший по изображениям, добросовестно использовал фотографии профессиональных фотографов, показывая только иконки-превью.
  • В деле Assosiated Press против Meltwater U.S. Holdings, Inc. суд постановил, что новостной агрегатор Meltwater недобросовестно использовал статьи Associated Press, даже несмотря на то, что полученные парсером статьи были показаны только в качестве выдержек из оригиналов.

«Это то же самое, что обычно делает мой браузер- парсинг сайта технически не отличается от использования веб-браузера. В любом случае, я мог бы собрать данные вручную!»

Неверно. Условия обслуживания (пользовательское соглашение) часто содержат пункты, которые запрещают краулинг/парсинг/харвестинг и вообще автоматическое использование сопутствующих услуг. Ваши руки связаны этими условиями. Неважно, что вы могли бы собрать данные вручную. Еще раз подчеркну, что это не про Россию.

«Худшее, что может случиться, если я нарушу условия обслуживания, – меня забанят или заблокируют».

Это серая зона:

  • В деле Фейсбук против Пита Уордена адвокат Фейсбука угрожал мистеру Уордену подать на него в суд, если он опубликует свой набор данных, который состоит из сотен миллионов профилей Фейсбук.
  • В деле Linkedin Corporation против Майкла Джорджа Китинга Linkedin заблокировал мистера Китинга, лишил доступа к сайту, потому что он создал инструмент который, как думали в компании, был предназначен для парсинга их сайта. Они ошиблись. Но тем не менее, Китинг так никогда и не смог восстановить свой аккаунт. К счастью, дальше это дело не зашло.
  • В деле LinkedIn Corporation против Robocog Inc. последняя (она же HiringSolved) была вынуждена заплатить Linkedin 40 тысяч долларов, потому что без разрешения парсила их сайт.

«Это абсолютно нечестно! Гугл краулит/парсит весь веб сколько существует!»

Верно. Но, видимо, право не имеет ничего общего с честностью. Оно основано на правилах, которые интерпретируют люди.

«Если на меня когда-нибудь подадут в суд, я сумею прекрасно защитить себя!»

Удачи! Круто, если вы знаете право и правовой язык на высоком уровне.

«Но я использовал автоматизированный скрипт, так что я не заключал никаких договоров с сайтом»

Это серая зона:

  • В деле Internet Archive против Сюзанны Шелл суд постановил, что Internet Archive виновен в нарушении договора, так как копировал и архивировал страницы с сайта миссис Шелл, используя краулеры. На своем сайте миссис Шелл выставила предупреждение, в котором говорится, что если вы копируете с сайта контент, то автоматически соглашаетесь с договором. По нему вы должны ей 5 тысяч долларов за каждую скопированную страницу (!!!). В этом деле стороны, по видимому, достигли мирового соглашения.
  • В деле Southwest Airlines Co. против BoardFirst, LLC суд признал BoardFirst виновными в нарушении лицензионного соглашения, которое было выложено на сайте Southwest Airlines. BoardFirst создали инструмент, который автоматически скачивал посадочные талоны клиентов Southwest Airlines, чтобы предложить места получше.

«Условия обслуживания все равно не имеют силы. У них нет правового статуса».

Неверно. Юридическая фирма Bingham McCutchen LLP опубликовала довольно подробную статью на эту тему, и там говорится:

«Как и в случае с любым другим контрактом, по правилам, условия обслуживания сайта имеют силу, если обе стороны приняли условия. […] Неважно, нужно ли кликнуть, чтобы дать согласие, или условия обслуживания – лицензионное соглашение, выложенное на сайте. То, что ответчик не прочитал условия, никак не влияет, условия все равно имеют силу. Один суд не согласился с тем, что от стороны, которая использует краулинговые или парсинговые инструменты, нельзя требовать знания условий обслуживания соглашения с ними, не согласился, что эта сторона не могла знать о них. Также и другой суд решил, что ответчик – сторона, неоднократно использовавшая такие инструменты на определенном сайте, – знал об условиях обслуживания. Тем не менее, эти дела, опять таки, очень сильно зависят от фактов, и суды также, бывало, отклоняли прошение придать юридическую силу условиям обслуживания, когда истец не мог доказать, что ответчик точно знал или мог знать эти условия (т.к. условия были незаметными). Такое бывало даже в случаях, когда ответчик неоднократно использовал краулинговые и парсинговые инструменты на определенном сайте».

Другими словами, условия обслуживания (пользовательское соглашение) будут (могут) иметь юридическую силу, если так постановит суд и если есть существенные доказательства того, что вы в курсе этих условий.

«Я ознакомился с robots.txt и краулил на разумной скорости, так что я не могу попасть в неприятности, правильно?»

Это серая зона.

Robots.txt определяется как «технологический инструмент, предназначенный для сдерживания нежелательного краулинга или парсинга». Но неважно, принимаете вы его во внимание или нет, вы все еще нарушаете условия обслуживания.

«Ладно, но это для личного использования. Только для моего личного исследования. Я не буду публиковать его или производный набор данных, и продавать тоже не буду. Так что все в порядке, так?»

Это серая зона. Условия обслуживания часто запрещают автоматический сбор данных – для любых целей.Обратимся к юридической фирме bingham McCutchen LLP: «Часто условия эксплуатации сайтов включают пункты, запрещающие доступ к сайту или его использование с помощью веб-краулеров, парсеров или других роботов – в том числе и для сбора данных, который является самоцелью. Суды постановили, что соглашения были нарушены использованием краулинговых или парсинговых инструментов».

«Но у сайта нет robots.txt. Так что, я могу делать, что хочу, верно?»

Неверно. Ваши руки все еще связаны условиями обслуживания, а контент все еще защищен авторским правом.

Учитывая все написанное выше, вы уже определенно можете понять, что должны быть особо осторожными с парсингом и веб-краулингом.

Вот несколько советов по поводу парсинга:

  • Если возможно, используйте API вместо того, чтобы парсить данные напрямую.
  • Не нарушайте условия обслуживания.
  • Не нарушайте правила robots.txt.
  • Устанавливайте разумное значение скорости краулинга, то есть не бомбардируйте сайт запросами. Не нарушайте установленные в robots.txt перерывы. Если таковых нет, используйте консервативное значение краулинга (1 запрос каждые 10-15 секунд).
  • Определяйте свой парсер допустимой строкой агента пользователя. Создайте страницу, которая объясняет, что вы делаете и почему, и добавьте ссылку на нее в свою строку агента пользователя (то есть, ‘MY-BOT (+https://имя-вашего-сайта.com/mybot.html)’).
  • Если условия обслуживании или robots.txt не дают вам провести краулинг или парсинг, возьмите письменное разрешение у владельца сайта перед тем как начать делать что-то еще.
  • Не публикуйте данные, которые краулили или парсили, также не публикуйте никаких производных наборов данных без сверки с лицензией на эти данные или без полученного письменного разрешения правообладателя.
  • Если вы сомневаетесь в законности того, что делаете – не делайте это. Или спросите совета у юриста.
  • Не основывайте весь свой бизнес на парсинге данных. Сайт(ы), с которых вы парсите данные, могут рано или поздно заблокировать вас, как это произошло в деле Craigslist Inc. против 3Taps Inc.
  • И в конце концов, вам нужно с подозрением относиться ко всем советам, которые вы находите в интернете (включая мои), так что, пожалуйста, проконсультируйтесь с юристом.

Помните, что компании и частные лица вольны подавать на вас в суд по любым причинам, какие только найдут. И, скорее всего, это будет не первым шагом, который они сделают. Если вы парсите или краулите их сайт без разрешения, если делаете что-то, что им не нравится, вы определенно ставите себя в уязвимую позицию.

Итого?

Как мы видим из этого поста, парсинг и краулинг не незаконны сами по себе. Они могут стать сомнительными, когда вы играете на чужой территории по своим собственным правилам, не получив разрешение заблаговременно. То же самое применимо и к реальной жизни, если так подумать. Есть много серых зон в правовом поле вокруг этой темы, так что исход довольно непредсказуем. Чтобы не попасть в неприятности, перед началом работы удостоверьтесь, что вы не нарушаете никаких правил.

Судебная практика за рубежом

На сегодняшний день в среде парсинга нет четко очерченных юридических рамок, это состояние постоянного движения, но можно попытаться приблизительно обрисовать зоны наибольшего риска. Ниже в общих чертах описываются самые яркие случаи судебных разбирательств, имевшие место в США, и ставшие прецедентными.

2000-2009: eBay

После появления парсинга юридических проблем не возникало довольно долгое время. Но в 2000 году использование этого инструмента спровоцировало настоящее сражение – eBay выступил против компании по сбору аукционных данных Bidder’s Edge. Компания eBay обвиняла Bidder’s Edge в незаконном использовании извлечения данных, обращаясь к Доктрине о нарушении границ движимого имущества. Судья поддержал истца, заявив, что высокая активность программ-роботов может подорвать работу eBay.Затем в 2003 году в судебном процессе Intel против Hamidi, Верховный суд Калифорнии отклонил то обоснование, которое eBay использовала против Bidder’s Edge, постановив, что Доктрина о нарушении границ движимого имущества не может распространяться в компьютерной среде, если не было причинено настоящего ущерба личной собственности.Все самые ранние дела против парсинга опирались на Доктрину о нарушении границ движимого имущества и заканчивались успехом истцов. Но этот подход больше не действенен.

2009: Facebook

В 2009 году Facebook подал в суд на Power.com – сайт, который объединял различные социальные сети в один централизованный ресурс, – когда последний включил Facebook в свой сервис. Поскольку Power.com парсил контент Facebook, вместо того чтобы придерживаться установленных стандартов гиганта, Facebook предъявил иск на основании нарушения авторского права. Компания Facebook обвиняла Power.com в копировании веб-сайта Facebook в процессе извлечения информации о пользователях. Facebook утверждала, что этот процесс является прямым и косвенным нарушением авторского права. Решение суда было в пользу Facebook, и с этого времени решения относительно законности парсинга начали приниматься в пользу авторов содержимого сайтов.Даже если парсер игнорирует контрафактный контент в процессе поиска общедоступной информации, его действия могут характеризоваться как нарушение авторского права, потому что технически контрафактный контент все равно «копируется».

2011-2014: Ауэрнхаймер

В 2010 году хакер Эндрю Ауэрнхаймер нашел брешь в системе безопасности на веб-сайте AT&T и извлек адреса электронной почты пользователей, которые посещали сайт со своих iPad. Воспользовавшись недостатком системы безопасности и парсингом, Ауэрнхаймер смог получить доступ к тысячам электронных адресов с сайта AT&T. Ауэрнхаймер был признан виновным в несанкционированном доступе к серверу AT&T и присвоении чужих данных.Использование парсинга для извлечения конфиденциальной личной информации может привести к обвинению, даже если эта информация была номинально общедоступной. Можно попробовать убедить суд, что ни пароли, ни коды не взламывались для получения доступа к информации, тем не менее, это опасная территория.

2013: Meltwater

Meltwater – компания-разработчик программного обеспечения, чей продукт Global Media Monitoring, использует парсинг для сбора новостей. Ассошиэйтед Пресс подала в суд на Meltwater за парсинг статей, некоторые из которых были защищены авторским правом, и за незаконное присвоение новостей. Факты нельзя защищать авторским правом, но суд решил, что сами статьи и авторское изложение фактов копировать незаконно. Кроме того, использование статей компанией Meltwater не соответствовало установленным стандартам. Авторский контент не всегда можно парсить!

2014: QVC

В 2014 году QVC (известный телевизионный ритейлер) и Resultly (приложение-магазин) судились из-за того, что QVC назвал «чрезмерным парсингом». Обвинение QVC было в том, что Resultly маскировала своих поисковых роботов, чтобы скрыть исходный IP-адрес, таким образом QVC не могли блокировать нежелательных для них парсеров. Из-за того, что боты были достаточно агрессивны к серверам QVC, произошла перегрузка с отключением электричества, которое повлекло ущерб в 2 миллиона долларов. Суд оправдал Resultly, постановив, что намерений нанести ущерб не было.

А что в России? Законно ли парсить сайты в России?

Начнем с самого простого и распространенного вопроса — фотографирование ценников в магазинах, хотя это не имеет прямого отношения к парсингу сайтов, но проблематика схожая (действительно, кажется, что нет разницы фотографировать ценники в магазинах, либо парсить цены с сайтов конкурентов).

Итак, вопрос: Можно ли установить для покупателей правило, запрещающее проводить несанкционированную фото- и видеосъемку в магазине? Если не углубляться в детальное толкование закона, давайте посмотрим на самую важную статью об информации:

В соответствии со статьей №5 Закона «ОБ ИНФОРМАЦИИ, ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЯХ И О ЗАЩИТЕ ИНФОРМАЦИИ»:

1. Информация может являться объектом публичных, гражданских и иных правовых отношений. Информация может свободно использоваться любым лицом и передаваться одним лицом другому лицу, если федеральными законами не установлены ограничения доступа к информации либо иные требования к порядку ее предоставления или распространения.

2. Информация в зависимости от категории доступа к ней подразделяется на общедоступную информацию, а также на информацию, доступ к которой ограничен федеральными законами (информация ограниченного доступа).

3. Информация в зависимости от порядка ее предоставления или распространения подразделяется на:

1) информацию, свободно распространяемую;

2) информацию, предоставляемую по соглашению лиц, участвующих в соответствующих отношениях;

3) информацию, которая в соответствии с федеральными законами подлежит предоставлению или распространению;

4) информацию, распространение которой в Российской Федерации ограничивается или запрещается.

4. Законодательством Российской Федерации могут быть установлены виды информации в зависимости от ее содержания или обладателя.

Таким образом, информация о ценах в магазинах является общедоступной, т.к. нет законодательства ограничивающего доступ к такой информации. В связи с чем переписывать и снимать цены в магазине не запрещается. Действительно, нарушений закона нет.

Более того, в статье 29 Конституции Российской Федерации закреплено право каждого гражданина «свободно искать, получать, передавать, производить и распространять информацию любым законным способом».

Теперь по парсингу сайтов. Вопрос, который мы задали юридической компании («Фрезе и партнеры») перед запуском нашего бизнеса: «Вправе ли организация осуществлять автоматизированный сбор информации, размещенной в открытом доступе на сайтах в сети интернете (парсинг)?»

В соответствии с действующим в Российской Федерации законодательством разрешено всё, что не запрещено законодательством. Парсинг сайтов является законным, в том случае, если при его осуществлении не происходит нарушений установленных законодательством запретов. Таким образом, при автоматизированном сборе информации необходимо соблюдать действующее законодательство. Законодательством Российской Федерации установлены следующие ограничения, имеющие отношение к сети интернет:

  • Не допускается нарушение Авторских и смежных прав.
  • Не допускается неправомерный доступ к охраняемой законом компьютерной информации.
  • Не допускается сбор сведений, составляющих коммерческую тайну, незаконным способом.
  • Не допускается заведомо недобросовестное осуществление гражданских прав (злоупотребление правом).
  • Не допускается использование гражданских прав в целях ограничения конкуренции.

Из вышеуказанных запретов следует, что организация вправе осуществлять автоматизированный сбор информации (парсинг сайтов), размещенной в открытом доступе на сайтах в сети интернет если соблюдаются следующие условия:

  • Информация находится в открытом доступе и не защищается законодательством об авторских и смежных правах.
  • Автоматизированный сбор осуществляется законными способами.
  • Автоматизированный сбор информации не приводит к нарушению в работе сайтов в сети интернет.
  • Автоматизированный сбор информации не приводит к ограничению конкуренции.

Есть рекомендации, которых стоит придерживаться, если используется парсинг:

  • Извлекаемый контент не должен быть защищен авторским правом
  • Процесс парсинга не должен мешать работе сайта, который подвергается парсингу
  • Парсинг не должен нарушать условия использования сайта
  • Парсер не должен извлекать личную (персональную) информацию пользователя
  • Контент, который подвергается парсингу, должен отвечать стандартам правомерного использования

Самый «тонкий» момент — это возможность претензий на то, что «парсинг мешает работе нашего сайта и мы несем убытки». В ответ на такую претензию можно сослаться на то, что поисковые механизмы Google и Yandex занимаются парсингом (индексацией) всего сайта и собирают всю доступную информацию, делая это достаточно регулярно. Соответственно, звучит логично, что аналогичный парсер, который заходит на сайт компании, чтобы собрать информацию о ценах, выполняет тоже самое техническое действие. Доказать то, что аналогичное действие мешает работе сайта, а работа поисковых систем не мешает, может быть затруднительно. Но в любом случае, хороший парсер должен следовать правилам в robots.txt.

Можно ли юридически запретить парсинг сайта в России?

Очень часто на сайтах пишут аналоги фразы “Автоматизированное извлечение информации сайта запрещено”. Имеет ли значимую юридическую силу это предупреждение?

Любые дополнительные юридические ограничения человека (сверх того, что требует государственное законодательство) можно навязать пользователю лишь одним способом – путем ДОБРОВОЛЬНОГО (с обеих сторон) заключения договора. Это обычно реализуется в виде пользовательского соглашения при регистрации на сайте. При этом одна сторона (например, сайт) обязуется предоставить какие-то услуги (например, доступ к некоторой важной информации), в то время как другая сторона (пользователь) добровольно принимает на себя какие-то ограничения (например, не пользоваться никакими автоматизированными средствами для извлечения, предоставляемой ему, информации). Это соглашения вступает в юридическую силу с момента нажатия на кнопку “Принимаю условия” (см. акцепт). Поскольку с анонимным пользователем в принципе невозможно заключить никакой договор (что очевидно, он не акцептует ничего), то на не прошедшего регистрацию пользователя невозможно возложить никакие ограничения (сверх существующих в законе).

Но сказанное выше касается только механизма, которым пользователь взаимодействует с сайтом. Что касается самого контента на сайте, который пользователь получает, то на него распространяется все нормы авторского права (независимо от способа, которым он получен). Поскольку авторское право (как государственный закон и международное соглашение) распространяется на всех без исключения (в том числе и на анонимных пользователей), то не требуется заключать с пользователем никакого договора (и заставлять проходить его регистрацию).

Достаточно упомянуть (желательно на видном местом) запрет на использование данного контента в любых целях (обычно коммерческих), кроме личного ознакомления. Это допустимо на основании того, что владелец исключительных прав на контент может определять любые ограничения на его использование. Что это дает: контент, собранный автоматизированными средствами, в дальнейшем не может быть использован никак без нарушения закона о защите авторских прав (это серьезнее, чем нарушение пользовательского соглашения). Но, если мы говорим про парсинг фактических данных (артикул товара, цена, категория и т.п.), то авторское право на такой контент не распространяется.

Обратите внимание, что создавая сайт на каком-то стеке технологий, разработчик сайта принимает все его возможности и способы использования. Поэтому пользователь, в свою очередь, имеет такое же право пользоваться всеми возможностями и способами для получения информации, которые предоставляет выбранная разработчиком платформа и стек технологий.

Можно ли в России парсить данные пользователей с Авито, ВКонтакте и других социальных сетей?

Методы сбора персональных данных пользователей (телефоны, почта и т.п.) с сайтов объявлений (например АВИТО) и социальных сетей (в том числе автоматические) являются весьма популярными. Чтобы в этом убедиться, достаточно набрать в поисковике запрос вида «парсинг авито» или любой похожий – вы увидите многие десятки предложений подобных услуг.

Выгоды совершенно очевидны: вы быстро и дешево получаете базу потенциальных потребителей товара или услуги с нужными контактными (ФИО, телефон, электронная почта и т.п.). Данные базы могут использоваться по-разному, но главным образом, конечно, для контактов посредством отправки электронных писем, СМС или совершения звонков. Тем не менее, осуществление такого парсинга персональных данных людей – это нарушение федерального закона «О персональных данных», поскольку обработка персональных данных может осуществляться только при наличии согласия на это.

Заинтересованные в парсинге стороны обычно приводят несколько аргументов, которые, по их мнению, доказывают, что нарушения законодательства не происходит.

Они такие:

  • Отдельно взятые данные, например, только номер телефона, не являются сами по себе персональными данными, а, значит, собирать их можно;
  • Пользователи самостоятельно выкладывают свои данные в открытый доступ, тем самым давая согласие на то, что их данные будут обрабатываться, а также на то, что им будут звонить или отправлять сообщения.

Аргументы, разумеется, не имеют ничего общего с действительностью, так как:

  • Персональными данными, согласно ст. 3 федерального закона «О персональных данных», называется «любая информация, относящаяся к прямо или косвенно определенному или определяемому физическому лицу (субъекту персональных данных)». То есть, закон не определяет исчерпывающего списка того, что является персональными данными, а что нет, ограничиваясь констатацией того, что позволяет идентифицировать человека, а что нет. При этом, что важно, нет никакого указания на то, что обязательно наличие, например, ФИО, чтобы данные стали персональными. В этих терминах, личный номер телефона физического лица тоже является персональными данными. Соответственно, если даже парсятся только телефонные номера пользователей (без их согласия), то уже нарушается закон «О персональных данных».
  • Несмотря на то, что пользователи действительно выкладывают свои данные в открытых источниках, статья 6 федерального закона «О персональных данных» все равно обязывает получать согласие на обработку персональных данных: «обработка персональных данных осуществляется с согласия субъекта персональных данных на обработку его персональных данных». А статья 9 того же закона уточняет, что:
  • Субъект персональных данных принимает решение о предоставлении его персональных данных и дает согласие на их обработку свободно, своей волей и в своем интересе.
  • Согласие на обработку персональных данных должно быть конкретным, информированным и сознательным.
  • Согласие на обработку персональных данных может быть дано субъектом персональных данных или его представителем в любой позволяющей подтвердить факт его получения форме, если иное не установлено федеральным законом.

Обязанность предоставить доказательство получения согласия субъекта персональных данных на обработку его персональных данных или доказательство наличия оснований, указанных в пунктах 2 – 11 части 1 статьи 6, части 2 статьи 10 и части 2 статьи 11 настоящего Федерального закона, возлагается на оператора.

Соответственно, парсинг данных пользователей с сайтов объявлений и социальных сетей является незаконным и за это в Кодексе Российской Федерации об административных правонарушениях предусмотрена следующая ответственность (см. статью 13.11): «Нарушение установленного законом порядка сбора, хранения, использования или распространения информации о гражданах (персональных данных) – влечет предупреждение или наложение административного штрафа на граждан в размере от трехсот до пятисот рублей; на должностных лиц – от пятисот до одной тысячи рублей; на юридических лиц – от пяти тысяч до десяти тысяч рублей».

Важно отметить также, что санкции этим могут не ограничиться, поскольку нарушение федерального закона «О персональных данных» может сопровождаться нарушением федерального закона «О рекламе», если по собранной базе, например, рассылались рекламные СМС-сообщения. То есть, парсинг данных пользователей из открытых источников нарушает положения федерального закона «О персональных данных» и может вызвать правовые последствия.

1212
4 комментария

Подписан на Вас в ютубе! Вы снимаете классные ПОУЧИТЕЛЬНЫЕ видео.

1

Отличная статья, Максим!

Столкнулся с тем, что парсинг сайта часто требуется для магазинов, которые хотят себе мобильное приложение (вы ведь мобильные приложения тоже делаете?).

Потому как backend может быть настолько давно и тесно интегрирован с сайтом, что выделить его в отдельный API нереально дорого и долго, а приложение нужно уже здесь и сейчас.

Тогда приходиться делать «промежуточный слой» — по сути, API, который одной своей частью регулярно парсит сайт, а другой отдаёт данные мобильному приложению.

Вы такие проблемы также парсингом решаете, или всё-таки настаиваете на выделении API в независимый сервис?

парсинг это крайняя мера :) лучше уж попросить АПИ. Да, мы делаем мобильные приложения на базе нашего конструктора https://appropio.com, у нас есть ряд клиентов кто не может дать товары через АПИ, их сайты парсим, но это слегка ... глупо :)

А что если у какого-то стороннего сайта нет мобильной версии и приложения, и я сделаю приложение, которое парсит странички сайта и выводит их в удобном мобильном формате? По факту напишу просмотрщик сайта? Я ничего не копирую, не храню. По факту это будет делать пользователь приложения в личных целях.