Через месяц парсинг сайтов в России будет практически запрещен: полный обзор спора ВК v. «Дабл» и его последствия

Остался месяц, чтобы обжаловать решение суда по спору ВК против «Дабл». Если жалоба не будет подана, российская судебная практика пополнится решением, которое фактически запретит парсинг сайтов в России, но с некоторыми оговорками.

Что такое парсинг сайтов

Парсингом (parsing) называют процесс синтаксического анализа или же разбор данных.

В контексте веб-разработки парсинг сайтов – это процесс автоматизированного анализа HTML-кода сайта, в результате которого мы получаем необходимые для нас данные в систематизированном виде. С такими данными можно дальше удобно работать: передавать их, обрабатывать.

Какое-то время использовалось только понятие парсинга. Позже появились понятия «краулинг» (crawling) и «скрейпинг» (scraping). В целом все они выполняют одну и ту же цель – автоматизированное получение данных и представление их в систематизированном виде. Поэтому часто эти понятия не разделяют и используют одно – парсинг.

Далее объясняется на примере, что такое парсинг сайтов. Если вы знакомы с этим, ничего нового скорее всего там для себя вы не найдете.

Чтобы понять практическое значение парсинга сайтов, приведем небольшой пример HTML-кода:

<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <meta name="viewport" content="width=device-width, initial-scale=1.0"> <title>Пример HTML-кода</title> </head> <body> <h1>Внизу необходимые данные</h1> <div> <span>Белый</span> <p>Цель 1</p> </div> <div> <span>Синий</span> <p>Цель 2</p> </div> <div> <span>Красный</span> <p>Цель 3</p> </div> <div> <span>Белый</span> <p>Цель 4</p> </div> <div> <span>Красный</span> <p>Цель 5</p> </div> <div class=”hidden”>Этот элемент не отображается на сайте</div> </body> </html>

Предположим, что это HTML-код некоего сайта, из которого мы хотим извлечь определенные данные. Допустим, нам необходимы имена пользователей, которые в примере условно обозначены как «Цель» внутри HTML-тэга «p».

Таких целей у нас всего 5, но нам нужны не все, а лишь только те, что отвечают необходимым для нас параметрам (это необязательно, просто для примера). Допустим, это может быть определенный пол, возраст, город проживания человека и все прочее, что указано на сайте (либо в его коде, если отображение определенных элементов отключено на сайте – они есть, выполняют свою функцию, но обычный пользователь их не видит).

Итак, нам необходимо получить все цели, цвет которых красный. Для этого парсер обращается к странице, получает его HTML-код, «проходится» по нему, находит необходимые для него тэги (условно «span» и «p»), сравнивает их значения, и если внутри тэга «span» указан цвет «красный», парсер сохраняет цель из тэга «p». В нашем случае это цель 3 и цель 5.

Таким образом парсер может пройтись по большому количеству страниц и собрать необходимые данные за сравнительно небольшой промежуток времени.

Что сделал Дабл и почему это является парсингом

Дабл (https://doubledata.ru/) собирали (а может быть собирают и сейчас) данные пользователей российской социальной сети ВКонтакте (https://vk.com/) («ВК»). Затем эти данные использовались для предоставления скоринговых услуг банкам.

Как именно собирались данные? С помощью нескольких программ, разработанных Дабл:

  • Double Search – ищет информацию о людях, в том числе в соцсетях. Программа переходит по различным ссылкам, как поисковые роботы Google, с целью индексирования страниц. В данном случае индексирование позволяет (быстрее и удобнее) в будущем по запросу пользователя находить данные о людях – ссылки на их социальные сети.
  • Social Link – программа для просмотра результатов перехода по ссылкам, то есть страницы в соцсетях, в том числе из Double Search.
  • Social Attributes – анализирует содержимое страницы социальной сети с выдачей числовых коэффициентов.

Почему это парсинг? Потому что ПО Дабл обращается к сайту ВКонтакте, анализирует определенные его страницы, получает необходимые данные и затем их сохраняет. В результате мы получаем индекс – таблицы ключевых слов с метаданными. Могу предположить, что такая таблица состояла из ФИО, возраста, города, ссылки на страницу, фотографии и вся прочая открытая информация, которую пользователи загружают о себе. Такая информация и есть наши цели, которые мы «получали» из примера HTML-кода выше.

Что не понравилось ВКонтакте?

ВК считают, что такие действия Дабл нарушают исключительные права ВК на базу данных пользователей социальной сети.

Базы данных в силу пп. 4 п. 1 ст. 1304 ГК РФ относятся к объектам смежных прав в части их охраны от несанкционированного извлечения и повторного использования составляющих их содержание материалов.

То есть ВКонтакте строили социальную сеть, собирали базу данных пользователей, а затем кто-то приходит и просто ее ворует. Если коротко, то со стороны социальной сети это выглядит так. ВК просили взыскать компенсацию в размере 1 рубля (хотя минимальная компенсация ст. 1311 ГК РФ установлена в размере 10 000 рублей), обязать Дабл прекратить собирать данные и уничтожить их.

Максимально подробный обзор дела ВК против Дабл со всеми ссылками на законы и судебные акты читайте здесь.

Далее чуть подробнее разберем решения судов каждой инстанции, чтобы понимать, будет ли все-таки запрещен парсинг сайтов в России?

Решения судов по спору ВК и Дабл

Первая инстанция

Самым первым решением ВК было полностью отказано в удовлетворении их требований, потому что:

  • ВК не доказан факт создания базы данных, соответствующей признакам ст. 1260 ГК РФ;
  • У ВК нет исключительного права на базу данных;
  • Не доказано извлечение материалов из базы данных.

Важно понимать, что факт создания вами базы данных не гарантирует вам получения исключительных прав на нее. Без исключительных прав на базу данных, вы не сможете кому-либо запретить ее неправомерное использование.

Исключительное право на базу данных у ее изготовителя возникает при наличии существенных финансовых, материальных, организационных и иных затрат на создание (включая обработку или представление соответствующих материалов) базы данных (п. 1 ст. 1334 ГК РФ).

Презумпция существенности затрат – база данных должна содержать не менее 10 000 самостоятельных информационных элементов. Странно, что суд не учел наличие 406 901 079 пользователей в базе данных ВК (на 13 января 2017 г.), о чем будет указано судами вышестоящих инстанций.

Апелляционная инстанция

Суд второй инстанции принял противоположное решение, то есть в пользу ВК, поскольку:

  • ВК доказан факт создания базы данных, соответствующей признакам ст. 1260 ГК РФ;
  • У ВК есть исключительные права на базу данных;
  • Извлечение материалов из базы данных доказано.

Кассационная инстанция

Суд третьей инстанции (Суд по интеллектуальным правам) отменил оба предыдущих решения и направил дело на новой рассмотрение в суд первой инстанции, поскольку для правильного разрешения спора требуется оценка доказательств и установление фактических обстоятельств, что не относится к полномочиям суда кассационной инстанции в силу статьи 286 Арбитражного процессуального кодекса Российской Федерации.

Кассационный суд указал на ошибки, которые необходимо исправить, в том числе:

  • Апелляционный суд неверно квалифицировал нарушение Дабл;
  • Необходимо изучить как работает ПО Дабл;
  • ВК может требовать взыскания компенсации ниже низшего предела.

Вновь первая инстанция

Суд первой инстанции снова встает на сторону Дабл, поскольку ПО Дабл является поисковой системой (сравнивается с Google или, например, Yandex), а их действия не запрещены. Также Дабл собирает лишь открытую информацию, которую пользователи сами обозначали таковой путем настроек приватности.

Вновь вторая инстанция

Суд второй инстанции снова отменяет решение первой и встает на сторону ВК, поскольку ПО Дабл не является поисковой системой (в обычном понимании термина). Дабл имеет коммерческие интересы, использует базу данных несоответствующим образом.

Интересно, что первая и вторая инстанции все равно остаются при своем.

Запрещен ли парсинг сайтов в России? Последствия спора

Если мы посмотрим на решение данного спора – да, парсинг сайтов в РФ запрещен. Единственная и логическая оговорка – такой парсинг должен нарушать чьи-либо права.

Практически во всех случаях администраторы более-менее крупных сайтов смогут заявить, что путем парсинга нарушаются их исключительные права на базу данных, так как любой такой сайт содержит в себе различные базы данных: пользователи, статьи и прочее.

Здесь администратору сайта для защиты своих прав в части баз данных необходимо будет доказать следующее (см. статьи 1334 и 1335.1. ГК РФ):

  • Наличие исключительного права на базу данных (если в ней более 10 000 самостоятельных элементов (материалов), то исключительные права имеются, пока не доказано обратное – презумпция существенности затрат при создании базы данных);
  • Наличие неправомерного использования базы данных.

База данных – это составное произведение. Составным произведение является также и интернет-сайт (ст. 1260 ГК РФ). Это значит, что администраторы сайтов могут защищаться от парсеров при отсутствии у них исключительного права на базу данных или нарушений в части баз данных. Более того, никто не мешает администратору сайта составить грамотные правила пользования сайтом, в которых будет установлен запрет на парсинг его сайта.

У Дабл остался месяц, чтобы подать жалобу в вышестоящую инстанцию. Если этого не сделать, можно ожидать увеличения споров в отношении парсинга сайтов.

В то же время стоит учитывать, что в России не прецедентное право, поэтому такое решение суда не может быть единственным аргументом в похожих кейсах – необходимо в первую очередь опираться на законы, а решение суда может лишь усилить позицию стороны.

Скорее всего, учитывая, что ВК попросили всего лишь компенсацию в размере 1 рубля, данный спор имеет стратегическое значение, поскольку наличие положительного решения суда позволит в будущем взыскивать гораздо большие суммы по похожим спорам, ну или хотя бы увеличит шансы на победу.

В данной заметке были освещены основные вопросы, рассматриваемые в деле. С подробным разбором кейса ВК-Дабл можете ознакомиться здесь.

А что за рубежом?

В иностранных юрисдикциях тоже не все так однозначно.

В качестве интересного кейса можно рассмотреть HIQ LABS, INC. против LINKEDIN CORPORATION. Здесь апелляционный суд в США подтвердил, что автоматизированный сбор общедоступной информации с сайтов законен.

Но 14 июня 2021 года Верховным судом дело передано на новое рассмотрение.

С обзорами других кейсов, преимущественно американской и международной практики, можно ознакомиться в разделе кейсов на нашем сайте.

Другие статьи по теме судов и кейсов:

Подписывайтесь на мой блог, чтобы не пропустить новые материалы. На ближайшее время планируется публикация еще одной статьи из рубрики «Что думают российские суды о...».

Автор заметки – Василий Агатеев, юрист фирмы Buzko Krasnov, оказывающей услуги по российскому и американскому праву.

5353
135 комментариев

Комментарий недоступен

15
Ответить

Это получение информации из открытых источников. Имхо абсолютно нормальная история.
Не нравится - делайте регистрацию, закрывайте инфо.
Интернет должен быть свободным.

93
Ответить

Ну, тут все сложно. Вот есть список экстремистских материалов на сайте минюста. Он доступен в двух формах - веб-страницы и документ вордовский с таблицами. Разобрать документ в принципе невозможно, поскольку его форматировала бешеная мартышка. Остаются страницы. Является ли кражей то, что компенсирует лень государства в деле предоставлении доступа к этой информации в машино-читаемом виде?

Ну и про сайты поставщиков написали ниже. 99% поставщиков не дают API.

24
Ответить

Ну здесь у ВК парсят данные, которые  по-хорошему тоже не его а, вообще-то принадлежат пользователям. Так и провайдеры связи могут заявить право собственности на данные на том основании что они через их каналы передаются.
Споры жаб и гадюк.

22
Ответить

Автоматизацию доступа к открытым данным, агрегирование их и обработку (вместо человека) нельзя назвать кражей

17
Ответить

А ножи используются, чтобы резать продукты, но для кого-то это оружие преступления.

Лучше, если бы вместо парсера сидело 100 операторов, и делали бы тоже -самое?

10
Ответить

В отношении данных физических лиц - сбор открытых данных для чего угодно (от проведения безобидного статистического исследования до вполне конретной базы для мошенников, например по открытым телефонным номерам). В отношении товаров - сбор описаний и характеристик, часто это делают на сайтах собственных поставщиков, потому что у поставщика нет API, а с ассортиментом нужно работать почти в реальном времени. По мне так парсинг ни чем не вредеден. Вредно когда соцсети личные данные кому попало наружу светят, а пользователи их охотно предоставляют и открывают, тогда эти данные обязательно утекут, хоть парсингом, хоть ручками перепишут.

7
Ответить