{"id":14275,"url":"\/distributions\/14275\/click?bit=1&hash=bccbaeb320d3784aa2d1badbee38ca8d11406e8938daaca7e74be177682eb28b","title":"\u041d\u0430 \u0447\u0451\u043c \u0437\u0430\u0440\u0430\u0431\u0430\u0442\u044b\u0432\u0430\u044e\u0442 \u043f\u0440\u043e\u0444\u0435\u0441\u0441\u0438\u043e\u043d\u0430\u043b\u044c\u043d\u044b\u0435 \u043f\u0440\u043e\u0434\u0430\u0432\u0446\u044b \u0430\u0432\u0442\u043e?","buttonText":"\u0423\u0437\u043d\u0430\u0442\u044c","imageUuid":"f72066c6-8459-501b-aea6-770cd3ac60a6"}

Vasily Agateev

9 авг 2021 9.08.2021

Через месяц парсинг сайтов в России будет практически запрещен: полный обзор спора ВК v. «Дабл» и его последствия

Остался месяц, чтобы обжаловать решение суда по спору ВК против «Дабл». Если жалоба не будет подана, российская судебная практика пополнится решением, которое фактически запретит парсинг сайтов в России, но с некоторыми оговорками.

Что такое парсинг сайтов

Парсингом (parsing) называют процесс синтаксического анализа или же разбор данных.

В контексте веб-разработки парсинг сайтов – это процесс автоматизированного анализа HTML-кода сайта, в результате которого мы получаем необходимые для нас данные в систематизированном виде. С такими данными можно дальше удобно работать: передавать их, обрабатывать.

Какое-то время использовалось только понятие парсинга. Позже появились понятия «краулинг» (crawling) и «скрейпинг» (scraping). В целом все они выполняют одну и ту же цель – автоматизированное получение данных и представление их в систематизированном виде. Поэтому часто эти понятия не разделяют и используют одно – парсинг.

Далее объясняется на примере, что такое парсинг сайтов. Если вы знакомы с этим, ничего нового скорее всего там для себя вы не найдете.

Чтобы понять практическое значение парсинга сайтов, приведем небольшой пример HTML-кода:

<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <meta name="viewport" content="width=device-width, initial-scale=1.0"> <title>Пример HTML-кода</title> </head> <body> <h1>Внизу необходимые данные</h1> <div> <span>Белый</span> <p>Цель 1</p> </div> <div> <span>Синий</span> <p>Цель 2</p> </div> <div> <span>Красный</span> <p>Цель 3</p> </div> <div> <span>Белый</span> <p>Цель 4</p> </div> <div> <span>Красный</span> <p>Цель 5</p> </div> <div class=”hidden”>Этот элемент не отображается на сайте</div> </body> </html>

Предположим, что это HTML-код некоего сайта, из которого мы хотим извлечь определенные данные. Допустим, нам необходимы имена пользователей, которые в примере условно обозначены как «Цель» внутри HTML-тэга «p».

Таких целей у нас всего 5, но нам нужны не все, а лишь только те, что отвечают необходимым для нас параметрам (это необязательно, просто для примера). Допустим, это может быть определенный пол, возраст, город проживания человека и все прочее, что указано на сайте (либо в его коде, если отображение определенных элементов отключено на сайте – они есть, выполняют свою функцию, но обычный пользователь их не видит).

Итак, нам необходимо получить все цели, цвет которых красный. Для этого парсер обращается к странице, получает его HTML-код, «проходится» по нему, находит необходимые для него тэги (условно «span» и «p»), сравнивает их значения, и если внутри тэга «span» указан цвет «красный», парсер сохраняет цель из тэга «p». В нашем случае это цель 3 и цель 5.

Таким образом парсер может пройтись по большому количеству страниц и собрать необходимые данные за сравнительно небольшой промежуток времени.

Что сделал Дабл и почему это является парсингом

Дабл (https://doubledata.ru/) собирали (а может быть собирают и сейчас) данные пользователей российской социальной сети ВКонтакте (https://vk.com/) («ВК»). Затем эти данные использовались для предоставления скоринговых услуг банкам.

Как именно собирались данные? С помощью нескольких программ, разработанных Дабл:

Double Search – ищет информацию о людях, в том числе в соцсетях. Программа переходит по различным ссылкам, как поисковые роботы Google, с целью индексирования страниц. В данном случае индексирование позволяет (быстрее и удобнее) в будущем по запросу пользователя находить данные о людях – ссылки на их социальные сети.
Social Link – программа для просмотра результатов перехода по ссылкам, то есть страницы в соцсетях, в том числе из Double Search.
Social Attributes – анализирует содержимое страницы социальной сети с выдачей числовых коэффициентов.

Почему это парсинг? Потому что ПО Дабл обращается к сайту ВКонтакте, анализирует определенные его страницы, получает необходимые данные и затем их сохраняет. В результате мы получаем индекс – таблицы ключевых слов с метаданными. Могу предположить, что такая таблица состояла из ФИО, возраста, города, ссылки на страницу, фотографии и вся прочая открытая информация, которую пользователи загружают о себе. Такая информация и есть наши цели, которые мы «получали» из примера HTML-кода выше.

Что не понравилось ВКонтакте?

ВК считают, что такие действия Дабл нарушают исключительные права ВК на базу данных пользователей социальной сети.

Базы данных в силу пп. 4 п. 1 ст. 1304 ГК РФ относятся к объектам смежных прав в части их охраны от несанкционированного извлечения и повторного использования составляющих их содержание материалов.

То есть ВКонтакте строили социальную сеть, собирали базу данных пользователей, а затем кто-то приходит и просто ее ворует. Если коротко, то со стороны социальной сети это выглядит так. ВК просили взыскать компенсацию в размере 1 рубля (хотя минимальная компенсация ст. 1311 ГК РФ установлена в размере 10 000 рублей), обязать Дабл прекратить собирать данные и уничтожить их.

Максимально подробный обзор дела ВК против Дабл со всеми ссылками на законы и судебные акты читайте здесь.

Далее чуть подробнее разберем решения судов каждой инстанции, чтобы понимать, будет ли все-таки запрещен парсинг сайтов в России?

Решения судов по спору ВК и Дабл

Первая инстанция

Самым первым решением ВК было полностью отказано в удовлетворении их требований, потому что:

ВК не доказан факт создания базы данных, соответствующей признакам ст. 1260 ГК РФ;
У ВК нет исключительного права на базу данных;
Не доказано извлечение материалов из базы данных.

Важно понимать, что факт создания вами базы данных не гарантирует вам получения исключительных прав на нее. Без исключительных прав на базу данных, вы не сможете кому-либо запретить ее неправомерное использование.

Исключительное право на базу данных у ее изготовителя возникает при наличии существенных финансовых, материальных, организационных и иных затрат на создание (включая обработку или представление соответствующих материалов) базы данных (п. 1 ст. 1334 ГК РФ).

Презумпция существенности затрат – база данных должна содержать не менее 10 000 самостоятельных информационных элементов. Странно, что суд не учел наличие 406 901 079 пользователей в базе данных ВК (на 13 января 2017 г.), о чем будет указано судами вышестоящих инстанций.

Апелляционная инстанция

Суд второй инстанции принял противоположное решение, то есть в пользу ВК, поскольку:

ВК доказан факт создания базы данных, соответствующей признакам ст. 1260 ГК РФ;
У ВК есть исключительные права на базу данных;
Извлечение материалов из базы данных доказано.

Кассационная инстанция

Суд третьей инстанции (Суд по интеллектуальным правам) отменил оба предыдущих решения и направил дело на новой рассмотрение в суд первой инстанции, поскольку для правильного разрешения спора требуется оценка доказательств и установление фактических обстоятельств, что не относится к полномочиям суда кассационной инстанции в силу статьи 286 Арбитражного процессуального кодекса Российской Федерации.

Кассационный суд указал на ошибки, которые необходимо исправить, в том числе:

Апелляционный суд неверно квалифицировал нарушение Дабл;
Необходимо изучить как работает ПО Дабл;
ВК может требовать взыскания компенсации ниже низшего предела.

Вновь первая инстанция

Суд первой инстанции снова встает на сторону Дабл, поскольку ПО Дабл является поисковой системой (сравнивается с Google или, например, Yandex), а их действия не запрещены. Также Дабл собирает лишь открытую информацию, которую пользователи сами обозначали таковой путем настроек приватности.

Вновь вторая инстанция

Суд второй инстанции снова отменяет решение первой и встает на сторону ВК, поскольку ПО Дабл не является поисковой системой (в обычном понимании термина). Дабл имеет коммерческие интересы, использует базу данных несоответствующим образом.

Интересно, что первая и вторая инстанции все равно остаются при своем.

Запрещен ли парсинг сайтов в России? Последствия спора

Если мы посмотрим на решение данного спора – да, парсинг сайтов в РФ запрещен. Единственная и логическая оговорка – такой парсинг должен нарушать чьи-либо права.

Практически во всех случаях администраторы более-менее крупных сайтов смогут заявить, что путем парсинга нарушаются их исключительные права на базу данных, так как любой такой сайт содержит в себе различные базы данных: пользователи, статьи и прочее.

Здесь администратору сайта для защиты своих прав в части баз данных необходимо будет доказать следующее (см. статьи 1334 и 1335.1. ГК РФ):

Наличие исключительного права на базу данных (если в ней более 10 000 самостоятельных элементов (материалов), то исключительные права имеются, пока не доказано обратное – презумпция существенности затрат при создании базы данных);
Наличие неправомерного использования базы данных.

База данных – это составное произведение. Составным произведение является также и интернет-сайт (ст. 1260 ГК РФ). Это значит, что администраторы сайтов могут защищаться от парсеров при отсутствии у них исключительного права на базу данных или нарушений в части баз данных. Более того, никто не мешает администратору сайта составить грамотные правила пользования сайтом, в которых будет установлен запрет на парсинг его сайта.

У Дабл остался месяц, чтобы подать жалобу в вышестоящую инстанцию. Если этого не сделать, можно ожидать увеличения споров в отношении парсинга сайтов.

В то же время стоит учитывать, что в России не прецедентное право, поэтому такое решение суда не может быть единственным аргументом в похожих кейсах – необходимо в первую очередь опираться на законы, а решение суда может лишь усилить позицию стороны.

Скорее всего, учитывая, что ВК попросили всего лишь компенсацию в размере 1 рубля, данный спор имеет стратегическое значение, поскольку наличие положительного решения суда позволит в будущем взыскивать гораздо большие суммы по похожим спорам, ну или хотя бы увеличит шансы на победу.

В данной заметке были освещены основные вопросы, рассматриваемые в деле. С подробным разбором кейса ВК-Дабл можете ознакомиться здесь.

А что за рубежом?

В иностранных юрисдикциях тоже не все так однозначно.

В качестве интересного кейса можно рассмотреть HIQ LABS, INC. против LINKEDIN CORPORATION. Здесь апелляционный суд в США подтвердил, что автоматизированный сбор общедоступной информации с сайтов законен.

Но 14 июня 2021 года Верховным судом дело передано на новое рассмотрение.

С обзорами других кейсов, преимущественно американской и международной практики, можно ознакомиться в разделе кейсов на нашем сайте.

Другие статьи по теме судов и кейсов:

Подписывайтесь на мой блог, чтобы не пропустить новые материалы. На ближайшее время планируется публикация еще одной статьи из рубрики «Что думают российские суды о...».

Автор заметки – Василий Агатеев, юрист фирмы Buzko Krasnov, оказывающей услуги по российскому и американскому праву.

64 показа

46K открытий

6 репостов

135 комментариев

Написать комментарий...

Показать всё . Вы видите только часть дискуссии

Аккаунт удален

9.08.2021

Комментарий недоступен

Ответить

Развернуть ветку

Арсений

9.08.2021

Это получение информации из открытых источников. Имхо абсолютно нормальная история.
Не нравится - делайте регистрацию, закрывайте инфо.
Интернет должен быть свободным.

Ответить

Развернуть ветку

Аккаунт удален

9.08.2021

Комментарий недоступен

Ответить

Развернуть ветку

Николай Замотаев

9.08.2021

От того что на вашу малину посмотрели, у вас малина не исчезла.

Плохое сравнение. Хотите чтобы не смотрели - стройте сплошной забор и требуйте авторизации на входе. (Ну и превращайтесь в очередной walled garden)

Ответить

Развернуть ветку

Alexander Plyonkin

12.08.2021

Малину нельзя скопировать как текст на сайте, после чего разместить на своем и увешать рекламой. А если контент тырит трастовый сайт, то он ещё и трафик поисковый отжимает.

Ответить

Развернуть ветку

Николай Замотаев

12.08.2021

Вы же прекрасно понимаете, что если сайт можно просмотреть - его можно скопировать. Вопрос только в цене этого действия.

Ответить

Развернуть ветку

Николай Замотаев

12.08.2021

И даже так - чем больше вы будете его защищать от копирования - тем больше будете бесить конечного полезного пользователя.
"что значит текст нельзя выделить?!?!" и тд

Ответить

Развернуть ветку

Арсений

13.08.2021

Эти идиотские скрипты запрета выделения бесят. Нажал f12, скопировал из html. Или закинул скрин в распознание текста.
Вот на кого они рассчитывают? Это же любой веб мастер умеет

Ответить

Развернуть ветку

Vitaliy Nechaev

13.08.2021

Эта защита от чайников из начала 2000х, давно такое не встречал.

Ответить

Развернуть ветку

Про

17.08.2021

Дофига встречаю такого, в результате нельзя тупо перейти на новую страницу в новой вкладке, а ссылку не скопировать и в результате пользователи с их сайта переходом по этой же ссылки уходят, тупее системы направленной на себя же не знаю. Бесит как обычного пользователя

Ответить

Развернуть ветку

Andrey Kolkov

14.08.2021

А ещё лучше f12 и отключить JS на минуту, скопировать и снова включить)

Ответить

Развернуть ветку

Ivan M

14.08.2021

А ещё лучше установить расширение типа AllowCopy, которое делает всё то же самое одной кнопкой.

Ответить

Развернуть ветку

Алексей Никитенко

9.08.2021

Интернет свободным? Давно такого не слышал.

Ответить

Развернуть ветку

xsend24 Ru

15.08.2021

"Должен быть" ключевые слова:)

Ответить

Развернуть ветку

Показать 135 комментариев . Вы видите только часть дискуссии

Написать комментарий...

132 комментария

Раскрывать всегда