Несколько слов о сохранности и анонимности персональных данных в соцсетях

Ежедневно попадая в виртуальное пространство, мы не только потребляем, но и передаем огромное количество информации о себе и окружающих, даже не задумываясь об этом. Как часто, регистрируясь на каком-либо сайте и соглашаясь с обработкой персональных данных, мы действительно читаем это самое согласие и обращаем внимание на все нюансы? Например, на возможность передачи предоставленных данных третьей стороне? Вся информация, которую мы предоставляем о себе, является персональной, которая при определенной обработке может давать обширное представление о конкретном человеке, включая его привычки и интересы, а иногда даже точно установить личность, что, по сути, является вмешательством в частную жизнь пользователей и нарушением конституционных прав гражданина.

Обратимся к понятию персональных данных, чтобы понять, какая информация может находиться под угрозой. Согласно Федеральному закону от 27 июля 2006 г. N 152-ФЗ "О персональных данных", "персональные данные - любая информация, относящаяся к прямо или косвенно определенному или определяемому физическому лицу (субъекту персональных данных)". Хочется подчеркнуть, что любая информация, предоставленная пользователем, должна быть защищена от распространения в своем первоначальном виде, но "обработка персональных данных осуществляется в статистических или иных исследовательских целях... при условии обязательного обезличивания персональных данных". Таким образом, в силу закона информация, подверженная анонимизации, может быть использована в различных исследовательских целях. Однако нигде не указано, каким именно образом эти самые данные должны быть обезличены, какая информация должна отсутствовать, что можно использовать для исследований и каковы цели этих исследований.

Если обратиться к наиболее известному на данный момент зарубежному акту о персональных данных General Data Protection Regulation (GDPR) — общеевропейскому Регламенту по защите данных, то можно увидеть, что понятие обезличивания ("псевдонимизации") раскрыто более полно: оно означает обработку персональных данных таким образом, что персональные данные больше не могут быть отнесены к конкретному субъекту данных без использования дополнительной информации при условии, что такая дополнительная информация хранится отдельно и подлежит техническим и организационным мерам, чтобы личные данные не были отнесены к идентифицированному или идентифицируемому физическому лицу. Кроме того, в этом же документе можно найти указание о том, что считается просто "персональной информацией" (Personal Data), а что — "чувствительной персональной информацией" (Sensitive Personal Data).

Формальная анонимизация (обезличивание) заключается в удалении из каждого вектора данных формальных или прямых идентификаторов объекта. После обезличивания объект может быть однозначно опознан только по косвенным идентификаторам. На первый взгляд может показаться, что такого подхода будет достаточно, если просто удалить из наборов данных (датасетов) ФИО, паспортные данные и данные кредитных карт лица, если такие есть, а также другие пункты, входящие в сферу "чувствительной" персональной информации. Но достигается ли данными средствами поставленная законодательством цель на самом деле?

За последние десятилетия множество компаний опубликовали датасеты с информацией, относящейся к конкретным индивидуумам, но, по их мнению, анонимизированной, чтобы сообщество могло использовать их для проведения исследований, как своих собственных, так и для заинтересованных компаний. Некоторые данные содержали охраняемую законом информацию, например истории болезней, другие содержали потенциально конфиденциальные данные о пользовательских предпочтениях, из которых были удалены Ф.И.О., адреса и другие идентификаторы граждан. Однако через некоторое время стало понятно, что эти данные не являются изолированными, а пользователи имеют не только один аккаунт в сети, а значит, злоумышленники, пользуясь открытыми источниками, могут деанонимизировать пользователей, информация о которых содержится в датасетах. Это объясняется тем, что каждый элемент датасета (то есть описание пользователя) состоит из набора признаков, среди которых встречаются редкие значения, на основании которых достаточно просто делать выводы о конкретном пользователе.

В 2006 г., ученые из Техасского университета опубликовали исследование, в котором показали, как на основе данных оценок, выставленных пользователями, данных о времени выставления оценки и информации из IMDb (Internet Movie Database) они "определили записи Netflix известных пользователей, раскрыв их очевидные политические предпочтения и другую потенциально конфиденциальную информацию". Необходимо отметить, что в действительности идентификация не была полной (ФИО, адрес и другие данные не были установлены), но для большого количества пользователей было составлено полное соответствие с их профилями на IMDb. Оказывается, если исключить из списка 100 наиболее часто просматриваемых фильмов, то предпочтения в фильмах будут достаточно индивидуальными. И это верно не только для фильмов, но и для покупательских привычек, телефонных разговоров, книг и так далее. Возможно, это не так страшно в контексте настоящего раскрытия личности, но в то же время люди, знающие, кому принадлежит тот или иной аккаунт (родственники, друзья, коллеги и т.д.), могут узнать информацию, которая должна была быть для них недоступной по тем или иным причинам. В этом исследовании было показано, что, даже обладая небольшим количеством информации, можно достаточно быстро идентифицировать пользователей с достаточной точностью.

Например, по открытому анонимному датасету переписи 1990 г. в США 87% жителей США могут быть идентифицированы по пятизначному почтовому индексу, дате рождения и полу. Л. Суини показала, что даже если предоставлять менее четкую информацию (вместо индекса иметь только муниципалитет или даже страну), то идентификация все еще возможна, хотя и не с такой точностью [Sweeney L. K-anonymity: a model for protecting privacy // International Journal on Uncertainty, Fuzziness and Knowledge-based Systems. 2002. Vol. 10 (5). P. 557 - 570]. Эти результаты подтверждены схожим исследованием, проводимым Стэнфордским университетом [Golle P. Revisiting the uniqueness of simple demographics in the US population // ACM Workshop on Privacy in the Electronic Society (2006 October 30. Alexandria; VA). New York: ACM, 2006. P. 77 - 80]. Оказалось, что дата рождения (в отличие от месяца и дня) является ключевым фактором в установлении соответствий. В исследовании были показаны зависимости от возраста человека с тем, насколько просто идентифицировать его личность, зная также его пол и местоположение

Полагаем, в современных социальных сетях содержится настолько большое количество персональной информации, что пользователям необходимо иметь возможность управлять своей конфиденциальностью. Пользователи социальных сетей имеют некоторый круг общения (друзей), с которыми они готовы делиться своей персональной информацией, также есть некоторые элементы, которые они готовы предоставлять всем пользователям сетей. Ограничения доступа к информации должны быть выставлены пользователем самостоятельно, каждый сам устанавливает границу конфиденциальности и открытости. Это конституционное право гражданина.

Основные проблемы возникают в тот момент, когда становится понятно, что у социальной сети нет грамотно сформулированных правил конфиденциальности и что отсутствует обеспечение оптимальной поддержки. В последние годы проводилось несколько исследований, которые были основаны на опросах пользователей социальных сетей о том, как бы они осуществляли ограничение их персональных данных. Во-первых, многие пользователи готовы тратить достаточное количество времени на настройку правил конфиденциальности (или даже просят дополнительный и расширенный функционал). Во-вторых, пользователям не хватает возможности создавать атомарные правила, зависящие от социального контекста и таких характеристик, как местоположение, временные метки, интенсивность взаимодействия с другим пользователем (например, как часто они находятся рядом). Однако вместо использования этих характеристик по отдельности было бы хорошо иметь возможность комбинировать их на усмотрение пользователя, чтобы установить четкий круг правил доступа остальным пользователям к их информации. Эти правила должны быть отражены в законодательстве и обоснованы тем, что именно пользователь считает чувствительной информацией, которой он не готов делиться с определенным кругом лиц, в соответствии с теорией регулирования интимных признаний в межличностных отношениях.

Основной идеей этой теории является то, что степень раскрытия информации пользователем варьируется от того, кто является собеседником, где и в каких условия состоится обмен информацией, то есть от социального контекста. Таким образом, со стороны социальных сетей было бы разумно предоставить дополнительные возможности для управления доступом к персональным данным, тем самым снимая с себя ответственность за распространение данных, если пользователь настраивал все самостоятельно, а не пользовался стандартной политикой конфиденциальности (которая также должна быть уточнена в соответствии с законодательством и современными запросами). Это решит сразу несколько проблем: во-первых, повысится уровень конфиденциальности в целом в связи с появлением более актуальных правил, во-вторых, пользователи смогут как устанавливать свои правила, соответствующие их личным требованиям, так и быть уверенны, что они исполняются.

Подводя итог, хочется сказать, что проблема конфиденциальности персональных данных стоит очень остро в современном мире. На первый взгляд кажется, что люди не обеспокоены распространением своих данных, раз они сами публикуют в сети огромное количество информации, но при ближайшем рассмотрении становится понятно, что они готовы делиться с ограниченным кругом лиц и не согласны на свободный доступ для всех, а также на то, что их данные могут быть проанализированы третьими лицами.

Поэтому в социальных сетях должны появиться средства управления конфиденциальностью данных, доступные каждому, а также сервисы, сообщающие о любом использовании данных. Если же говорить об использовании анонимизированных датасетов в исследовательских целях, то стоит помнить о том, что анонимизация - это всегда жертвование точностью ради сохранности данных, и необходимо провести процесс так, чтобы баланс этих двух аспектов был соблюден как можно лучше.

Публикация подготовлена при поддержке юристов DRC.

Telegram-канал.