ИИ: защита персональных данных с точки зрения нейросетей

ИИ: защита персональных данных с точки зрения нейросетей

28 января — Международный День защиты персональных данных. Пользуясь случаем, поговорим о том, как ИИ помогают исключать риски, связанные с передачей личной информации, и получать больше прибыли.

Deepfake: коротко о главном

До недавнего времени персональные данные ассоциировались исключительно с реальными людьми. Но с появлением deepfake, технологии на основе ИИ, появилась возможность создавать фантомные личности с уникальными лицами, голосами, отпечатками пальцев, рисунками радужной оболочки глаз и даже ДНК.

Звучит, конечно, впечатляюще — как будто будущее уже наступило. Но сразу возникает вопрос: что делать с всевозможными угрозами — вдруг произойдет утечка данных? А что, если информация будет использована кому-то во вред? Здесь стоит сделать лирическое отступление: многие яды при правильном использовании превращаются в лекарства, а любую технологию можно использовать как во зло, так и во благо. Deepfake — не исключение. Да, риски есть, но, если их нивелировать, deepfake станет ключом к новым перспективам.

Синтезированные данные VS персональные данные

Давайте приведем пример — расскажем, как можно использовать персональные данные в благих целях.

Предположим, у нас есть сведения о температуре тела 30-ти людей, больных пневмонией, в возрасте от 25 до 30 лет. Мы не можем просто так передать эти данные третьим лицам, будь то профильные специалисты или редакторы научных журналов. Даже в обезличенном виде передача такой информации чревата негативными последствиями — например, неверной интерпретации в СМИ или намеренной атаке на имидж первоисточника.

Как быть, если данные все же нужно передать? Можно сделать это так, как делают медики — вместо самих данных передать модель, которая их генерирует.

Давайте взглянем на график:

ИИ: защита персональных данных с точки зрения нейросетей

Этот график может показаться сложным, но не пугайтесь, на самом деле здесь все просто и логично:

1. Жёлтыми черточками обозначены реальные измерения температуры, которые при передаче модели можно не изображать.

2. Мы предполагаем, что есть некий природный механизм, который генерирует такие, на первый взгляд, случайные данные. 3. Механизм работает по определенным правилам. 4. В большинстве случаев эти правила соответствуют нормальному закону распределения случайных величин — синяя пунктирная линия.

5. Аналогом правил или законов в математике являются функции (или модели в общем случае) — зеленая линия. 6. У каждой функции есть уравнение.

Следовательно, вместо самих данных мы можем просто передать модель данных, которая позволит генерировать новые данные,очень похожие на настоящие. То есть нам достаточно передать третьим лицам следующее уравнение:

ИИ: защита персональных данных с точки зрения нейросетей

Получается, что для оптимизации бизнеса мы можем использовать персональные данные практически в полной мере, при этом не пренебрегая защитой.

Вопрос для самых внимательных. Вы заметили на графике еще одну функцию, обозначенную чёрной пунктирной линией? Она соответствует оценке ядерной плотности данных (KDE). Уравнение такой функции намного сложнее, но благодаря такому усложнению профильные медицинские специалисты могут извлечь больше информации, касающейся непосредственно самого заболевания. Вывод: для максимизации положительного эффекта мы должны усложнять и модели и учится работать с ними.

В бизнесе все немного... интереснее

У большинства компаний накоплено огромное количество персональных данных, но они не могут извлечь из них пользу. Это связано с тем, что для открытия серьезных аналитических отделов требуются крупные финансовые вложения. А зачастую передача персональных данных третьим лицам вообще невозможна.

Опять же, из примера с температурой мы видим, что вместо личной информации можно передавать модели, которые генерируют данные, очень похожие на оригинальные. Это означает лишь одно — огромные перспективы.

Пример выше немного сомнителен в плане применимости к сложным структурам данных. В самом начале статьи мы писали про возможность генерировать лица людей. Но, например, в трэвел-отрасли данные имеют гораздо более сложную, графоподобную структуру. Вряд ли возможно создать модели, способные генерировать такие данные. Впрочем, давайте это выясним.

Любую модель данных можно представить в виде функций, т.е. уравнений. Допустим, у нас есть уравнение параболоида, мы изображаем его трехмерный график, а затем рисуем его в виде тепловой карты — изображения, в котором цвет каждого пикселя соответствует значению функции.

ИИ: защита персональных данных с точки зрения нейросетей

А теперь взгляните на картинку ниже. Обратите внимание, как черты лиц плавно перетекают друг в друга.

Источник: https://github.com/timsainb/GAIA/blob/master/images/celeb-morph.png 
Источник: https://github.com/timsainb/GAIA/blob/master/images/celeb-morph.png 

Мы можем воспринимать изображение лица как тепловую карту, которую реально преобразовать в функцию. Далее мы найдем уравнение, которое будет соответствовать этой функции. Такое уравнение окажется невероятно сложным, но мы можем аппроксимировать его, то есть приблизиться к нему с помощью нейросетей.

Специалистам трэвел-отрасли часто приходится работать с графами. Любой математик скажет, что графы и картинки выше похожи, как крокодил на кофеварку. И это действительно так. Но в том же время нет — всегда можно найти что-то общее. Не верите? Взглянем на еще одну картинку.

ИИ: защита персональных данных с точки зрения нейросетей

Каждый пиксель картинки можно представить в виде вершины графа, а факт соседства с другими пикселями — в виде ребер графа.

Графы удобно использовать, например, для моделирования клиента, действие которого связано с выбором одной из множества альтернатив.

ИИ: защита персональных данных с точки зрения нейросетей

В гражданской авиации с помощью таких моделей можно удивительно точно прогнозировать овербукинг или пассажиропотоки.

В то же время для таких простых моделей нейросети не нужны, можно обойтись простым логитом. Но чтобы подарить клиенту наилучший опыт, мы должны уметь анализировать не одно, а множество его действий.

ИИ: защита персональных данных с точки зрения нейросетей

К сожалению, каких-то простых математических методов для работы с такими сложными графоподобными структурами не существует. Но между графами и изображениями на самом деле гораздо больше общего, чем кажется на первый взгляд.

ИИ: защита персональных данных с точки зрения нейросетей

Граф можно представить в виде матрицы инцидентности, а это, по сути, и есть изображение. Благодаря такой общности нейросети могут анализировать и моделировать чрезвычайно сложные данные, включая и те, которые могут встречаться в трэвел-отрасли.

В чем конкретно заключается выгода?

В Mixvel мы активно исследуем кооперативное взаимодействие участников рынка. Благодаря согласованности действий можно добиться увеличения положительных эффектов на десятки процентов. Речь идет вовсе не о корыстном сговоре или организации монополии, а об увеличении эффективности. Например, альянс из аэропортов, авиакомпаний и отелей сможет перевозить гораздо больше пассажиров, используя меньшее количество самолетов и при этом максимизировав качество опыта путешественников. Звучит как классный план!

Единственное препятствие на пути к такой оптимизации — это необходимость передачи данных между участниками альянсов. Но с помощью моделирования данных мы можем создавать искусственных пассажиров и путешественников, которые будут вести себя практически точно так же, как и настоящие. Передача таких моделей участниками альянсов друг другу исключает все риски подвергнуть настоящие персональные данные клиентов какой бы то ни было угрозе.

В общем, моделирование персональных данных клиентов открывает перед нами большие возможности — так почему бы не воспользоваться ими как можно скорее?

Начать дискуссию