Как использовать эффективность нейросетей, при этом сохраняя конфиденциальность данных?

Как использовать эффективность нейросетей, при этом сохраняя конфиденциальность данных?

Исследователи создали методику защиты конфиденциальных данных, которая при этом позволяет сохранить производительность модели машинного обучения.

Представьте себе, что группа ученых разработала модель машинного обучения, позволяющую предсказывать наличие рака у пациента по снимкам легких. Они хотят поделиться этой моделью с больницами по всему миру, чтобы врачи могли начать использовать ее в диагностике. Но здесь же возникает проблема...

Чтобы научить модель предсказывать рак, они показали ей миллионы реальных снимков легких - этот процесс называется обучением. Эти конфиденциальные данные, которые теперь закодированы во внутреннем устройстве модели, потенциально могут быть извлечены злоумышленником. Ученые могут предотвратить это, добавив в модель шум, или более общую случайность, которая затрудняет злоумышленнику угадывание исходных данных. Однако возмущение снижает точность модели, поэтому чем меньше шума можно добавить, тем лучше.

Исследователи Массачусетского технологического института разработали методику, которая позволяет потенциально добавлять минимально возможное количество шума, обеспечивая при этом защиту конфиденциальных данных.

Исследователи создали новую метрику конфиденциальности, которую они назвали вероятностно приблизительно корректной (PAC) конфиденциальностью, и построили на ее основе фреймворк, позволяющий автоматически определять минимальное количество шума, которое необходимо добавить. Более того, этот фреймворк не требует знаний о внутреннем устройстве модели и процессе ее обучения, что упрощает его использование для различных типов моделей и приложений.

В ряде случаев исследователи показывают, что количество шума, необходимое для защиты конфиденциальных данных от злоумышленников, при использовании PAC Privacy гораздо меньше, чем при использовании других подходов. Это может помочь инженерам в создании моделей машинного обучения, позволяющих надежно скрывать обучающие данные, сохраняя при этом точность в реальных условиях.

"PAC Privacy осмысленно использует неопределенность или энтропию конфиденциальных данных, и это позволяет нам добавлять во многих случаях на порядок меньше шума. Этот фреймворк позволяет нам понять особенности обработки произвольных данных и приватизировать их автоматически, без искусственных модификаций. Хотя мы находимся на начальном этапе и рассматриваем простые примеры, нас радуют перспективы этой методики", - говорит Шрини Девадас, профессор электротехники Эдвин Сибли Вебстер и соавтор новой статьи о PAC Privacy.

Девадас написал статью вместе с ведущим автором Ханшеном Сяо, аспирантом факультета электротехники и информатики. Результаты исследования будут представлены на Международной конференции по криптографии (Crypto 2023).

Определение конфиденциальности

Фундаментальным вопросом в области конфиденциальности данных является следующий: какой объем конфиденциальных данных может восстановить противник из модели машинного обучения с добавленным в нее шумом?

Дифференциальная конфиденциальность (Differential Privacy), одно из популярных определений конфиденциальности, гласит, что конфиденциальность достигается, если противник, наблюдающий за выпущенной моделью, не может сделать вывод о том, использовались ли данные произвольного человека для обработки при обучении. Однако для того, чтобы доказать, что противник не сможет отличить использование данных, часто требуется большое количество шума. Этот шум снижает точность модели.

PAC Privacy смотрит на проблему несколько иначе. Она характеризует, насколько сложно противнику восстановить любую часть случайно отобранных или сгенерированных конфиденциальных данных после добавления шума, а не только фокусируется на проблеме различимости.

Например, если конфиденциальные данные представляют собой изображения человеческих лиц, то дифференциальная конфиденциальность будет сосредоточена на том, сможет ли противник определить, есть ли в наборе данных чье-либо лицо. С другой стороны, PAC Privacy рассматривает вопрос о том, может ли противник извлечь силуэт - приближенное изображение, - которое кто-то может распознать как лицо конкретного человека.

Определив понятие PAC Privacy, исследователи создали алгоритм, который автоматически подсказывает пользователю, сколько шума нужно добавить в модель, чтобы противник не смог уверенно восстановить близкое приближение к секретным данным. По словам Сяо, этот алгоритм гарантирует конфиденциальность даже в том случае, если противник обладает бесконечной вычислительной мощностью.

Чтобы найти оптимальное количество шума, алгоритм PAC Privacy опирается на неопределенность, или энтропию, исходных данных с точки зрения противника.

Этот автоматический метод берет случайные выборки из распределения данных или большого пула данных и запускает пользовательский алгоритм машинного обучения на этих подвыборках данных для получения на выходе обучаемой модели. Эта процедура выполняется многократно на разных подвыборках и сравнивается дисперсия всех выходных данных. Эта дисперсия определяет, сколько шума необходимо добавить - меньшая дисперсия означает, что шума требуется меньше.

Преимущества алгоритма

В отличие от других подходов к обеспечению конфиденциальности, алгоритм PAC Privacy не требует знаний о внутреннем устройстве модели и процессе обучения.

При реализации PAC Privacy пользователь может изначально указать желаемый уровень уверенности. Например, пользователь может гарантировать, что противник не будет более чем на 1% уверен в том, что он успешно восстановил конфиденциальные данные с точностью до 5% от их реального значения. Алгоритм PAC Privacy автоматически подсказывает пользователю оптимальное количество шума, которое необходимо добавить в выходную модель перед ее публичным распространением для достижения этих целей.

Создано в <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fkolersky.com%2Fmj&postId=763368" rel="nofollow noreferrer noopener" target="_blank">Midjourney</a>
Создано в Midjourney

"Эффект от добавления шума к параметрам нейронной сети очень сложен, и мы не даем никаких обещаний относительно падения полезности модели при добавлении шума", - говорит Сяо.

Это указывает на одно из ограничений PAC Privacy - методика не сообщает пользователю, насколько снизится точность модели после добавления шума. Кроме того, PAC Privacy предполагает многократное обучение модели машинного обучения на многих подвыборках данных, что может потребовать больших вычислительных затрат.

Одним из подходов к улучшению PAC Privacy является модификация процесса обучения машинного обучения пользователя таким образом, чтобы он был более стабильным, то есть чтобы выходная модель не сильно менялась при подвыборке входных данных из пула данных. Такая стабильность приводит к уменьшению разброса между выходными результатами подвыборок, поэтому алгоритм PAC Privacy нужно будет не только запускать меньше раз для определения оптимального количества шума, но и добавлять меньше шума.

Дополнительным преимуществом более устойчивых моделей является то, что они часто имеют меньшую ошибку обобщения, а значит, могут делать более точные предсказания на ранее неизвестных данных, что является беспроигрышной ситуацией между машинным обучением и конфиденциальностью, добавляет Девадас.

В ближайшие несколько лет мы хотели бы глубже изучить взаимосвязь между стабильностью и конфиденциальностью, а также взаимосвязь между конфиденциальностью и ошибкой обобщения. Мы стучимся в дверь, но пока не ясно, куда она ведет

"Обескураживание использования данных отдельного человека в модели имеет первостепенное значение для защиты его частной жизни. Однако это может быть сделано ценой снижения полезности данных и, соответственно, модели", - говорит Джереми Гудситт, старший инженер по машинному обучению компании Capital One, который не принимал участия в данном исследовании. PAC предлагает эмпирическое решение "черного ящика", которое позволяет уменьшить дополнительный шум по сравнению с существующей практикой, сохраняя при этом эквивалентные гарантии конфиденциальности. Кроме того, эмпирический подход расширяет сферу его применения на приложения, потребляющие больше данных".

Данное исследование разработано DSTA Singapore, Cisco Systems, Capital One, а также MathWorks.

PS. лайк, пожалуйста, он помогает продвижению статьи.

Ну и как положено на VC, канал телеграм))) Канал и чатик

Туда выкладываю статьи VC и то, что нет в VC. Мысли, идеи, опыт.

В закрепленных канале всегда telegram боты Kolersky для доступа вChatGPT, GPT-4 без VPN, а так же генераторы изображений Midjourney, Dall-e, Stable Diffusion+ (все проекты: KolerskyAI).

77
5 комментариев

Злоумышленник с большим трудом вытащит из модели раковый снимок хз кого, и что он будет делать с ним дальше? Похоже, что ребята занимаются какой-то ерундой.
Вообще, такие данные стоит сделать общедоступными. В обезличенном виде, конечно

1
Ответить

Ну тут суть же в том, что соблюдение медицинской тайны в мире считается серьезным принципом

Ответить

Такой информацией можно и шантажировать)

Ответить

Комментарий недоступен

Ответить