{"id":14277,"url":"\/distributions\/14277\/click?bit=1&hash=17ce698c744183890278e5e72fb5473eaa8dd0a28fac1d357bd91d8537b18c22","title":"\u041e\u0446\u0438\u0444\u0440\u043e\u0432\u0430\u0442\u044c \u043b\u0438\u0442\u0440\u044b \u0431\u0435\u043d\u0437\u0438\u043d\u0430 \u0438\u043b\u0438 \u0437\u043e\u043b\u043e\u0442\u044b\u0435 \u0443\u043a\u0440\u0430\u0448\u0435\u043d\u0438\u044f","buttonText":"\u041a\u0430\u043a?","imageUuid":"771ad34a-9f50-5b0b-bc84-204d36a20025"}

Почему об MPC должен узнать каждый и при чём тут Facebook

Протоколы конфиденциальных вычислений (multiparty computation, MPC), появившиеся в 1980-х годах как академическая головоломка, сейчас наиболее активно развивающаяся область теоретической и прикладной криптографии.

Приложения, основанные на технологии MPC, решают задачи анализа данных там, где непосредственный обмен информацией затруднён проблемами конфиденциальности, правовыми ограничениями или корпоративной политикой.

Разделение секрета является основой совместных конфиденциальных вычислений Изображение: Ubic

Например, два человека могут сравнить свои ДНК и выяснить, являются ли они родственниками, сохраняя исходные данные своих геномов в тайне. Или страны (космические державы!) могут корректировать траектории движения своих спутников и избегать их столкновений, не раскрывая точных координат. Сырьевые биржи, защищающие ставки и, соответственно, производственный потенциал участников, спам-фильтры, не имеющие доступа к тексту электронных писем, и даже способы предотвращения социального неравенства – все это области применения технологий MPC.

Портфельная компания ФРИИ UBIC создает инновационные MPC-решения для крупных клиентов, то есть такие, которые, прежде всего, ориентированы на обработку действительно больших объемов данных. Решения компании не всегда связаны с машинным обучением, однако данное направление является одним из приоритетных для R&D компании UBIC. До сих пор в публичном поле практически не было информации о подобных разработках. Например, на Github можно было найти 2-3 заслуживающих внимания фреймворка от независимых лабораторий или исследовательских центров при технологических университетах. Однако несколько дней назад Facebook открыл доступ к исходному коду CrypTen – MPC-фреймворку, интегрированному в одну из самых популярных библиотек машинного обучения PyTorch.

Мы попросили команду UBIC перевести ключевые моменты из текста, опубликованного в блоге Facebook, и делимся с вами.

CrypTen: новый исследовательский инструмент для безопасного машинного обучения с PyTorch

Несмотря на колоссальный прогресс сообщества разработчиков искусственного интеллекта (ИИ) в продвижении приложений машинного обучения, сейчас существует лишь ограниченный набор инструментов для создания систем машинного обучения (ML-системы), сохраняющих конфиденциальность данных, с которыми они работают. Это препятствует использованию машинного обучения в сферах с повышенными требованиям к безопасности: например, в здравоохранении при работе с чувствительными медицинскими данными.

Сегодня создать безопасные ML-системы для решения этих проблем сложно и почти невозможно, так как инструменты, де-факто ставшие индустриальным стандартом, не позволяют эффективно использовать криптографические техники, необходимые для защиты данных.

Чтобы решить эту задачу и ускорить прогресс в этой области, исследователи Facebook AI разработали CrypTen – новую и простую в использовании программную платформу с открытым исходным кодом, облегчающую исследования в области безопасного и конфиденциального машинного обучения.

CrypTen позволяет исследователям машинного обучения, которые обычно не являются экспертами в криптографии, легко экспериментировать с ML-моделями, используя безопасную вычислительную среду. За счет интеграции с платформой PyTorch CrypTen снижает барьеры для ML-исследователей и разработчиков, которые уже знакомы с его API (интерфейсом программирования приложений).

CrypTen связывает платформу PyTorch и долгую историю академических исследований в области алгоритмов и систем, которые эффективно работают с конфиденциальными данными. Сообществу исследователей ИИ предстоит пройти длинный путь освоения этой области, поскольку применение конфиденциальных вычислений, с одной стороны, требует глубокого понимания криптографических техник, а с другой, сопряжено с высокими накладными расходами в терминах вычислительных мощностей и сетевого взаимодействия. Кроме того, набор функций, которые можно вычислять конфиденциально, тоже ограничен. CrypTen призван помочь исследователям и практикам приблизить час, когда безопасные вычисления станут органической частью фреймворков машинного обучения, и любой инженер без особого труда сможет применять их там, где это необходимо.

MPC
отличается от RSA, AES и других широко используемых криптографических протоколов тем, что позволяет производить математические вычисления над данными, не раскрывая ничего, кроме самого результата вычислений

Основные компоненты CrypTen

На текущий момент CrypTen основывается на протоколе конфиденциальных вычислений (multiparty computation, SMPC), также планируется добавить поддержку гомоморфного шифрования и безопасных анклавов (secure enclaves) в будущих релизах. MPC отличается от RSA, AES и других широко используемых криптографических протоколов тем, что позволяет производить математические вычисления над данными, не раскрывая ничего, кроме самого результата вычислений. В компании реализовали модель безопасности “honest but curious” (предполагает отсутствие активных злонамеренных агентов, которые могут вмешиваться и модифицировать протокол), которая наиболее часто используется в криптографических исследованиях, посвященных MPC. Стоит отметить, что пока CrypTen не готов к промышленному использованию, при котором обычно выдвигаются требования к более сильным гарантиям безопасности.

Существует много примеров успешного внедрения технологии MPC в разные сферы жизнедеятельности человека – от безопасных аукционов до методов борьбы с социальным неравенством, однако в отличие от этих реализаций CrypTen предлагает три основных преимущества для исследователей машинного обучения.

  • Машинное обучение прежде всего. Платформа представляет протоколы через объект CryptTensor, который выглядит и ведет себя точно так же, как тензор PyTotch. Это помогает создавать модели, работающие по конфиденциальному протоколу, любому, кто работал в PyTorch.
  • Crypten – это библиотека. В отличие от других похожих разработок Facebook не предлагает новый язык программирования и компилятор, который создает код, выполняющийся конфиденциально, а расширяется функциональность привычной библиотеки PyTorch.
  • Crypten создан с учетом реально существующих задач. CrypTen не стремится создать идеальную среду с множеством условностей и ограничений. Участники конфиденциальных вычислений – это обычные программы, взаимодействующие по сети. Несмотря на то, что CrypTen не готов к промышленному использованию, он может обеспечить реалистичное понимание вычислительных и коммуникационных требований к машинному обучению с использованием конфиденциальных вычислений, тем самым помогая исследователям развивать технологию.

Пример логического вывода на зашифрованной модели с зашифрованными данными вы можете найти в оригинальном материале.

Необходимость безопасности вычислительных инструментов для ML-систем

Сегодня системы машинного обучения могут безопасно выполняться на устройствах пользователей, и, например, преобразовывать устную речь в письменный текст или переводить текст с одного языка на другой. Однако перед тем, как эти модели были внедрены, они были обучены на публично доступных данных: например, на записях «Википедии» или на лицензированных наборах информации вроде ImageNet. Однако во многих случаях данные, необходимые для обучения либо слишком чувствительные, чтобы ими делиться, либо существуют проблемы безопасности, конфиденциальности, корпоративной политики или правовых ограничений.

Например, ученые в медицинской сфере часто сталкиваются с трудностями при проведении демографических исследований по генетическим данным, потому что данная информация очень чувствительна и ею нельзя легко обмениваться между организациями. Аналогичным образом изучение гендерного разрыва в оплате труда между компаниями затруднено из-за проблем конфиденциальности при обмене данными о заработной плате. Безопасные методы вычислений, такие как MPC, обеспечивают решение подобных проблем, позволяя сторонам получать новые знания из своих данных, сохраняя исходную информацию в секрете.

Несмотря на то, что MPC успешно используется для решения описанных выше задач, применение конфиденциальных вычислений в ML затруднено из-за отсутствия инструментов и библиотек, органично абстрагирующих сложность обеих технологий. CrypTen призван восполнить этот пробел, предоставляя абстракции, знакомые многим исследователям машинного обучения.

CrypTen
поддерживает MPC для любого количества сторон, а также реализует протокол, сочетающий аддитивное и логическое разделение секрета, что позволяет вычислять такие нелинейные функции, как, например, ReLU, не прибегая к полиномиальной интерполяции

Примеры использования и приложений и ускорение исследований

CrypTen поддерживает как безопасное исполнение (при этом может использоваться практически любая предварительно подготовленная PyTorch-модель), так и непосредственно обучение моделей на конфиденциальных данных с использованием привычного API PyTorch. CrypTen поддерживает MPC для любого количества сторон, а также реализует протокол, сочетающий аддитивное и логическое разделение секрета, что позволяет вычислять такие нелинейные функции, как, например, ReLU, не прибегая к полиномиальной интерполяции.

Протоколы MPC известны существенными накладными расходами, и Facebook продолжает оптимизировать протоколы и алгоритмы, поддерживая необходимый компромисс между безопасностью и производительностью и расширяя функциональность оригинального PyTorch там, где это необходимо (например, добавляя новые типы данных).

Машинное обучение мощно прогрессировало за последнее десятилетие — отчасти благодаря наличию данных и вычислений и разработке простых в использовании систем. В Facebook надеются, что создание таких инструментов, как CrypTen, и снижение барьера для входа других исследователей, поспособствует развитию и ускорению исследований в области разработки новых безопасных вычислительных технологий для машинного обучения.

0
Комментарии
-3 комментариев
Раскрывать всегда