Бесплатный ИИ может дорого обойтись бизнесу. Рассказываем почему
Привет! На связи WPP.DIGITAL — IT-агентство, которое создает полезные цифровые продукты. За 2024 год к нам шесть раз обращались клиенты с идеей внедрить открытый ИИ в продукт. Четверо из них не задумывались, что такая интеграция может быть небезопасной. Мы предложили им внедрить собственную LLM, взвесив все риски. Делимся этими рисками в статье.
По данным исследования НАФИ, нейросетями пользуется уже каждая третья компания МСП. Причем не только для создания картинок и текстов. Есть GPT-модели, которые ищут материалы во внутренней базе документов компании или делают расшифровки и саммари созвонов.
Разберем, куда отправляются данные, загруженные в ИИ-модели, где хранятся и кто имеет к ним доступ. Ограничимся тремя моделями ИИ из списка самых популярных в России: ChatGPT, GigaChat, YandexGPT. А еще расскажем, что нужно учесть при интеграции ИИ, чтобы обезопасить себя от исков, а данные компании и клиентов — от утечек.
Технические риски
Любая модель внутри себя хранит данные в виде тензоров. Страшное слово из высшей математики — мы пока не будем углубляться. Важно лишь то, что человек не сможет прочесть тензоры, но, если восстановить на их основе подходящую модель ИИ, она сама отдаст все данные в человекочитаемом виде.
За исключением формата хранения данных, ИИ мало чем отличается от других веб-сервисов. Именно поэтому набор уязвимостей, которые приводим ниже, у них может пересекаться.
Серверы или облака, где лежит модель. Данные, которые вы отдали модели, может получить любой, у кого есть доступ к серверу или облаку. Чаще нейросети работают именно из облака. Это связано с тем, что покупать железо под ИИ дороже, чем арендовать облачную инфраструктуру.
Инструменты работы с ИИ. Чтобы обучать искусственный интеллект и работать с ним, нужны платформы и библиотеки для ML, инструменты для обработки естественного языка, компьютерного зрения, генерации кода. В них тоже встречаются уязвимости, через которые хакеры могут получить доступ к конфиденциальной информации.
Для защиты данных можно задать нейросети условия, чтобы она не отвечала на некоторые запросы определенным категориям пользователей. Но это не всегда срабатывает из-за уязвимостей в самих инструментах работы с моделью.
Так, в старой версии ChatGPT вместе с человекочитаемым ответом пользователь мог получить машинные данные, которые должны быть закрыты от пользователей. В новой версии эту лазейку закрыли, но неизвестно, сколько таких уязвимостей в теории могло появиться.
Непреднамеренное раскрытие информации. Уязвимость из топ-10 по версии OWASP. Она возникает, когда вы фильтруете информацию на уровне выдачи, но на клиент данные уходят так, как их получила нейросеть. Это проблема для всех разработчиков — не только в сфере ИИ.
Например, в интернет-магазинах данные иногда фильтруются только на уровне выдачи. Если открыть панель разработчика, по каждому товару можно увидеть в пять раз больше параметров, чем отображается для пользователей. Это не конфиденциальные данные, но они могут помочь при умышленном взломе сервиса.
OWASP — это некоммерческая организация, которая исследует безопасность программного обеспечения. Топ-10 OWASP — это рейтинг основных угроз безопасности веб-приложений. Он обновляется ежегодно.
Устаревшие компоненты. В описании каждой новой версии продукта, будь то ИИ или что-то еще, разработчики указывают перечень уязвимостей, которые уже устранили. Таким образом информация о проблемах старой версии появляется в открытом доступе. Если вовремя не обновиться, злоумышленники могут этим воспользоваться.
Например, в 2022 году хакерам удалось взломать Windows из-за уязвимости, которую компания исправила девять лет назад. В этом смысле ИИ не особо отличается от других продуктов. Разве что количеством данных, которые он хранит.
В сообществе CWE можно найти список слабых мест ПО и оборудования, которые могут стать уязвимостями.
Интеграция готовых компонентов. По сути, любая интеграция — это большая уязвимость безопасности продукта.
- Подключили open source библиотеку для интеграции с ИИ? Ее можно подменить прямо в репозитории — и получить доступ к вашему серверу, просто выполнив серверную команду.
- До сих пор используете небезопасный протокол обмена по интеграции? Через него можно парсить весь ваш трафик. Без надежного шифрования есть риск, что данные уйдут на сторону.
- Оставили авторизационные данные на виду? Злоумышленники могут свободно зайти не только в вашу систему, но и в сам сервис.
Конечно, всё это в теории. Но лучше перестраховаться и быть в курсе.
Юридические риски
Все юридические риски использования чужих нейросетей вытекают из их пользовательских соглашений. Самое важное из соглашений ChatGPT, GigaChat, YandexGPT собрали ниже.
Иск за нелегальное коммерческое использование. Если коротко: в бесплатной версии ни одну из российских GPT-моделей нельзя использовать в коммерческих целях. Даже как внутренний поисковик по документам компании.
В пользовательском соглашении GigaChat предусмотрена возможность коммерческого использования — для этого есть специальные платные тарифы. В этом случае покупка лицензии защитит от претензий со стороны правообладателя.
У ChatGPT тоже есть тарифы для коммерческого использования, но оплатить их с российской карты невозможно.
Блокировка доступа. Правообладатели некоторых сервисов могут заблокировать вам доступ к ИИ в любой момент без объяснения причин. Это касается не только глобального ChatGPT, но и российского GigaChat.
Утечка персональных и бизнес-данных. Все три сервиса собирают любые данные, которые в них загружали. Даже поисковые запросы. Поэтому нужно следить, к какой информации вы даете доступ ИИ, особенно это касается персональных данных. Если они станут доступны третьим лицам без согласия пользователя, компания пол��чит штраф.
Нарушение авторских прав. Кому принадлежат права на сгенерированный контент — вопрос открытый. Создатели ChatGPT считают, что правообладателями сгенерированного контента являются сами пользователи. В российских законах на этот счет пока ни слова. В пользовательских соглашениях российских ИИ-сервисов эту тему тоже обходят. Даже из подробного документа от Сбера не очевидно, как сами правообладатели определяют статус такого контента.
С одной стороны, Сбер требует маркировать весь сгенерированный контент, с другой — оставляет за собой право на безотзывную лицензию.
Претензии к результату. Если вы выпускаете продукт на основе ИИ для внешних пользователей, имейте в виду, что и от них потенциально могут поступить претензии.
Любой ответ нейросети не уникален. Он сгенерирован с учетом запросов других пользователей и той информации, на которой обучалась модель. В результате возникает огромное поле для споров. Никто не даст гарантии, что конкуренты не получат похожий результат, а корпоративные наработки и материалы не окажутся в публичном доступе.
Как безопасно использовать чужой ИИ в коммерческих продуктах
ИИ не опаснее, чем другие веб-сервисы: спектр угроз и методов защиты похожи. Вот такой набор рекомендаций у нас получился.
Обезопасить продукт от случайного несанкционированного проникновения. Разграничить доступ для разных категорий пользователей и ввести двухфакторную аутентификацию для доступа в критические части инфраструктуры.
Использовать платную версию ИИ. Чтобы не судиться с правообладателями ИИ из-за нелегального использования, интегрируйте платные версии сервисов. Пока в России такая есть только у Сбера. В перспективе лицензию на коммерческое использование GPT можно ждать и от Яндекса.
Обеспечить надежное хранение данных. Получить доступ к информации внутри GPT-модели сложно, но можно. Именно поэтому лучше вообще не давать ей доступ туда, где хранятся персональные данные или коммерческая тайна.
Рекомендации для бизнеса
✅ Привлечь к разработке специалистов по информационной безопасности. Если не хотите брать людей в штат — отдать готовый продукт с ИИ на внешний аудит или хотя бы заказать консультацию по ИБ.
✅ Внести изменения в положение о персональных данных и должностные инструкции сотрудников. Добавить пометку, что сотрудники обязуются не предоставлять ИИ доступ к персональным данным.
✅ Вручную давать ИИ доступ к каждому документу, а не ко всей базе данных сразу. Даже в отобранной базе случайно может оказаться конфиденциальный документ.
Рекомендации для разработчиков
✅ Ознакомиться с рекомендациями OWASP по безопасной разработке, изучить топ-10 уязвимостей. Этой информации хватит, чтобы избежать до 80% уязвимостей продукта.
✅ Изучить рекомендации Positive Technologies — одного из самых популярных вендоров по безопасности в России после Касперского.
Подстраховаться пользовательским соглашением. Главный страх правообладателя любого продукта с ИИ: однажды придется отвечать за результат, который сгенерировала нейросеть. От потенциальных исков со стороны пользователей можно защититься, если грамотно составить пользовательское соглашение. Например, взять за основу образец от Сбера, в частности разделы 5 и 6. Еще будет полезен пункт 2.2.10 из соглашения Яндекса об ответственности за нарушение исключительных прав третьих лиц.
Что в итоге
Если интегрируете ИИ в продукт или компанию, сразу страхуйте себя от утечек и исков. Иногда для этого проще обратиться к опытной команде, которая всё сделает быстро и четко, чем разбираться самим или нанимать специалистов по ИБ в штат.
Недавно мы сделали на заказ HR-помощника на базе открытого ИИ, который отсматривал резюме и отбирал подходящих кандидатов. Подробнее об этом кейсе писали вот тут.
Что касается безопасности конкретно в этом кейсе, задачи ставить там защиту уровня банков у нас не было. Но от вредоносных программ, которые гуляют по Сети и стягивают все данные, сервис защищен надежно. Мы уверены, что случайным образом никто не сможет проникнуть на сервер. Если говорить о намеренном взломе, хакер не сможет получить доступ ко всей информации, даже если у него есть доступ к серверному аккаунту. Другие наши кейсы читайте на сайте.