Бесплатный ИИ может дорого обойтись бизнесу. Рассказываем почему

Привет! На связи WPP.DIGITAL — IT-агентство, которое создает полезные цифровые продукты. За 2024 год к нам шесть раз обращались клиенты с идеей внедрить открытый ИИ в продукт. Четверо из них не задумывались, что такая интеграция может быть небезопасной. Мы предложили им внедрить собственную LLM, взвесив все риски. Делимся этими рисками в статье.

Бесплатный ИИ может дорого обойтись бизнесу. Рассказываем почему

По данным исследования НАФИ, нейросетями пользуется уже каждая третья компания МСП. Причем не только для создания картинок и текстов. Есть GPT-модели, которые ищут материалы во внутренней базе документов компании или делают расшифровки и саммари созвонов.

Разберем, куда отправляются данные, загруженные в ИИ-модели, где хранятся и кто имеет к ним доступ. Ограничимся тремя моделями ИИ из списка самых популярных в России: ChatGPT, GigaChat, YandexGPT. А еще расскажем, что нужно учесть при интеграции ИИ, чтобы обезопасить себя от исков, а данные компании и клиентов — от утечек.

Технические риски

Любая модель внутри себя хранит данные в виде тензоров. Страшное слово из высшей математики — мы пока не будем углубляться. Важно лишь то, что человек не сможет прочесть тензоры, но, если восстановить на их основе подходящую модель ИИ, она сама отдаст все данные в человекочитаемом виде.

За исключением формата хранения данных, ИИ мало чем отличается от других веб-сервисов. Именно поэтому набор уязвимостей, которые приводим ниже, у них может пересекаться.

Серверы или облака, где лежит модель. Данные, которые вы отдали модели, может получить любой, у кого есть доступ к серверу или облаку. Чаще нейросети работают именно из облака. Это связано с тем, что покупать железо под ИИ дороже, чем арендовать облачную инфраструктуру.

Инструменты работы с ИИ. Чтобы обучать искусственный интеллект и работать с ним, нужны платформы и библиотеки для ML, инструменты для обработки естественного языка, компьютерного зрения, генерации кода. В них тоже встречаются уязвимости, через которые хакеры могут получить доступ к конфиденциальной информации.

Для защиты данных можно задать нейросети условия, чтобы она не отвечала на некоторые запросы определенным категориям пользователей. Но это не всегда срабатывает из-за уязвимостей в самих инструментах работы с моделью.

Так, в старой версии ChatGPT вместе с человекочитаемым ответом пользователь мог получить машинные данные, которые должны быть закрыты от пользователей. В новой версии эту лазейку закрыли, но неизвестно, сколько таких уязвимостей в теории могло появиться.

Непреднамеренное раскрытие информации. Уязвимость из топ-10 по версии OWASP. Она возникает, когда вы фильтруете информацию на уровне выдачи, но на клиент данные уходят так, как их получила нейросеть. Это проблема для всех разработчиков — не только в сфере ИИ.

Например, в интернет-магазинах данные иногда фильтруются только на уровне выдачи. Если открыть панель разработчика, по каждому товару можно увидеть в пять раз больше параметров, чем отображается для пользователей. Это не конфиденциальные данные, но они могут помочь при умышленном взломе сервиса.

OWASP — это некоммерческая организация, которая исследует безопасность программного обеспечения. Топ-10 OWASP — это рейтинг основных угроз безопасности веб-приложений. Он обновляется ежегодно.

Устаревшие компоненты. В описании каждой новой версии продукта, будь то ИИ или что-то еще, разработчики указывают перечень уязвимостей, которые уже устранили. Таким образом информация о проблемах старой версии появляется в открытом доступе. Если вовремя не обновиться, злоумышленники могут этим воспользоваться.

Например, в 2022 году хакерам удалось взломать Windows из-за уязвимости, которую компания исправила девять лет назад. В этом смысле ИИ не особо отличается от других продуктов. Разве что количеством данных, которые он хранит.

В сообществе CWE можно найти список слабых мест ПО и оборудования, которые могут стать уязвимостями.

Интеграция готовых компонентов. По сути, любая интеграция — это большая уязвимость безопасности продукта.

  • Подключили open source библиотеку для интеграции с ИИ? Ее можно подменить прямо в репозитории — и получить доступ к вашему серверу, просто выполнив серверную команду.
  • До сих пор используете небезопасный протокол обмена по интеграции? Через него можно парсить весь ваш трафик. Без надежного шифрования есть риск, что данные уйдут на сторону.
  • Оставили авторизационные данные на виду? Злоумышленники могут свободно зайти не только в вашу систему, но и в сам сервис.

Конечно, всё это в теории. Но лучше перестраховаться и быть в курсе.

Юридические риски

Все юридические риски использования чужих нейросетей вытекают из их пользовательских соглашений. Самое важное из соглашений ChatGPT, GigaChat, YandexGPT собрали ниже.

Иск за нелегальное коммерческое использование. Если коротко: в бесплатной версии ни одну из российских GPT-моделей нельзя использовать в коммерческих целях. Даже как внутренний поисковик по документам компании.

В пользовательском соглашении GigaChat предусмотрена возможность коммерческого использования — для этого есть специальные платные тарифы. В этом случае покупка лицензии защитит от претензий со стороны правообладателя.

Из <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fdevelopers.sber.ru%2Fdocs%2Fru%2Fpolicies%2Fgigachat-agreement%2Fbeta&postId=1394671" rel="nofollow noreferrer noopener" target="_blank">пользовательского соглашения</a> GigaChat в режиме бета-тестирования
Из пользовательского соглашения GigaChat в режиме бета-тестирования

У ChatGPT тоже есть тарифы для коммерческого использования, но оплатить их с российской карты невозможно.

Блокировка доступа. Правообладатели некоторых сервисов могут заблокировать вам доступ к ИИ в любой момент без объяснения причин. Это касается не только глобального ChatGPT, но и российского GigaChat.

Из <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fdevelopers.sber.ru%2Fdocs%2Fru%2Fpolicies%2Fgigachat-agreement%2Fbeta&postId=1394671" rel="nofollow noreferrer noopener" target="_blank">пользовательского соглашения</a> GigaChat в режиме бета-тестирования
Из пользовательского соглашения GigaChat в режиме бета-тестирования

Утечка персональных и бизнес-данных. Все три сервиса собирают любые данные, которые в них загружали. Даже поисковые запросы. Поэтому нужно следить, к какой информации вы даете доступ ИИ, особенно это касается персональных данных. Если они станут доступны третьим лицам без согласия пользователя, компания получит штраф.

Нарушение авторских прав. Кому принадлежат права на сгенерированный контент — вопрос открытый. Создатели ChatGPT считают, что правообладателями сгенерированного контента являются сами пользователи. В российских законах на этот счет пока ни слова. В пользовательских соглашениях российских ИИ-сервисов эту тему тоже обходят. Даже из подробного документа от Сбера не очевидно, как сами правообладатели определяют статус такого контента.

Из <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fdevelopers.sber.ru%2Fdocs%2Fru%2Fpolicies%2Fgigachat-agreement%2Fbeta&postId=1394671" rel="nofollow noreferrer noopener" target="_blank">пользовательского соглашения</a> GigaChat в режиме бета-тестирования
Из пользовательского соглашения GigaChat в режиме бета-тестирования

С одной стороны, Сбер требует маркировать весь сгенерированный контент, с другой — оставляет за собой право на безотзывную лицензию.

Претензии к результату. Если вы выпускаете продукт на основе ИИ для внешних пользователей, имейте в виду, что и от них потенциально могут поступить претензии.

Любой ответ нейросети не уникален. Он сгенерирован с учетом запросов других пользователей и той информации, на которой обучалась модель. В результате возникает огромное поле для споров. Никто не даст гарантии, что конкуренты не получат похожий результат, а корпоративные наработки и материалы не окажутся в публичном доступе.

Как безопасно использовать чужой ИИ в коммерческих продуктах

ИИ не опаснее, чем другие веб-сервисы: спектр угроз и методов защиты похожи. Вот такой набор рекомендаций у нас получился.

Обезопасить продукт от случайного несанкционированного проникновения. Разграничить доступ для разных категорий пользователей и ввести двухфакторную аутентификацию для доступа в критические части инфраструктуры.

Использовать платную версию ИИ. Чтобы не судиться с правообладателями ИИ из-за нелегального использования, интегрируйте платные версии сервисов. Пока в России такая есть только у Сбера. В перспективе лицензию на коммерческое использование GPT можно ждать и от Яндекса.

Обеспечить надежное хранение данных. Получить доступ к информации внутри GPT-модели сложно, но можно. Именно поэтому лучше вообще не давать ей доступ туда, где хранятся персональные данные или коммерческая тайна.

Рекомендации для бизнеса

✅ Привлечь к разработке специалистов по информационной безопасности. Если не хотите брать людей в штат — отдать готовый продукт с ИИ на внешний аудит или хотя бы заказать консультацию по ИБ.

✅ Внести изменения в положение о персональных данных и должностные инструкции сотрудников. Добавить пометку, что сотрудники обязуются не предоставлять ИИ доступ к персональным данным.

✅ Вручную давать ИИ доступ к каждому документу, а не ко всей базе данных сразу. Даже в отобранной базе случайно может оказаться конфиденциальный документ.

Рекомендации для разработчиков

✅ Ознакомиться с рекомендациями OWASP по безопасной разработке, изучить топ-10 уязвимостей. Этой информации хватит, чтобы избежать до 80% уязвимостей продукта.

✅ Изучить рекомендации Positive Technologies — одного из самых популярных вендоров по безопасности в России после Касперского.

Подстраховаться пользовательским соглашением. Главный страх правообладателя любого продукта с ИИ: однажды придется отвечать за результат, который сгенерировала нейросеть. От потенциальных исков со стороны пользователей можно защититься, если грамотно составить пользовательское соглашение. Например, взять за основу образец от Сбера, в частности разделы 5 и 6. Еще будет полезен пункт 2.2.10 из соглашения Яндекса об ответственности за нарушение исключительных прав третьих лиц.

Что в итоге

Если интегрируете ИИ в продукт или компанию, сразу страхуйте себя от утечек и исков. Иногда для этого проще обратиться к опытной команде, которая всё сделает быстро и четко, чем разбираться самим или нанимать специалистов по ИБ в штат.

Недавно мы сделали на заказ HR-помощника на базе открытого ИИ, который отсматривал резюме и отбирал подходящих кандидатов. Подробнее об этом кейсе писали вот тут.

Что касается безопасности конкретно в этом кейсе, задачи ставить там защиту уровня банков у нас не было. Но от вредоносных программ, которые гуляют по Сети и стягивают все данные, сервис защищен надежно. Мы уверены, что случайным образом никто не сможет проникнуть на сервер. Если говорить о намеренном взломе, хакер не сможет получить доступ ко всей информации, даже если у него есть доступ к серверному аккаунту. Другие наши кейсы читайте на сайте.

105105
22
11
11
26 комментариев

Спасибо за статью. Подскажите, если делать коллаж с картинкой от нейросети, то это тоже нарушение прав?

Все зависит от условий. Для точного ответа нужно знать вот эту информацию:
1. Коллажи используются в коммерческих целях?
2. Какой пользователь сгенерировал картинки?
3. С помощью какой нейросети сгенерированы картинки?

Если в пользовательском соглашении нет запрета на использование контента в коммерческих целях или вы не используете коллажи в коммерческих целях, если Вы с вашей учетной записи сгенерировали картинки и при составлении коллажа Вы указываете, кто сделал контент и при помощи какой ИИ, то с большой вероятностью Вы не нарушите авторские права.

1

так а что делать с сотрудниками, которые для работы нейросети используют и никого об этом не предупреждают? сейчас же каждый второй пишет письма и скармливает важную информацию, потому лень нормально формулировать мысли

Тут видим 3 пути:
1. Смириться и принять, что в цифровой век все использует нейросети и передают друг другу данные. В этой ситуации нейросеть ничем не отличается от друга, которому ваш сотрудник доверил решение части рабочей рутины или просто пришел за консультацией. Такую утечку практически невозможно контролировать;
2. Поставить белый список и блокировать доступ ко всем ресурсам, кроме избранных. Такие «драконовские» меры безопасности все равно не спасут от «слива» данных в разрешенную внутри компании нейросеть (которую используют на платной основе и официально);
3. Приставить к сотрудникам специального человека, который будет бить их за слив данных.

По-настоящему реалистичен для большинства компаний только первый вариант.

не спасет на 100% но можно делать виртуальное рабочее место на него трекер, те чтобы не копипастилось, от совсем тупых спасет, но учитывая что гптшки навострились фотки разбирать те тупо фотнуть экран с мобилы, могут вполне нафотать секреты )

Я правильно понимаю,если я опубликую на сайте текст, который сгенерировал ИИ, то могу нарушить авторское право?

Все зависит от пользовательского соглашения ИИ, который Вы используете. У разных ИИ разные условия на распространения контента. Представим, что Вы используете GigaChat. Если Вы сгенерировали текст с вашей учетной записи, то Вы (согласно пользовательскому соглашению) можете распространять этот контент без нарушения авторского права. Но при этом Вы должны обязательно указать Имя и Фамилию пользователя, а также информацию, с помощью какой нейросети контент сгенерирован