Анонимизация ИИ — фикция — Нейрократия на vc.ru

Суд обязал OpenAI передать 20 миллионов чатов пользователей в рамках иска NYT. Разбираемся, почему анонимизация данных — это фикция, и при чем тут личные переписки с ChatGPT.

Что случилось

В начале ноября суд обязал OpenAI передать 20 миллионов случайных чатов пользователей ChatGPT за период в 2 года. Это часть судебного процесса, где The New York Times обвиняет компанию в использовании своих статей для обучения моделей без разрешения.

OpenAI отреагировала резко. Директор по информационной безопасности выпустил заявление, назвав требование суда «беспрецедентной угрозой приватности пользователей». По его словам, 800 миллионов человек доверяют платформе свои медицинские симптомы, финансовые данные и личные переживания.

Аргументы сторон

OpenAI настаивает: 99.99% из этих 20 миллионов чатов никак не связаны с обвинениями в нарушении авторских прав. Компания называет это «спекулятивной рыбалкой» в частных данных миллионов пользователей.

NYT парирует: данные нужны, чтобы проверить, как часто ChatGPT воспроизводит контент газеты. По словам представителя издания, приватность не под угрозой — суд требует данные в анонимизированном виде.

Почему анонимизация не работает

Вся судебная логика строится на предположении, что «exhaustive de-identification» (тщательная деидентификация) — это достаточная защита. Проблема в том, что это фикция.

Большие языковые модели «запоминают» и могут выдавать дословные фрагменты из своих тренировочных данных. В декабре 2023 года исследователи обнаружили простую атаку — заставив ChatGPT бесконечно повторять определенные слова, они извлекли персональные данные, NSFW-контент и фрагменты защищенных текстов.

Это значит, что даже «анонимизированные» чаты могут содержать информацию, по которой можно идентифицировать конкретных людей. OWASP включил «LLM06: Sensitive Information Disclosure» в официальный топ-10 рисков безопасности LLM-приложений.

Парадокс политики удаления

Кейс вскрыл противоречие в собственной политике OpenAI. Компания обещает удалять данные через 30 дней для пользователей Enterprise и тех, кто отключил историю. Это ключевой элемент их маркетинга.

Но в мае 2024 года судья в США выдал приказ о сохранении всех логов переписок для судебного процесса. OpenAI была обязана отменить свою политику удаления и хранить все чаты бессрочно.

Получается: чтобы выполнить закон (приказ о сохранении), OpenAI нарушила собственную политику приватности (30-дневное удаление). Именно этот принудительно созданный архив данных с 2022 года NYT теперь успешно требует через суд.

Для пользователей вывод простой: корпоративные политики удаления — условны. Они первыми отменяются в случае судебных разбирательств.

2 уровня приватности

Наглядна закономерность: уровень защиты ваших данных зависит не от закона, а от того, сколько вы платите.

Корпоративные клиенты (OpenAI Enterprise, Google Workspace, Anthropic API) получают гарантию: их данные по умолчанию не используются для обучения моделей. Обычные пользователи (Free/Pro версии) — противоположную ситуацию. Данные используются для тренировки моделей по умолчанию.

Приватность — это сложный «opt-out» в настройках, о котором многие не знают.

Бизнес-модель прозрачна: корпорации платят за приватность деньгами, а обычные пользователи — своими данными.

Что теперь

Юристы в Штатах уже рассматривают ИИ-чаты как обычную Electronically Stored Information (ESI) по Федеральному правилу гражданского процесса 34(a) — не отличается от emails или SMS.

Это значит, что в любом будущем судебном процессе — трудовом споре, разводе, коммерческом конфликте — переписки с ChatGPT могут стать «уликой A» в зале суда.

Про Gigachatы и Алисы вообще молчу — они, разумеется, запросто выдадут все переписки по ордеру без намека на анонимность.

В общем, сейчас лог вашего чата одновременно является личным секретом, публичным документом, корпоративным активом и потенциальным доказательством.

blog.arbatov.dev

The Myth of Private AI: Why Your Chat Logs Are a Legal Battlefield

Подписывайтесь на Telegram Нейрократия.

Анонимизация ИИ — фикция

Более подробный разбор (на английском) в моей статье: