Хранит ли ИИ удалённые чаты: что говорят политики конфиденциальности OpenAI, Google Gemini и Алисы AI?
История о том, как я три года был уверен, что контролирую свои данные. И как один разговор с айтишником заставил меня пересмотреть всё 🫢
Месяц назад я сделал то, что считал признаком цифровой гигиены: зашёл в настройки ChatGPT и нажал «Удалить всю историю чатов».
Там было 20+ чатов: брифы клиентов, черновики договоров, личная переписка, идеи проектов, которые я обсуждал с нейросетью как с коллегой 😁
Удалено. Готово. Я выдохнул! А зря…
«Удалить» ≠ удалить
Оказывается, что кнопка «Удалить» в интерфейсе и реальное удаление данных с серверов — это две совершенно разные вещи.
Когда вы нажимаете «Удалить чат» в ChatGPT, происходит следующее:
1. Чат пропадает из интерфейса.
2. На серверах OpenAI он остаётся в логах минимум 30 дней.
3. После этого — он может остаться в резервных копиях еще несколько месяцев.
4. И если диалог уже попал в выборку для дообучения модели — он там уже навсегда 🤡
Последний пункт — самый болезненный. Потому что вы никогда не узнаете, попал ваш диалог в обучение или нет (зачастую это решает сам алгоритм).
Политика конфиденциальности
Я полез изучать политики конфиденциальности популярных AI-сервисов (те самые, на которых мы автоматически ставим галочки «ознакомился»). И вот что я нашёл (всё это открытые данные из официальных документов):
Мы привыкли к нейросети как к коллеге, которому можно сказать всё. А по факту — это незнакомец в чужой стране, который записывает каждое наше слово.
И что? Я же никому не нужен?
Это самая популярная отмазка. Вот несколько сценариев, где «никому не нужные» данные внезапно становятся очень нужными:
Сценарий 1: Утечка
В марте 2023 года в ChatGPT произошел публичный инцидент: из-за бага часть пользователей видела чужие чаты в своём интерфейсе. Об этом писали все крупные IT-издания, OpenAI это подтвердила официально 😅 Никаких хакеров — просто баг!
Сценарий 2: Дообучение
Если ваш текст попал в обучающую выборку, другой пользователь через год может задать модели вопрос — и в ответе всплывут фрагменты вашего бизнеса.
Сценарий 3: Юридический запрос
Данные на серверах в США подпадают под американскую юрисдикцию. Это значит, что в определённых ситуациях (судебные процедуры, запросы регуляторов) компания может быть обязана раскрыть пользовательские данные. Для российского бизнеса, который работает с коммерческой тайной — это дополнительный фактор риска!
Сценарий 4: Сотрудник со стороны
В крупных AI-компаниях работают тысячи людей. Кто-то из них имеет доступ к выборкам данных «для улучшения качества». Один недобросовестный сотрудник = ваши данные у конкурента.
Что я понял за этот месяц?
Кнопка «удалить» — это иллюзия, почему об этом так мало говорят? Единственная реальная защита — это архитектурная. Когда сервис технически не может сохранить ваши данные. Кстати, я нашёл что-то похожее — российский AI-сервис Искра.
Перешёл на него я по простой причине:
— Архитектура спроектирована так, что обычному человеку невозможно прочитать содержимое запросов, всё зашифровано кодом (если только кто-то не вырвет из рук телефон 😅)
— Серверы в РФ. История запросов (зашифрованная) хранится здесь, под российской юрисдикцией и 152-ФЗ. При запросе в LLM туда уходит только часть текста вопроса — без email, IP и истории других чатов.
— Несколько ведущих нейросетей одновременно отвечают, формируя «идеальный» ответ, не нужно переключаться между моделями (мульти-LLM)
После всей этой истории я задал ChatGPT простой вопрос:
Ты хранишь мои предыдущие диалоги, даже если я их удалил?
Он ответил очень аккуратной формулировкой:
Удалённые чаты не отображаются в вашем интерфейсе, однако данные могут храниться на серверах в течение определённого времени в соответствии с политикой OpenAI…
Вот и весь ответ. А мне больше не хочется зависеть от чьей-то политики. Я хочу зависеть от архитектуры. И вам того же желаю 👋