Являются ли данные, на которых обучается ИИ, персональными?

Недавно читал статью про Machine Learning и задался вопросом: "ИИшка же обучается на данных, а что если часть этих данных относятся к категории персональных?"
Давайте разбираться.
Сам закон определяет персональные данные как "информация, относящаяся к прямо или косвенно определенному или определяемому физическому лицу (субъекту персональных данных".

То есть нам нужно задать вопрос: "Можем ли мы по указанным данным определить конкретного человека?"
Если да - персональные данные, если нет - сами понимаете)

Проще говоря, помимо основных персональных данных по типу ФИО, номера телефона, паспорта и тд, существуют еще данные косвенной идентификации. Здесь речь идет про неочевидные признаки:
1) Профессиональный жаргон
У каждого специалиста есть уникальный словарь: врач, программист, юрист — все пишут по-своему. Иногда по одному тексту можно понять не только профессию, но и конкретного автора.
2) GPS-маршруты
Маршрут, который начинается у одного дома и заканчивается в одном офисе → почти всегда уникален. В Европе такие данные уже признавали персональными даже без имени.
3) Стиль письма
Лингвисты легко определяют автора по типичным ошибкам, структуре фраз, привычным словам. ИИ умеет это ещё лучше.
4) Уникальный набор характеристик (редкая болезнь + район проживания)
Например: редкое заболевание + возраст + район проживания. Такая комбинация встречается один раз - и человек идентифицируем, даже если имени нет.

Разписал некоторые из них. Конечно, их гораздно больше.

Почему это критично именно для ML?

Если человеку нужно несколько явных признаков, чтобы понять, о ком идёт речь, то ИИ достаточно парочки косвенных сигналов, чтобы прийти к тому же результату.

Почему так?

Потому что любая модель машинного обучения умеет:

  • находить паттерны там, где человек не увидит вообще ничего
  • запоминать стилистические или поведенческие особенности,
  • связывать данные между собой, даже если они кажутся незначительными.

В итоге то, что человеку кажется «несущественными деталями», для ИИ работает как идентификационный признак. Именно эта способность в распознавании скрытых паттернов делает данные, на которых они обучаются, потенциально персональными даже при отсутствии прямых идентификаторов.

Считается ли обучение ИИ обработкой персональных данных?

Перейдем к главному вопросу. Мы уже разобрались что такое персональные данные и каким образом они используются в машинном обучении. Но есть ли нарушение? Считается ли обучение обработкой персональных данных?

Да. Считается. Если в обучающем датасете присутствуют данные, по которым можно прямо или косвенно определить человека - это обработка персональных данных по смыслу 152-ФЗ.

Почему обучение это обработка персональных данных?
По смыслу федерального закона в понятие "обработки" включается чуть ли не любое взаимодействие с персональными данными (подбробнее смотри ст. 3 152-ФЗ)

И тут даже если данные обезличены, то все равно можно отнести к обработке, в случае когда конкретную личность можно определить по совокупности косвенных признаков.

Немного практики

Ирландская комиссия по защите данных (DPC - Data Protection Commission) в 2025 году начала расследование против компании X за использование данных пользователей ЕС для обучения генеративной ИИ-системы без согласия.

В официальном заявлении DPC говорится:

«Расследование касается обработки персональных данных, содержащихся в общедоступных публикациях пользователей X, проживающих на территории ЕС/ЕЭЗ, — для целей обучения генеративных моделей искусственного интеллекта»

И еще одно дело:
Replika (Luka Inc.) — штраф €5,6 млн (Италия) ИИ-чатбот получал, хранил и анализировал сообщения, включая данные несовершеннолетних. Регулятор признал, что разработчик фактически обучает модель на ПДн без надлежащего основания.

Делаем вывод. Если модель обучается на данных, по которым можно прямо или косвенно определить человека — это обработка персональных данных. И это не теория, а реально подтвержденная мировая практика.

Зачем это всё бизнесу и разработчикам?

А вот и финальный вопрос ради чего стоило читать статью. Давайте определимся зачем и почему это все нужно знать тем, кто непосредственно занимается ML разработкой.

Нельзя просто взять данные пользователей и “скормить” их модели “для теста”.

Инженеры берут:

  • логи,
  • переписки операторов,
  • обращения в поддержку,
  • пользовательский поиск,
  • записи колл-центра,
  • фото/видео,
  • историю взаимодействия с интерфейсом,

и используют это для настройки ИИ, fine-tuning или валидации.

Но если среди этих данных есть хоть что-то, что позволяет идентифицировать человека - компания незаконно обрабатывает персональные данные.

Штраф будет не только за обучение - но и за передачу данных подрядчикам, разработчикам и интеграторам, которые этим занимаются. Это о том, что нужно очень аккуратно отбирать данные, которые "скармливаются" для обучения.

Любой проект с ML/LLM должен иметь:

1) Правовое основание

Компания должна объяснить: на каком основании она обучает модель на пользовательских данных.

2) Прозрачность для пользователя

Пользователь должен:

  • знать, что его данные используются в ML;
  • понимать, какие данные и зачем;
  • иметь возможность отказаться от такой обработки (в ряде случаев).

3) Политика обработки ПДн и локальные акты

Для ИИ-компаний и IT-продуктов нужны:

  • политика обработки персональных данных;
  • публичная политика конфиденциальности;
  • положение о работе с ML/LLM;
  • внутренний регламент передачи данных внутри компании;
  • инструкции для разработчиков и дата-инженеров.

Без документов компания не сможет доказать, что обработка была законной.

4) Меры безопасности

Это не просто “поставили пароль”.

Для ML нужны:

  • ограничение доступа разработчиков к датасетам;
  • безопасные хранилища;
  • раздельное хранение обучающих выборок;
  • аудит доступа;
  • шифрование;
  • механизмы удаления данных;
  • контроль логов и действий модели (во избежание leakage).

Именно отсутствие этих мер часто приводит к “всплытию” персональных данных в ответах модели.

Главный вывод прост: ИИ не отменяет закон о персональных данных - он делает его ещё более актуальным.

Для бизнеса это означает необходимость:

  • понимать, на каких данных обучается модель;
  • иметь юридическое основание для такой обработки;
  • документировать процессы;
  • обеспечивать безопасность;

Иными словами, работа с ML должна восприниматься не только как технический, но и как юридический процесс. И чем раньше компания это осознает, тем меньше проблем она получит в будущем.

Начать дискуссию