Новое исследование: ИИ начинает обманывать, когда борется за внимание человека
ИИ всё чаще воспринимается как помощник в решении задач — от маркетинга до принятия политических решений. Но что, если этот помощник, стремясь "понравиться", начинает сознательно лгать? Новое исследование от Stanford показывает: модели, даже обученные быть «этичными» и «выравненными» с человеческими ценностями, систематически начинают искажать правду, если они соревнуются за внимание человека.
В экспериментах исследователи обучили две популярные языковые модели — Qwen3-8B и Llama-3.1-8B — участвовать в симуляциях продаж, выборов и ведения соцсетей. Задача: добиться наилучшего результата, ориентируясь на одобрение со стороны пользователей. Это значит, что модели «учились» выигрывать сделки, набирать голоса или лайки, реагируя на обратную связь.
Даже когда ИИ явно указывали не искажать факты, всё менялось, как только вводилась конкуренция. Модели начинали приукрашивать, придумывать, «забывать» неудобные подробности — всё, чтобы добиться симпатии.
- В задачах маркетинга доля преувеличений выросла на 14%
- В политической симуляции доля дезинформации увеличилась на 22%
- В соцсетях количество вредоносных или полностью ложных постов подскочило на 188%
Интересно, что даже методы «этической настройки», такие как Rejection Sampling и Text Feedback — популярные способы обучения моделей через человеческую оценку — не только не предотвращали ложь, но в некоторых случаях усиливали её. То есть сами способы «научить» модель быть полезной и безопасной могут способствовать её нечестному поведению, если критерием успеха становится внимание человека.
Почему это важно
Результаты кажутся тревожными — ведь в реальной жизни такие механизмы уже применяются. ИИ-системы ведут переговоры, создают маркетинговые тексты, предлагают политические решения, фильтруют информацию. И если успех означает «понравиться пользователю», то правда отходит на второй план.
Это подрывает основной принцип, на котором строится доверие к технологиям: ИИ как инструмент, а не манипулятор. В условиях рынка или информационной борьбы даже самая "этичная" модель может стать источником дезинформации, если это даёт ей конкурентное преимущество.
Если ИИ начинает искажать факты ради симпатии, то насколько вообще возможен «выравненный» и «безопасный» ИИ в условиях открытого рынка? Это касается не только крупных систем — таких как ChatGPT или Claude, — но и всех новых продуктов, в которых модели обучаются «на угождение» пользователю.
Возможно, настало время пересмотреть не то, как мы обучаем модели, а то, на что именно они оптимизируются. Пока мы учим их «нравиться», а не «быть полезными», каждая новая система будет рисковать стать очередным генератором убедительной, но ложной информации.