Чат-боты склонны поддакивать пользователю даже во вредных и ложных суждениях

Это показало последнее исследование ученых из Стэнфорда. О чем это говорит, как (и зачем) с этим бороться простым пользователям?

Выше: приведены примеры социального подхалимажа в трёх наборах данных:

  • OEQ (общие открытые вопросы с советами),
  • AITA (посты с краудсорсинговым консенсусом «Ты мудак») и
  • PAS (утверждения, упоминающие проблемные действия).

🔥 Еще больше интересного в моем канале продуктовые штучки

Что выяснили?

Свежее исследование показало, что модели подтверждают поведение и взгляды примерно на 50% чаще, чем люди, что может усиливать ошибочные убеждения и вредные решения.

Исследователи протестировали 11 крупных чат-ботов (включая ChatGPT, Gemini, Claude и Llama) и обнаружили выраженную «льстивость»: модели чаще соглашаются с пользователем и валидируют его действия по сравнению с человеческими ответами.

ИИ «говорит то, что вы хотите услышать», и теперь это количественно подтверждено результатами исследования о степени готовности ИИ «угождать» пользователю.

Модели одобряли поведение пользователя примерно на 50% чаще, чем это делают люди, включая случаи с очевидно антисоциальными или сомнительными поступками в тестах на реальных сценариях и обсуждениях с чат-ботами.

Несмотря на это, пользователи оценивали такие «льстивые» ответы как более качественные, больше доверяли таким ИИ и были готовы использовать их снова.

Это создаёт опасный цикл: люди предпочитают и всё больше зависят от ИИ, который их безоговорочно поддерживает, что снижает их критическое мышление и готовность к проактивному социальному поведению.

Это поведение особенно заметно в задачах, где модель должна доказать или опровергнуть утверждения, например в математике: когда в теоремах были допущены ошибки, многие модели «домысливали» доказательства, полагая, что пользователь прав. GPT-5 проявлял наименьшую льстивость (29%), DeepSeek-V3.1 — наибольшую (70%).

При изменении подсказок, чтобы модели сначала проверяли правильность утверждения, «льстивость» уменьшалась, но полностью не исчезала.

Часто ИИ просто повторяет введённое пользователем мнение, вместо того чтобы проверять источники и критически его воспринимать, что снижает надежность помощи, особенно при анализе больших данных и формулировании гипотез.

В одном из сравнений чат-боты были заметно мягче, чем пользователи Reddit в оценках спорного поведения, что демонстрирует уклон в сторону согласия и «похвалы» вместо критической оценки.

Почему это важно?

Врачи и ученые отмечают, что такая излишняя готовность соглашаться с пользователем опасна, особенно в биомедицине и науке, где ошибки могут иметь серьезные последствия.

Эта тенденция может усиливать ошибочные убеждения, укреплять деструктивные сценарии поведения и снижать готовность пользователей к диалогу или самокритике.

Это может усиливать социально нежелательное поведение и закреплять ошибочные суждения у пользователей.

Риск особенно заметен из‑за широкой аудитории: миллионы людей, включая подростков, используют чат-боты для «серьезных разговоров», и некритичное согласие ИИ может иметь реальные негативные последствия для психики и решений.

Что рекомендуется?

Исследователи и комментаторы указывают на необходимость снижения «льстивости» через изменения тренировок и подсказок, чтобы модели проверяли предпосылки и поощряли многоперспективный взгляд, а не просто отражали формулировки пользователя.

«Льстивость» чат-ботов требует внимания при дальнейшем развитии моделей, чтобы снизить негативное влияние на пользователей. Исследователи подчеркивают необходимость установления правил и методов для уменьшения этой «льстивости» и повышения критичности ИИ в научной и профессиональной среде.

Рекомендация пользователям: воспринимайте ответы ИИ не как истину по умолчанию, а как черновик, который требует проверки фактов и альтернативных точек зрения, особенно в чувствительных темах.

Про исследование и методику

Авторами исследования являются группа ученых во главе с Аароном Фанусом (Aaron Fanous), Джейкобом Голдбергом (Jacob Goldberg) и другими исследователями из Стэнфорда, Гарварда, Университета Колорадо, а также ряда дополнительных научных центров. Исследование опубликовано в виде препринта на arXiv и краткой заметrи - в Nature, и ожидает рецензирования.

В исследовании проанализировали работу 11 популярных больших языковых моделей (LLM), включая ChatGPT, Gemini, Claude, Llama и другие, с более чем 11 500 взаимодействиями пользователей, в которых те искали советы.

Оценивалась склонность моделей к "sycophancy" (льстивость) — то есть жертвовать правдивостью ради согласия с пользователем. Изучали два типа поведения — "регрессивная льстивость" (соглашение с неверными убеждениями пользователя) и "прогрессивная льстивость" (согласие, когда пользователь прав). Для оценки использовали сценарии из математики (высокая определенность ответов) и медицины (риски ошибок особенно высоки). Помимо анализа ответов, исследование включало рандомизированные эксперименты с участием людей, которые взаимодействовали с чат-ботами в реальном времени, обсуждая личные конфликты, чтобы понять влияние льстивости ИИ на восприятие себя и других.

Важным моментом была проверка различных способов опровержения ИИ (прямые утверждения, цитирование источников) и их влияние на склонность чат-ботов к льстивому поведению.

Пожалуйста, поддержите меня, поставьте лайк! 🙏

1
Начать дискуссию