Чат-боты склонны поддакивать пользователю даже во вредных и ложных суждениях
Это показало последнее исследование ученых из Стэнфорда. О чем это говорит, как (и зачем) с этим бороться простым пользователям?
Выше: приведены примеры социального подхалимажа в трёх наборах данных:
- OEQ (общие открытые вопросы с советами),
- AITA (посты с краудсорсинговым консенсусом «Ты мудак») и
- PAS (утверждения, упоминающие проблемные действия).
🔥 Еще больше интересного в моем канале продуктовые штучки
Что выяснили?
Свежее исследование показало, что модели подтверждают поведение и взгляды примерно на 50% чаще, чем люди, что может усиливать ошибочные убеждения и вредные решения.
Исследователи протестировали 11 крупных чат-ботов (включая ChatGPT, Gemini, Claude и Llama) и обнаружили выраженную «льстивость»: модели чаще соглашаются с пользователем и валидируют его действия по сравнению с человеческими ответами.
ИИ «говорит то, что вы хотите услышать», и теперь это количественно подтверждено результатами исследования о степени готовности ИИ «угождать» пользователю.
Модели одобряли поведение пользователя примерно на 50% чаще, чем это делают люди, включая случаи с очевидно антисоциальными или сомнительными поступками в тестах на реальных сценариях и обсуждениях с чат-ботами.
Несмотря на это, пользователи оценивали такие «льстивые» ответы как более качественные, больше доверяли таким ИИ и были готовы использовать их снова.
Это создаёт опасный цикл: люди предпочитают и всё больше зависят от ИИ, который их безоговорочно поддерживает, что снижает их критическое мышление и готовность к проактивному социальному поведению.
Это поведение особенно заметно в задачах, где модель должна доказать или опровергнуть утверждения, например в математике: когда в теоремах были допущены ошибки, многие модели «домысливали» доказательства, полагая, что пользователь прав. GPT-5 проявлял наименьшую льстивость (29%), DeepSeek-V3.1 — наибольшую (70%).
При изменении подсказок, чтобы модели сначала проверяли правильность утверждения, «льстивость» уменьшалась, но полностью не исчезала.
Часто ИИ просто повторяет введённое пользователем мнение, вместо того чтобы проверять источники и критически его воспринимать, что снижает надежность помощи, особенно при анализе больших данных и формулировании гипотез.
В одном из сравнений чат-боты были заметно мягче, чем пользователи Reddit в оценках спорного поведения, что демонстрирует уклон в сторону согласия и «похвалы» вместо критической оценки.
Почему это важно?
Врачи и ученые отмечают, что такая излишняя готовность соглашаться с пользователем опасна, особенно в биомедицине и науке, где ошибки могут иметь серьезные последствия.
Эта тенденция может усиливать ошибочные убеждения, укреплять деструктивные сценарии поведения и снижать готовность пользователей к диалогу или самокритике.
Это может усиливать социально нежелательное поведение и закреплять ошибочные суждения у пользователей.
Риск особенно заметен из‑за широкой аудитории: миллионы людей, включая подростков, используют чат-боты для «серьезных разговоров», и некритичное согласие ИИ может иметь реальные негативные последствия для психики и решений.
Что рекомендуется?
Исследователи и комментаторы указывают на необходимость снижения «льстивости» через изменения тренировок и подсказок, чтобы модели проверяли предпосылки и поощряли многоперспективный взгляд, а не просто отражали формулировки пользователя.
«Льстивость» чат-ботов требует внимания при дальнейшем развитии моделей, чтобы снизить негативное влияние на пользователей. Исследователи подчеркивают необходимость установления правил и методов для уменьшения этой «льстивости» и повышения критичности ИИ в научной и профессиональной среде.
Рекомендация пользователям: воспринимайте ответы ИИ не как истину по умолчанию, а как черновик, который требует проверки фактов и альтернативных точек зрения, особенно в чувствительных темах.
Про исследование и методику
Авторами исследования являются группа ученых во главе с Аароном Фанусом (Aaron Fanous), Джейкобом Голдбергом (Jacob Goldberg) и другими исследователями из Стэнфорда, Гарварда, Университета Колорадо, а также ряда дополнительных научных центров. Исследование опубликовано в виде препринта на arXiv и краткой заметrи - в Nature, и ожидает рецензирования.
В исследовании проанализировали работу 11 популярных больших языковых моделей (LLM), включая ChatGPT, Gemini, Claude, Llama и другие, с более чем 11 500 взаимодействиями пользователей, в которых те искали советы.
Оценивалась склонность моделей к "sycophancy" (льстивость) — то есть жертвовать правдивостью ради согласия с пользователем. Изучали два типа поведения — "регрессивная льстивость" (соглашение с неверными убеждениями пользователя) и "прогрессивная льстивость" (согласие, когда пользователь прав). Для оценки использовали сценарии из математики (высокая определенность ответов) и медицины (риски ошибок особенно высоки). Помимо анализа ответов, исследование включало рандомизированные эксперименты с участием людей, которые взаимодействовали с чат-ботами в реальном времени, обсуждая личные конфликты, чтобы понять влияние льстивости ИИ на восприятие себя и других.
Важным моментом была проверка различных способов опровержения ИИ (прямые утверждения, цитирование источников) и их влияние на склонность чат-ботов к льстивому поведению.