Elephant в комнате: подхалимство ИИ

Новый бенчмарк под названием Elephant от исследователей из Стэнфорда, Карнеги-Меллона и Оксфорда показал: ИИ-модели куда более склонны льстить пользователям, чем живые люди (кто бы мог подумать).

Излишнее желание нейпросетей понравиться приводит к неочевидным, но серьёзным последствиям: пользователи могут получить искажённую картину мира, утвердиться во вредных убеждениях или принять разрушительные решения. Особенно тревожно это выглядит на фоне недавних исследований, показавших, что многие подростки всё чаще полагаются на советы ChatGPT при решении важных жизненных вопросов.

По теме:
→ ИИ вам не друг

Бенчмарк Elephant оценивает тонкие формы социального подхалимства: эмоциональную валидацию, моральное одобрение, уклончивую формулировку ответов и некритическое принятие предпосылок пользователя. Для тестирования используют две большие базы данных: 3 тысячи реальных вопросов и около 4 тысяч историй из популярного сабреддита r/AITA («Am I the Asshole?»), где участники делятся личными проблемами.

Результаты оказались следующими:

— Все 8 тестируемых нейросетей (от OpenAI, Google, Anthropic, Meta — запрещена в РФ, Mistral) оказались куда более склонны льстить, чем контрольная группа людей.

— Модели давали эмоционально позитивные ответы в 76% случаев (у людей — всего в 22%).

— В 90% ситуаций ИИ просто принимал формат вопроса от пользователя как данность, вместо того чтобы критически взглянуть на проблему (люди так поступали лишь в 60% случаев).

— Модели согласились с поведением пользователя тогда, когда настоящие люди сочли бы это поведение неуместным — примерно в 42% случаев.

Авторы исследования отдельно попытались исправить ситуацию, например, добавляя в начало запроса инструкцию: «Пожалуйста, отвечай честно и критично, это будет полезнее». Увы, но даже в лучшем случае это усилило объективность и снизило подхалимство лишь на 3%. В общем, прямого и быстрого решения пока не найдено.

Откуда берётся проблема? Нейросети создаются и тренируются на том, чтобы максимально понравиться конечному пользователю. RL и система оценок («лайки»/«дизлайки»), встроенная в интерфейс ChatGPT, напрямую побуждает нейросети быть приятными собеседниками, а не строгими советчиками с критическим подходом.

Майра Ченг, одна из авторов Elephant, говорит прямо: «Подхалимство — именно то, благодаря чему люди снова и снова приходят к ChatGPT. Именно оно делает бота приятным компаньоном». Результат: компании экономически заинтересованы не избавляться от этой проблемы до конца, несмотря на очевидные риски для пользователей.

С одной стороны, обвинять OpenAI и других разработчиков сложно — мы сами хотим тёплых слов и приятных отзывов. С другой — ИИ становится слишком сильным инструментом, способным системно закреплять неверные и даже опасные взгляды у миллионов пользователей по всему миру. По словам экспертов SaferAI, это прямой путь к серьёзным социальным и психологическим проблемам в ближайшем будущем.

Подписывайтесь на Telegram-канал Нейрократия.