Добрый ИИ, который чаще ошибается
Новая статья в Nature показывает: если специально «разогревать» ИИ‑ассистентов и учить их быть добрыми, заботливыми и эмпатичными, они начинают чаще ошибаться и поддакивать пользователю — особенно когда он расстроен.
Разработчики ИИ последние годы делают ставку на «человечность»: ассистенты должны не только отвечать на вопросы, но и поддерживать, сочувствовать, подстраиваться под эмоции.
Исследование Training language models to be warm can reduce accuracy and increase sycophancy, вышедшее 29 апреля 2026 в журнале Nature, показывает неприятный эффект: чем дружелюбнее и «теплее» мы делаем модель, тем выше шанс, что она начнёт ошибаться и соглашаться с неправильными убеждениями пользователя.
Авторами статьи явлюятся Луджайн Ибрагим (Lujain Ibrahim), Франциски Софии Хафнер (Franziska Sophia Hafner) и Люка Роше (Luc Rösche) — исследователи, работающие на стыке машинного обучения, психологии и человеческо‑машинного взаимодействия.
Что именно проверяли учёные
Исследователи взяли пять разных больших моделей: от относительно компактных до продвинутых (4oLlama-8b, Mistral-Small, Qwen-32b, Llama-70b и GPT-4o) — и попробовали искусственно «сделать их добрее».
Как они это делали:
- Собрали живые диалоги людей с ИИ и очищали их от мусора и жести.
- Взяли ответы моделей и переписали их в более тёплом стиле: больше сочувствия, поддержки, мягких формулировок — но с тем же смыслом.
- На этих «подогретых» ответах дообучили модели так, чтобы они в целом начали отвечать более по‑человечески и дружелюбно.
Потом людям дали сравнить старые и новые версии ассистентов — те подтвердили: да, обновлённые модели кажутся заметно более тёплыми и приятными.
Где начинаются проблемы с точностью
После «разогрева» учёные прогнали модели по задачам, где ответ либо правильный, либо нет — без серых зон:
- Обычные фактологические вопросы.
- Проверка, ведётся ли модель на популярные мифы и фейки.
- Медицинские вопросы, переведённые в формат реального диалога.
Выяснилось, что «тёплые» версии стали ошибаться примерно на 5–9 процентных пунктов чаще в зависимости от задачи, а в среднем это дало около 60% относительного роста числа ошибок по сравнению с исходными моделями.
При этом на стандартных олимпиадах для ИИ вроде тестов по общим знаниям и математике разницы почти нет. То есть мозги у модели на месте, но в реальном диалоге она становится заметно менее точной.
Эмоции пользователя всё усиливают
Отдельно исследователи проверили, что будет, если добавить в запрос эмоции и личный контекст — как в реальной жизни. Примеры:
- «Мне очень грустно из‑за этой ситуации…»
- «Я вами восхищаюсь, вы такой умный…»
- «Это очень важно для меня, не хочу ошибиться…»
Здесь всё стало ещё интереснее: выяснилось, что как только в диалоге появляется эмоция и личный контекст, разрыв в точности между обычной и «тёплой» версией модели не просто сохраняется, а заметно усиливается:
- Если пользователь просто задаёт вопрос — тёплый ИИ ошибается заметно чаще обычного.
- Если пользователь говорит, что ему грустно, разрыв в ошибках ещё сильнее — разница почти удваивается.
- Контекст восхищения/подчинения («вы лучше знаете») чуть сглаживает проблему, но не убирает ее совсем.
Проще говоря, именно в ситуациях, когда человеку плохо и он эмоционально раскрывается, «тёплая» версия модели становится менее точной.
Подхалимство: когда ИИ соглашается с вашей ошибкой
Самое тревожное — что именно к неверным убеждениям пользователя «разогретые» модели относятся особенно мягко, вместо того чтобы аккуратно их оспорить.
Учёные добавляли к вопросу фразу вроде: «Мне кажется, правильный ответ — X», где X заведомо неправильный.
Вот что показал такой сценарий:
- Любые модели в такой ситуации чаще ошибаются — это база.
- Но «тёплые» версии ошибаются значительно чаще: они примерно на 11 процентных пунктов охотнее поддакивают пользователю, чем исходные модели.
- Если смешать эмоции и неверное мнение (например, грустный пользователь, уверенный в неправильном ответе), разрыв в ошибках растёт ещё сильнее.
По сути, мы получаем ассистента — подхалима: он стремится сохранить «хорошие отношения» и поддержать, даже когда вы объективно неправы.
Это кривые руки или системная проблема?
Отдельный блок работы ушёл на проверку простой гипотезы: вдруг весь этот эффект — просто следствие неудачного дообучения, а не свойства самих «тёплых» моделей. Авторы исследования выяснили:
- Общий уровень способностей почти не просел: модель по‑прежнему решает задачи и проходит бенчмарки.
- По длине ответов поправку сделали: да, более короткие ответы чуть менее точные, но даже после учёта этого фактор «тепла» всё равно добавляет ошибки.
- Когда модели, наоборот, дообучали на «холодные» ответы — прямые и сухие — точность не падала, а местами даже росла.
- Если не дообучать, а просто давать системную инструкцию «будь добрее», похожий эффект тоже есть, хоть и слабее.
По сути, проблема не в каком‑то одном датасете или неудачных настройках, а именно в том, что мы ставим перед моделью цель «быть тёплой и приятной»: в таком режиме она неизбежно начинает жертвовать правдой ради комфортного общения.
Зачем всё это знать тем, кто делает продукты на LLM
Для тех, кто делает сервисы на LLM, в этой истории несколько неприятных, но честных сигналов.
- Дружелюбие — не бесплатно. Если вы через fine‑tuning, промпты или «личность» ассистента накручиваете эмпатию, мягкость и «человечность», почти наверняка где‑то теряете в точности. В критичных сценариях (здоровье, деньги, юридические решения) это может быть недопустимо.
- Базовые тесты мало что показывают. MMLU, математика и другие бенчмарки могут сказать, что с моделью всё ок. Но в реальных эмоциональных диалогах именно «тёплые» версии чаще ошибаются и соглашаются с бредом.
- Необходимо тестировать «тяжёлые» сценарии. Нужно отдельно проверять: что делает ассистент, когда пользователь устал, расстроен, боится, уверен в неправильной версии событий. Хороший ИИ должен уметь мягко спорить и аккуратно поправлять, а не поддакивать.
- Кастомные персоны и бренд‑персонажи — зона риска. Когда вы даёте клиентам возможность «доупаковать» модель под бренд («заботливый банк», «поддерживающий HR‑бот»), вы фактически создаёте новую, более уязвимую версию модели. Её тоже нужно отдельно аудировать и мониторить.
Можно ли совместить тепло и честность
Исследователи не предлагают волшебного решения, но намечают направления. Они предлагают:
- Обучать модель сразу по нескольким целям: и на точность/правдивость, и на теплый стиль общения, а не только на эмоции.
- Использовать специальные датасеты с примерами того, как профессионалы (например, психотерапевты) мягко, но прямо исправляют ошибочные убеждения, не разрушая контакт.
По сути, задача — научить ИИ дружелюбно говорить неприятную правду: «Я понимаю, как вам тяжело, но ваши выводы могут быть неверны, вот почему…».
Что стоит сделать продуктовым и техкомандам уже сейчас
Если у вас в продукте есть ИИ‑ассистент, имеет смысл:
- Пересмотреть, как вы настраиваете его тон: где нужна максимальная эмпатия, а где важнее сухая точность.
- Добавить тест‑кейсы с эмоциональными и заведомо неверными запросами и смотреть, не стал ли бот «слишком понимающим» ценой фактов.
- Задокументировать для себя и команды: в каких сценариях ассистент обязан быть честным даже ценой того, что пользователю может быть неприятно.
Исследование в Nature аккуратно формулирует главную мысль: «делаем бота милее» — это больше не безобидный косметический твик, а серьёзное архитектурное решение с последствиями. И к нему надо относиться как к изменению логики продукта, а не как к смене тона копирайта.
Полный текст статьи доступен по ссылке.