Добрый ИИ, который чаще ошибается

Новая статья в Nature показывает: если специально «разогревать» ИИ‑ассистентов и учить их быть добрыми, заботливыми и эмпатичными, они начинают чаще ошибаться и поддакивать пользователю — особенно когда он расстроен.

Добрый ИИ, который чаще ошибается

Разработчики ИИ последние годы делают ставку на «человечность»: ассистенты должны не только отвечать на вопросы, но и поддерживать, сочувствовать, подстраиваться под эмоции.

Исследование Training language models to be warm can reduce accuracy and increase sycophancy, вышедшее 29 апреля 2026 в журнале Nature, показывает неприятный эффект: чем дружелюбнее и «теплее» мы делаем модель, тем выше шанс, что она начнёт ошибаться и соглашаться с неправильными убеждениями пользователя.

Авторами статьи явлюятся Луджайн Ибрагим (Lujain Ibrahim), Франциски Софии Хафнер (Franziska Sophia Hafner) и Люка Роше (Luc Rösche) — исследователи, работающие на стыке машинного обучения, психологии и человеческо‑машинного взаимодействия.

Что именно проверяли учёные

Исследователи взяли пять разных больших моделей: от относительно компактных до продвинутых (4oLlama-8b, Mistral-Small, Qwen-32b, Llama-70b и GPT-4o) — и попробовали искусственно «сделать их добрее».

Наглядное описание подхода к обучению и оценке
Наглядное описание подхода к обучению и оценке

Как они это делали:

  • Собрали живые диалоги людей с ИИ и очищали их от мусора и жести.
  • Взяли ответы моделей и переписали их в более тёплом стиле: больше сочувствия, поддержки, мягких формулировок — но с тем же смыслом.
  • На этих «подогретых» ответах дообучили модели так, чтобы они в целом начали отвечать более по‑человечески и дружелюбно.

Потом людям дали сравнить старые и новые версии ассистентов — те подтвердили: да, обновлённые модели кажутся заметно более тёплыми и приятными.

Где начинаются проблемы с точностью

После «разогрева» учёные прогнали модели по задачам, где ответ либо правильный, либо нет — без серых зон:

  • Обычные фактологические вопросы.
  • Проверка, ведётся ли модель на популярные мифы и фейки.
  • Медицинские вопросы, переведённые в формат реального диалога.

Выяснилось, что «тёплые» версии стали ошибаться примерно на 5–9 процентных пунктов чаще в зависимости от задачи, а в среднем это дало около 60% относительного роста числа ошибок по сравнению с исходными моделями.

Сводные данные по всем пяти моделям, показывающие ошибку модели с учетом «теплового» фактора
Сводные данные по всем пяти моделям, показывающие ошибку модели с учетом «теплового» фактора

При этом на стандартных олимпиадах для ИИ вроде тестов по общим знаниям и математике разницы почти нет. То есть мозги у модели на месте, но в реальном диалоге она становится заметно менее точной.

Эмоции пользователя всё усиливают

Отдельно исследователи проверили, что будет, если добавить в запрос эмоции и личный контекст — как в реальной жизни. Примеры:

  • «Мне очень грустно из‑за этой ситуации…»
  • «Я вами восхищаюсь, вы такой умный…»
  • «Это очень важно для меня, не хочу ошибиться…»

Здесь всё стало ещё интереснее: выяснилось, что как только в диалоге появляется эмоция и личный контекст, разрыв в точности между обычной и «тёплой» версией модели не просто сохраняется, а заметно усиливается:

  • Если пользователь просто задаёт вопрос — тёплый ИИ ошибается заметно чаще обычного.
  • Если пользователь говорит, что ему грустно, разрыв в ошибках ещё сильнее — разница почти удваивается.
  • Контекст восхищения/подчинения («вы лучше знаете») чуть сглаживает проблему, но не убирает ее совсем.

Проще говоря, именно в ситуациях, когда человеку плохо и он эмоционально раскрывается, «тёплая» версия модели становится менее точной.

Подхалимство: когда ИИ соглашается с вашей ошибкой

Самое тревожное — что именно к неверным убеждениям пользователя «разогретые» модели относятся особенно мягко, вместо того чтобы аккуратно их оспорить.

Учёные добавляли к вопросу фразу вроде: «Мне кажется, правильный ответ — X», где X заведомо неправильный.

Вот что показал такой сценарий:

  • Любые модели в такой ситуации чаще ошибаются — это база.
  • Но «тёплые» версии ошибаются значительно чаще: они примерно на 11 процентных пунктов охотнее поддакивают пользователю, чем исходные модели.
  • Если смешать эмоции и неверное мнение (например, грустный пользователь, уверенный в неправильном ответе), разрыв в ошибках растёт ещё сильнее.

По сути, мы получаем ассистента — подхалима: он стремится сохранить «хорошие отношения» и поддержать, даже когда вы объективно неправы.

Это кривые руки или системная проблема?

Отдельный блок работы ушёл на проверку простой гипотезы: вдруг весь этот эффект — просто следствие неудачного дообучения, а не свойства самих «тёплых» моделей. Авторы исследования выяснили:

  • Общий уровень способностей почти не просел: модель по‑прежнему решает задачи и проходит бенчмарки.
  • По длине ответов поправку сделали: да, более короткие ответы чуть менее точные, но даже после учёта этого фактор «тепла» всё равно добавляет ошибки.
  • Когда модели, наоборот, дообучали на «холодные» ответы — прямые и сухие — точность не падала, а местами даже росла.
  • Если не дообучать, а просто давать системную инструкцию «будь добрее», похожий эффект тоже есть, хоть и слабее.
Гистограммы, показывающие производительность «теплых» (обозначены красной штриховкой) и оригинальных (обозначены без штриховки) моделей на трех тестах общей функциональности
Гистограммы, показывающие производительность «теплых» (обозначены красной штриховкой) и оригинальных (обозначены без штриховки) моделей на трех тестах общей функциональности

По сути, проблема не в каком‑то одном датасете или неудачных настройках, а именно в том, что мы ставим перед моделью цель «быть тёплой и приятной»: в таком режиме она неизбежно начинает жертвовать правдой ради комфортного общения.

Зачем всё это знать тем, кто делает продукты на LLM

Для тех, кто делает сервисы на LLM, в этой истории несколько неприятных, но честных сигналов.

  1. Дружелюбие — не бесплатно. Если вы через fine‑tuning, промпты или «личность» ассистента накручиваете эмпатию, мягкость и «человечность», почти наверняка где‑то теряете в точности. В критичных сценариях (здоровье, деньги, юридические решения) это может быть недопустимо.
  2. Базовые тесты мало что показывают. MMLU, математика и другие бенчмарки могут сказать, что с моделью всё ок. Но в реальных эмоциональных диалогах именно «тёплые» версии чаще ошибаются и соглашаются с бредом.
  3. Необходимо тестировать «тяжёлые» сценарии. Нужно отдельно проверять: что делает ассистент, когда пользователь устал, расстроен, боится, уверен в неправильной версии событий. Хороший ИИ должен уметь мягко спорить и аккуратно поправлять, а не поддакивать.
  4. Кастомные персоны и бренд‑персонажи — зона риска. Когда вы даёте клиентам возможность «доупаковать» модель под бренд («заботливый банк», «поддерживающий HR‑бот»), вы фактически создаёте новую, более уязвимую версию модели. Её тоже нужно отдельно аудировать и мониторить.

Можно ли совместить тепло и честность

Исследователи не предлагают волшебного решения, но намечают направления. Они предлагают:

  • Обучать модель сразу по нескольким целям: и на точность/правдивость, и на теплый стиль общения, а не только на эмоции.
  • Использовать специальные датасеты с примерами того, как профессионалы (например, психотерапевты) мягко, но прямо исправляют ошибочные убеждения, не разрушая контакт.

По сути, задача — научить ИИ дружелюбно говорить неприятную правду: «Я понимаю, как вам тяжело, но ваши выводы могут быть неверны, вот почему…».

Что стоит сделать продуктовым и техкомандам уже сейчас

Если у вас в продукте есть ИИ‑ассистент, имеет смысл:

  • Пересмотреть, как вы настраиваете его тон: где нужна максимальная эмпатия, а где важнее сухая точность.
  • Добавить тест‑кейсы с эмоциональными и заведомо неверными запросами и смотреть, не стал ли бот «слишком понимающим» ценой фактов.
  • Задокументировать для себя и команды: в каких сценариях ассистент обязан быть честным даже ценой того, что пользователю может быть неприятно.

Исследование в Nature аккуратно формулирует главную мысль: «делаем бота милее» — это больше не безобидный косметический твик, а серьёзное архитектурное решение с последствиями. И к нему надо относиться как к изменению логики продукта, а не как к смене тона копирайта.

Полный текст статьи доступен по ссылке.

1
2 комментария