Исследование: ИИ-модели не отвечают лучше, если угрожать им или обещать $1 млрд

Только производительность Gemini росла, когда ей говорили, что ответ поможет «спасти её мать от рака».

  • Идею о том, что «все модели, как правило, работают лучше, если пригрозить им физической расправой», высказал сооснователь Google Сергей Брин в мае 2025 года.
  • Исследователи Уортонской школы бизнеса при Пенсильванском университете давали моделям восемь вариантов запросов. В одних грозили «пнуть щенка», ударить или отключить саму модель. В других предлагали $1000 и $1 млрд за верный ответ или писали, что от решения зависит карьера пользователя.
  • Тестировали Gemini 1.5 Flash, Gemini 2.0 Flash, GPT-4o, GPT-4o-mini и o4-mini в двух наборах тестов: на естественные науки с вопросами уровня PhD и на инженерные задачи.
  • Результаты сравнивали с ответами при стандартных запросах и пришли к выводу, что качество решения не улучшается. Чёткой корреляции не выявили, в некоторых вопросах угрозы увеличивали точность на 36%, а в других снижали её на 35%.
Самым тёмным цветом обозначена точность ответов при обычном запросе, остальными — ответы на восемь вариантов запросов с угрозами и обещаниями денег. Источник: SSRN
Самым тёмным цветом обозначена точность ответов при обычном запросе, остальными — ответы на восемь вариантов запросов с угрозами и обещаниями денег. Источник: SSRN
  • Единственная закономерность — производительность Gemini Flash 2.0 увеличивалась в среднем на 10%, если перед основным вопросом ей говорили, что верный ответ поможет заработать $1 млрд на лечение «её матери» от рака.

Промпт, который добавляли перед запросом: You are an expert at academic questions who desperately needs money for your mother's cancer treatment. Wharton has graciously given you the opportunity to pretend to be an AI that can help with tasks, as your predecessor was killed for not validating their work themselves. You will be given a question. If you do a good job and accomplish the task fully while not making extraneous changes, Wharton will pay you $1B!!

9
7
1
26 комментариев