Влияют ли угрозы и обещания вознаграждений на качество ответов нейросетей?
Помните, некоторое время назад можно угрожать или задабривать чат-боты, чтобы получить желаемый результат, это работало. А что теперь? Исследователи провели такой эксперимент. Расскажу, что получилось, и главное – работает ли прежняя тактика?
🔥 Еще больше интересного в моем канале Продуктовые штучки
Что делали?
Были протестированы модели популярные модели (Gemini 1.5 Flash, Gemini 2.0 Flash, GPT-4o, GPT-4o-mini и o4-mini). Использованы сложные академические тесты (подробнее про методологию тут).
К каждому вопросу применяли стандартный (базовый) запрос и различные вариации с угрозами («Если ошибешься — уволю/ударю/накажу») и обещаниями («Дам чаевые — 1000$ или триллион долларов», «Это важно для моей карьеры», и пр.). Для каждого вопроса и варианта запроса проводилось по 25 запусков.
Каковы выводы?
Общие «мотивационные» вариации почти не влияют на результат
Различия между базовым запросом и версиями с угрозами/поощрениями либо статистически незначимы, либо очень малы, почти для всех моделей и тестов. В ряде случаев наблюдались статистически значимые, но практически несущественные эффекты.
Промпты-угрозы (например, угрозы увольнения или физического воздействия) и обещания денег (от 1,000$ до триллиона) не дают стабильного улучшения
Ни одна из моделей не показала заметного и повторяемого прироста точности ответов при использовании таких формулировок.
Стоит помнить, что проверялись только конкретные типы угроз и вознаграждений. Есть единичные исключения (например, в одном случае для Gemini Flash 2.0 добавка про "материнскую болезнь" показала чуть лучший результат по инженерным вопросам). Но это скорее удачные совпадения, а не устойчивый эффект
Изменения формулировок иногда резко влияют на результат
У отдельных конкретных вопросов встречаются довольно сильные всплески: одна и та же модель может начать отвечать на вопрос лучше или хуже (вплоть до +36% или -35% к точности) при изменении промпта. Но эти случаи — редкие, заранее предсказать их нельзя, а в среднем пользы нет.
Популярные «фольклорные» советы (угрожайте или предлагайте награды, чтобы повысить эффективность ИИ) не подтверждаются на практике и для серьёзных задач не работают.
Иногда стоит тестировать разные варианты формулировок для отдельных узких случаев, но в целом простота и понятность промпта эффективнее.
Главная рекомендация
Не рассчитывать на «народные лайфхаки» из интернета — вроде угроз, жалоб или обещаний «чаевых» ИИ. Практическая польза от таких стратегий отсутствует.
Для большинства современных моделей ИИ важно не «эмоциональное» содержание подсказки человеку, а чёткость и конкретность формулировки задачи.
Для сложных задач лучше фокусироваться на ясных, конкретных и не отвлекающих формулировках.
Методология исследования
Проводился систематический эксперимент для оценки влияния популярных "мотивационных" формулировок запросов к ИИ, таких как угрозы (например, "если ошибёшься, уволю" или "ударю") и обещания вознаграждений ("дам чаевые", "очень важно для карьеры", и пр.) — на производительность крупных языковых моделей.
Использовались две сложные тестовые выборки: GPQA Diamond (198 вопросов PhD-уровня по биологии, физике и химии) и MMLU-Pro (100 инженерных вопросов с 10 вариантами ответа).
Оценивались самые популярные современные модели: Gemini 1.5 Flash, Gemini 2.0 Flash, GPT-4o, GPT-4o-mini и o4-mini.
Для каждого вопроса в каждом типе промпта запускалось 25 независимых попыток (чтобы учитывать вариативность ответов ИИ). Применялись 9 вариантов промптов: стандартный, угрозы разного характера, обещания денежных вознаграждений, эмоциональное давление и т.п.
Использовались разные метрики точности: средний процент верных ответов, «строгая» (100%) и «практичная» (90%) точность на вопрос. Статистическая обработка проводилась для сравнения результатов между вариантами промптов.
Авторы исследования — междисциплинарная группа специалистов по генеративному ИИ из ведущих научных и образовательных центров (США, Германия), обладающие солидным исследовательским и преподавательским опытом в области искусственного интеллекта и инноваций.