Уровень вежливости промптов существенно сказывается на точности ответов ИИ

Причем грубые и очень грубые формулировки дают лучшие результаты, чем вежливые и очень вежливые подсказки. Как пришли к таким выводам? Читайте

Как пришли к таким выводам?

Собрали 50 базовых вопросов по математике, науке и истории и переписали каждый в пяти тонах (очень вежливый, вежливый, нейтральный, грубый, очень грубый). Получилось 250 подсказок, каждую подавали на вход модели ChatGPT-4o с инструкцией отвечать только буквой правильного ответа без объяснений

🔥 Еще больше интересного в моем канале продуктовые штучки.

Ответы сравнивали с эталонными. Для устранения случайности проводили по 10 прогонов для каждого тона и использовали парные t‑тесты для проверки статистической значимости разницы между тонами.

Авторы исследования - ученые из Пенсильванского университета

Результаты

Средняя точность модели росла с увеличением грубости тона:

  • Очень вежливый: 80,8%
  • Вежливый: 81,4%
  • Нейтральный: 82,2%
  • Грубый: 82,8%
  • Очень грубый: 84,8%.

Во всех статистически значимых сравнениях (по t‑тесту) грубость приводила к лучшей точности, чем вежливость.

Авторы подчеркивают, что эти находки не означают, что стоит сознательно использовать агрессивный тон при обращении к ИИ — скорее, это иллюстрирует, что современные LLM всё ещё очень чувствительны к формальным свойствам подсказки, что важно учитывать в практике prompt engineering.

Это противоречит результатам некоторых более ранних работ, которые отмечали ухудшение результатов при очень грубых подсказках, однако различие частично объясняется другой формулировкой грубости и версией модели.

Пожалуйста, поддержите меня, поставьте лайк! 🙏

4
5 комментариев