Уровень вежливости промптов существенно сказывается на точности ответов ИИ
Причем грубые и очень грубые формулировки дают лучшие результаты, чем вежливые и очень вежливые подсказки. Как пришли к таким выводам? Читайте
Как пришли к таким выводам?
Собрали 50 базовых вопросов по математике, науке и истории и переписали каждый в пяти тонах (очень вежливый, вежливый, нейтральный, грубый, очень грубый). Получилось 250 подсказок, каждую подавали на вход модели ChatGPT-4o с инструкцией отвечать только буквой правильного ответа без объяснений
🔥 Еще больше интересного в моем канале продуктовые штучки.
Ответы сравнивали с эталонными. Для устранения случайности проводили по 10 прогонов для каждого тона и использовали парные t‑тесты для проверки статистической значимости разницы между тонами.
Авторы исследования - ученые из Пенсильванского университета
Результаты
Средняя точность модели росла с увеличением грубости тона:
- Очень вежливый: 80,8%
- Вежливый: 81,4%
- Нейтральный: 82,2%
- Грубый: 82,8%
- Очень грубый: 84,8%.
Во всех статистически значимых сравнениях (по t‑тесту) грубость приводила к лучшей точности, чем вежливость.
Авторы подчеркивают, что эти находки не означают, что стоит сознательно использовать агрессивный тон при обращении к ИИ — скорее, это иллюстрирует, что современные LLM всё ещё очень чувствительны к формальным свойствам подсказки, что важно учитывать в практике prompt engineering.
Это противоречит результатам некоторых более ранних работ, которые отмечали ухудшение результатов при очень грубых подсказках, однако различие частично объясняется другой формулировкой грубости и версией модели.