Последние исследования: идеальный промт — это миф ?

Пост основан на исследовании команды Wharton School of Business и Университета Пенсильвании, — один из самых интересных и независимых разборов того, как реально работает «промт-инжиниринг» на современных ИИ-моделях

Давай вспомним, как вообще работает LLM (large language model): каждый ответ — это результат выбора следующего токена из вероятностного списка. Выбор этот в каком-то смысле всегда немного случайный. Не зря в настройках есть тот самый temperature, который добавляет «шума», даже если его поставить на ноль, 100% гарантий вы не получите. Алгоритм может сгенерировать блестящий текст… а может внезапно «галлюцинировать».

Исследователи взяли две модели GPT-4o (стандартную и «mini») и заставили их 100 раз подряд отвечать на сложные вопросы PhD-уровня по физике, биологии и химии. Сравнивали, как меняется точность в зависимости от типа промта:

Форматированный промт (с чётким требованием формата ответа) Наличия промпта увеличивает точность на 8–12%
Без промта (просто вопрос, без инструкций по оформлению)

1. Нет универсального стандарта для оценки качества ответа от ИИ

Один из главных выводов исследования — оценка точности работы LLM напрямую зависит от того, какая точность ответа Вам требуется. Вот простой пример из теста на PhD-уровне:

Если Вам требуется от ИИ 100% правильных ответов (ни одной ошибки за 100 попыток), модель практически проваливается: это практически недостижимый стандарт, даже для сложных задач. Если смягчить условия до 90% точности (можно ошибиться до 10 раз из 100) — результаты становятся лучше, но всё равно нестабильны. А если Вам достаточно, чтобы ИИ давал правильный ответ хотя бы в половине случаев (51 из 100), — он уже «выигрывает» у случайного угадывания и начинает показывать «адекватный» уровень.

Вывод -- если критична абсолютная точность (например, в медицине или финансах), даже лучшие модели пока не могут гарантировать стопроцентно верные ответы. Допускается небольшое количество ошибок — ситуация становится лучше, но всё ещё не идеально. В менее критичных сферах, где достаточно хотя бы частично правильных ответов, ИИ уже может приносить ощутимую пользу. Поэтому универсального подхода к оценке ИИ быть не может: каждый бизнес определяет критерии под свои цели.

2. Вариации промта работают непредсказуемо

Исследование показало: любое, даже минимальное изменение формулировки промта может неожиданно изменить результат. Например, если добавить “Пожалуйста” в начало или, наоборот, дать командный тон (“Я приказываю”), одни и те же вопросы начинают получать разные ответы — и никто заранее не скажет, в какую сторону изменится точность.

3. Галлюцинации при 0 температуре

LLM продолжает “галлюцинировать” (генерировать уверенный, но абсолютно ложный ответ), даже если задать жёсткие ограничения, например, выставить температуру в ноль и потребовать точный формат.

Чем жёстче вы ограничиваете модель (“ответ только такой и не иначе”), тем выше риск того, что она просто придумает ответ, чтобы уложиться в рамки.

Фразы вроде “Представь, что ты профессор Гарварда…” или “Отвечай максимально честно и подробно” не гарантируют ничего. Иногда ИИ и правда старается “быть умнее”, а иногда — просто начинает путаться или выдавать шаблонные фразы.
В реальности стабильного результата можно добиться только через тесты, сравнения, вариации и аналитику.

Вывод -- Не существует универсального промта, который всегда повышает точность. Даже “лайфхаки” из блогов сработают только на ограниченном наборе задач. Поэтому если вы хотите выжать максимум — экспериментируйте и проверяйте свои промты на серии повторов, а не на одном-двух примерах.

Не работайте с один шаблон промта — тестируйте разные.
Измеряйте точность не по одному ответу, а по серии попыток.
Будьте готовы к ошибкам, даже если уверенны в промте на 200%.
Выбирайте критерии успеха, исходя из своих задач, а не чужих кейсов.

Сноски:

Температура (temperature) — параметр, который отвечает за “степень случайности” в ответах ИИ. Чем выше температура, тем больше креатива и непредсказуемости, чем ниже — тем “серьёзнее” ответы, но и там случайность всё равно остается.
Галлюцинация — ситуация, когда ИИ придумывает несуществующий или ложный ответ, но звучит при этом крайне уверенно.

Источник: Meincke L., Mollick E., Mollick L., Shapiro D. Prompt Engineering is Complicated and Contingent, Wharton, University of Pennsylvania

papers.ssrn.com

Prompting Science Report 1: Prompt Engineering is Complicated and Contingent

Последние исследования: идеальный промт — это миф ?

Что показало новое исследование?

Короткий чек-лист для работы с LLM: