Миф о роли эксперта: новую кнопку нашли, а чуда нет

Ты когда нибудь надеялся, что правильная инструкция сделает модель всемогущей? Пенсильванский университет решил проверить этот трюк честно и спокойно.
Миф о роли эксперта: новую кнопку нашли, а чуда нет

Как тестировали

  • Шесть моделей: GPT-4o, GPT-4o-mini, o3-mini, o4-mini, Gemini 2.0 Flash, Gemini 2.5 Flash
  • Сложные вопросы аспирантского уровня по физике, химии, праву и другим дисциплинам
  • Три сценария:

- Эксперт в теме

- Эксперт не в теме

- Тотальный новичок

Что получилось

  • Роль эксперта почти не повышает точность ответов
  • Эксперт не по теме может даже ухудшить результат
  • Запрос стать ребенком стабильно дает худшие ответы
  • Gemini иногда отказывается отвечать, если "переживает" нехватку экспертизы

Главный вывод

  • Назначение роли меняет тон и стиль, но не добавляет знаний
  • Полагаться на "Будь профессором квантовой физики" бессмысленно при решении сложных задач
  • Для качества ответа важнее ясный вопрос и правильные данные, а не титулы в промпте
Железка умнее от ролевых игр не становится. Она уже знает ровно столько, сколько знает.

Если ты все еще ищешь волшебный способ повысить точность, начни с формулировки вопроса. Четкость и контекст работают лучше любых регалий.

Подписывайтесь на Telegram AI Adepts.

2
3 комментария