Больше значит лучше: почему ИИ предпочитает подробные инструкции, а не короткие подсказки

Каждый, кто работал с большими языковыми моделями (LLM), знает это чувство: часы, потраченные на создание идеального, короткого и элегантного промпта. Мы верим, что лаконичность — ключ к точности. Но что, если этот подход в корне неверен? Новое исследование показывает, что для сложных задач LLM работают лучше не с краткими резюме, а с длинными, подробными и постоянно развивающимися «сборниками тактик». В основе этих неожиданных выводов лежит фреймворк ACE, который меняет наше представление о том, как нужно «общаться» с искусственным интеллектом.

Исследование выявляет так называемую «склонность к краткости» (brevity bias) — тенденцию существующих методов оптимизации ИИ создавать короткие, обобщенные инструкции, в которых упускаются критически важные детали предметной области. Это делает промпты универсальными, но неэффективными для специфических задач.

Фреймворк ACE предлагает противоположную философию: рассматривать контекст как всеобъемлющий, развивающийся сборник тактик.

«Мы утверждаем, что контексты должны функционировать не как краткие резюме, а как всеобъемлющие, развивающиеся сборники тактик — подробные, инклюзивные и богатые отраслевыми знаниями».

Это кажется нелогичным, ведь люди, в отличие от машин, часто лучше усваивают сжатую информацию. Однако для LLM, способных самостоятельно определять релевантность данных в больших контекстах, подробный сборник тактик оказывается гораздо эффективнее. Вместо того чтобы заставлять модель догадываться, мы даем ей всю необходимую информацию для принятия верного решения.

Одним из самых серьезных рисков является «коллапс контекста» — феномен, при котором попытка LLM обобщить свою растущую базу знаний приводит к катастрофическому сокращению ее объема. Вместо улучшения, модель может внезапно «забыть» всё, что выучила, что ведет к резкому падению производительности.

Исследование приводит наглядный пример: в ходе эксперимента всего за один шаг адаптации контекст модели схлопнулся с 18 282 токенов до всего 122. Это привело к падению точности с 66,7% до 57,1%, что оказалось даже хуже базового показателя в 63,7%, достигнутого вообще без адаптации.

ACE избегает этой проблемы, используя структурированные, инкрементальные обновления вместо полного переписывания контекста. Это позволяет надежно сохранять накопленные знания и избегать внезапной «амнезии».

Пожалуй, один из самых удивительных результатов исследования заключается в том, что правильная инженерия контекста может уравнять шансы между моделями разного масштаба. Фреймворк ACE позволил относительно небольшой модели с открытым исходным кодом (DeepSeek-V3.1) достичь производительности на уровне лучшего коммерческого агента (IBM CUGA на базе GPT-4.1) в публичном рейтинге AppWorld.

Более того, на более сложном наборе тестов («test-challenge») агент на базе ACE даже превзошел лидера рейтинга, опередив его на 8,4% по метрике Task Goal Completion (TGC). Это доказывает, что умные методы работы с контекстом могут быть важнее, чем простое использование самой большой и мощной модели.

Ключевая сила ACE заключается в способности системы улучшаться без необходимости в предварительно размеченных, «правильных» ответах для обучения. Вместо этого фреймворк использует «естественную обратную связь от выполнения» (natural execution feedback).

На простом примере это выглядит так: система учится на основе сигналов из реального мира. Если сгенерированный ею фрагмент кода успешно выполняется, это засчитывается как успех. Если возникает ошибка — это сигнал для исправления. Такой подход является важным шагом к созданию более автономных, самосовершенствующихся систем ИИ, способных адаптироваться к реальным условиям без постоянного надзора человека.

Распространено мнение, что повышение производительности ИИ неизбежно ведет к увеличению вычислительных затрат. ACE опровергает этот стереотип, демонстрируя впечатляющую эффективность.

Согласно исследованию, фреймворк ACE:

Снижает задержку адаптации на 82,3% и требует на 75,1% меньше «прогонов» по сравнению с методом GEPA.
Уменьшает задержку на 91,5% и сокращает денежные затраты на токены на 83,6% по сравнению с Dynamic Cheatsheet.

Причина такой эффективности кроется в архитектуре: ACE использует локализованные «дельта»-обновления для небольших фрагментов знаний вместо дорогостоящего полного переписывания всего контекста.

Результаты исследования недвусмысленно указывают на смену парадигмы: мы переходим от простого «промпт-инжиниринга» к более сложной «инженерии контекста». Будущее не за поиском одного идеального промпта, а за созданием богатых, структурированных и развивающихся баз знаний, которые ИИ сможет использовать как свой собственный, постоянно пополняемый сборник тактик.

Это подводит нас к важному вопросу: если ИИ может создавать и совершенствовать свой собственный сборник тактик на основе опыта, какие новые сложные проблемы он сможет научиться решать самостоятельно?

Само исследование: Источник.

Больше значит лучше: почему ИИ предпочитает подробные инструкции, а не короткие подсказки

Введение: Парадокс промпт-инжиниринга

Вывод 1: «Больше значит лучше»: ИИ расцветает на подробных «сборниках тактик», а не на кратких резюме

Вывод 2: Опасность «коллапса контекста»: как ИИ может внезапно потерять память

Вывод 3: Давид против Голиафа: модель с открытым исходным кодом может сравниться с GPT-4

Вывод 4: Обучение без учителя: самосовершенствование через действие

Вывод 5: Лучше, быстрее и дешевле — это возможно

Заключение: Будущее за развивающимися «сборниками тактик»