Больше значит лучше: почему ИИ предпочитает подробные инструкции, а не короткие подсказки
Введение: Парадокс промпт-инжиниринга
Каждый, кто работал с большими языковыми моделями (LLM), знает это чувство: часы, потраченные на создание идеального, короткого и элегантного промпта. Мы верим, что лаконичность — ключ к точности. Но что, если этот подход в корне неверен? Новое исследование показывает, что для сложных задач LLM работают лучше не с краткими резюме, а с длинными, подробными и постоянно развивающимися «сборниками тактик». В основе этих неожиданных выводов лежит фреймворк ACE, который меняет наше представление о том, как нужно «общаться» с искусственным интеллектом.
Вывод 1: «Больше значит лучше»: ИИ расцветает на подробных «сборниках тактик», а не на кратких резюме
Исследование выявляет так называемую «склонность к краткости» (brevity bias) — тенденцию существующих методов оптимизации ИИ создавать короткие, обобщенные инструкции, в которых упускаются критически важные детали предметной области. Это делает промпты универсальными, но неэффективными для специфических задач.
Фреймворк ACE предлагает противоположную философию: рассматривать контекст как всеобъемлющий, развивающийся сборник тактик.
«Мы утверждаем, что контексты должны функционировать не как краткие резюме, а как всеобъемлющие, развивающиеся сборники тактик — подробные, инклюзивные и богатые отраслевыми знаниями».
Это кажется нелогичным, ведь люди, в отличие от машин, часто лучше усваивают сжатую информацию. Однако для LLM, способных самостоятельно определять релевантность данных в больших контекстах, подробный сборник тактик оказывается гораздо эффективнее. Вместо того чтобы заставлять модель догадываться, мы даем ей всю необходимую информацию для принятия верного решения.
Вывод 2: Опасность «коллапса контекста»: как ИИ может внезапно потерять память
Одним из самых серьезных рисков является «коллапс контекста» — феномен, при котором попытка LLM обобщить свою растущую базу знаний приводит к катастрофическому сокращению ее объема. Вместо улучшения, модель может внезапно «забыть» всё, что выучила, что ведет к резкому падению производительности.
Исследование приводит наглядный пример: в ходе эксперимента всего за один шаг адаптации контекст модели схлопнулся с 18 282 токенов до всего 122. Это привело к падению точности с 66,7% до 57,1%, что оказалось даже хуже базового показателя в 63,7%, достигнутого вообще без адаптации.
ACE избегает этой проблемы, используя структурированные, инкрементальные обновления вместо полного переписывания контекста. Это позволяет надежно сохранять накопленные знания и избегать внезапной «амнезии».
Вывод 3: Давид против Голиафа: модель с открытым исходным кодом может сравниться с GPT-4
Пожалуй, один из самых удивительных результатов исследования заключается в том, что правильная инженерия контекста может уравнять шансы между моделями разного масштаба. Фреймворк ACE позволил относительно небольшой модели с открытым исходным кодом (DeepSeek-V3.1) достичь производительности на уровне лучшего коммерческого агента (IBM CUGA на базе GPT-4.1) в публичном рейтинге AppWorld.
Более того, на более сложном наборе тестов («test-challenge») агент на базе ACE даже превзошел лидера рейтинга, опередив его на 8,4% по метрике Task Goal Completion (TGC). Это доказывает, что умные методы работы с контекстом могут быть важнее, чем простое использование самой большой и мощной модели.
Вывод 4: Обучение без учителя: самосовершенствование через действие
Ключевая сила ACE заключается в способности системы улучшаться без необходимости в предварительно размеченных, «правильных» ответах для обучения. Вместо этого фреймворк использует «естественную обратную связь от выполнения» (natural execution feedback).
На простом примере это выглядит так: система учится на основе сигналов из реального мира. Если сгенерированный ею фрагмент кода успешно выполняется, это засчитывается как успех. Если возникает ошибка — это сигнал для исправления. Такой подход является важным шагом к созданию более автономных, самосовершенствующихся систем ИИ, способных адаптироваться к реальным условиям без постоянного надзора человека.
Вывод 5: Лучше, быстрее и дешевле — это возможно
Распространено мнение, что повышение производительности ИИ неизбежно ведет к увеличению вычислительных затрат. ACE опровергает этот стереотип, демонстрируя впечатляющую эффективность.
Согласно исследованию, фреймворк ACE:
- Снижает задержку адаптации на 82,3% и требует на 75,1% меньше «прогонов» по сравнению с методом GEPA.
- Уменьшает задержку на 91,5% и сокращает денежные затраты на токены на 83,6% по сравнению с Dynamic Cheatsheet.
Причина такой эффективности кроется в архитектуре: ACE использует локализованные «дельта»-обновления для небольших фрагментов знаний вместо дорогостоящего полного переписывания всего контекста.
Заключение: Будущее за развивающимися «сборниками тактик»
Результаты исследования недвусмысленно указывают на смену парадигмы: мы переходим от простого «промпт-инжиниринга» к более сложной «инженерии контекста». Будущее не за поиском одного идеального промпта, а за созданием богатых, структурированных и развивающихся баз знаний, которые ИИ сможет использовать как свой собственный, постоянно пополняемый сборник тактик.
Это подводит нас к важному вопросу: если ИИ может создавать и совершенствовать свой собственный сборник тактик на основе опыта, какие новые сложные проблемы он сможет научиться решать самостоятельно?
Само исследование: Источник.