AgentDiet: тихая революция в экономике LLM

Исследование из Stanford вышло три недели назад. Тихо. Без хайпа. Но результаты меняют экономику всего, что касается LLM-операций.

Суть в одной таблице: современные промты содержат 40-60% информации, которая не влияет на качество результата. Удалишь её — экономия 21-36% стоимости. Качество = то же самое.

Это не оптимизация. Это переосмысление того, как вообще работают LLM-системы.

Первая причина — люди пишут как люди. Когда вы объясняете задачу коллеге, вы добавляете контекст, используете прилагательные, вставляете "пожалуйста" и "спасибо". Для человеческой коммуникации это нормально. Для модели это шум.

Вторая причина — copy-paste культура. Берут промт с Reddit, добавляют свои требования, забывают удалить старое. Через 5 итераций в промте есть 3 способа решить одну задачу, написанные разными словами.

Третья — скопипастили. Много людей верят в "магические слова" вроде "подумай пошагово" или "ты опытный эксперт". Работает? Да, но не потому что нужны эти слова, а несмотря на них.

Исследование ArXiv 2509.23586 это показало чётко: есть минимальный набор информации, которая влияет на результат. Всё остальное — noise.

Представьте систему, которая в месяц генерирует 10K запросов к Claude. Средний запрос с промтом = 2K токенов. При $3 за миллион входящих токенов, это выходит на $60 в месяц.

Теперь пересжимаешь промты на 40%. Вход падает до 1.2K токенов. $36 в месяц. Сэкономил $24.

Но масштабируй. 100K запросов в месяц? Экономия $240. Миллион запросов? $2400 в месяц.

Для стартапа с бюджетом $10K на LLM, это неприлично много. Это $4700 в год. Иногда это зарплата человека.

Но это не главное. Главное в другом.

Когда промт раздут, модель пытается угадать. Сигнал потеряется в шуме, модель конфабулирует — выдумывает детали, которых в промте нет, но которые "звучат логично".

Когда промт чистый, модель работает точнее. Она не пытается заполнить пробелы. Она делает ровно то, что просишь.

Это не мелко. Это влияет на качество.

Шаг 1: удали прилагательные и наречия

"Опытный разработчик Python с 10 годами опыта" → "Developer" "Пожалуйста, постарайся дать наиболее полный ответ" → (удалить) "Внимательно разбери код и найди все ошибки" → "Find errors"

Модель не нужна мотивация. Она не становится умнее от похвал.

Шаг 2: оставь только структуру

Что нужна модели знать?

Роль (я код-ревьюер)
Вход (код на Python)
Процесс (ищу ошибки безопасности)
Выход (список ошибок + рекомендации)

Всё остальное — балласт.

Шаг 3: замени инструкции на примеры

Вместо "напиши ясный и информативный отчёт":

Example output: { "errors": ["SQL injection in line 42"], "severity": "critical" }

Один пример = 200 слов инструкции. И работает лучше.

Шаг 4: удали фразы-палиндромы

"Помни, что...", "Не забывай, что...", "Обрати внимание на..." — удалить. Модель это помнит. Или нет. Но фраза на результат не влияет.

Шаг 5: используй форматирование вместо слов

Точнее, чем: "Твоя задача делать code review. Я дам тебе код, ты должен дать отчёт..."

Перепишу реальный промт, который используют в одном стартапе.

До (старый промт, 320 токенов):

Ты опытный ассистент по генерации SQL-запросов. Ты понимаешь сложные базы данных и можешь писать эффективные запросы. Пожалуйста, генерируй SQL-запрос на основе этой таблицы. Старайся оптимизировать для производительности. Используй JOIN когда нужно. Не забывай про индексы. Спасибо за помощь!

После (новый промт, 72 токена):

Тестируют оба промта на 100 запросах к одной и той же БД. Результаты одинаковые. Скорость обработки = та же. Качество запроса = то же.

Экономия: 73% входящих токенов.

Маленькие компании (10-50 человек с технологией): агрегированная экономия = зарплата. Это существенно.

Scaleups (100+ на AI): оптимизация промтов это не одноразовая экономия. Это системная. Каждый запрос меньше стоит. При миллионах запросов в месяц разница между чистым и грязным промтом = мегадоллары.

Корпоративные системы: экономия плюс надёжность. Чистый промт = предсказуемый результат. Это критично для regulation-heavy industries.

Это не тренд. Это фундамент.

По мере того как LLM становятся дешевле и доступнее, экономия на промтах становится стратегической. Компании, которые умеют писать чистые, минималистичные промты, они выигрывают дважды: дешевле и надёжнее.

Это похоже на то, как программисты в 2010х учились писать эффективный код. Раньше "если медленно, купим сервер побольше". Потом поняли, что оптимизация кода это стратегия.

С промтами сейчас то же самое. Раньше "если дорого, купим более мощную модель". Теперь понимают, что оптимизация промта это стратегия.

Если у вас есть LLM-операции (any kind):

Выберите самый часто используемый промт
Сожмите его на 30-40% (удалите очевидный балласт)
Протестируйте на 10-20 запросах
Сравните качество

Подписывайтесь на мой Telegram-канал: t.me/gorilla_under_hood

AgentDiet: тихая революция в экономике LLM

Почему промты раздуты?

Что теряется в шуме?

Побочный эффект: честность модели

Как сжать промт без потери качества?

System Code review # Input [code] # Output [report]

Тест: это правда работает?

SQL Generator Input: table schema Output: SQL query (optimized for performance) Tables: [schema] Task: [requirement]

Кто выигрывает?

Тренд или фундаментальное изменение?

Что делать завтра?