AgentDiet: тихая революция в экономике LLM
Исследование из Stanford вышло три недели назад. Тихо. Без хайпа. Но результаты меняют экономику всего, что касается LLM-операций.
Суть в одной таблице: современные промты содержат 40-60% информации, которая не влияет на качество результата. Удалишь её — экономия 21-36% стоимости. Качество = то же самое.
Это не оптимизация. Это переосмысление того, как вообще работают LLM-системы.
Почему промты раздуты?
Первая причина — люди пишут как люди. Когда вы объясняете задачу коллеге, вы добавляете контекст, используете прилагательные, вставляете "пожалуйста" и "спасибо". Для человеческой коммуникации это нормально. Для модели это шум.
Вторая причина — copy-paste культура. Берут промт с Reddit, добавляют свои требования, забывают удалить старое. Через 5 итераций в промте есть 3 способа решить одну задачу, написанные разными словами.
Третья — скопипастили. Много людей верят в "магические слова" вроде "подумай пошагово" или "ты опытный эксперт". Работает? Да, но не потому что нужны эти слова, а несмотря на них.
Исследование ArXiv 2509.23586 это показало чётко: есть минимальный набор информации, которая влияет на результат. Всё остальное — noise.
Что теряется в шуме?
Представьте систему, которая в месяц генерирует 10K запросов к Claude. Средний запрос с промтом = 2K токенов. При $3 за миллион входящих токенов, это выходит на $60 в месяц.
Теперь пересжимаешь промты на 40%. Вход падает до 1.2K токенов. $36 в месяц. Сэкономил $24.
Но масштабируй. 100K запросов в месяц? Экономия $240. Миллион запросов? $2400 в месяц.
Для стартапа с бюджетом $10K на LLM, это неприлично много. Это $4700 в год. Иногда это зарплата человека.
Но это не главное. Главное в другом.
Побочный эффект: честность модели
Когда промт раздут, модель пытается угадать. Сигнал потеряется в шуме, модель конфабулирует — выдумывает детали, которых в промте нет, но которые "звучат логично".
Когда промт чистый, модель работает точнее. Она не пытается заполнить пробелы. Она делает ровно то, что просишь.
Это не мелко. Это влияет на качество.
Как сжать промт без потери качества?
Шаг 1: удали прилагательные и наречия
"Опытный разработчик Python с 10 годами опыта" → "Developer" "Пожалуйста, постарайся дать наиболее полный ответ" → (удалить) "Внимательно разбери код и найди все ошибки" → "Find errors"
Модель не нужна мотивация. Она не становится умнее от похвал.
Шаг 2: оставь только структуру
Что нужна модели знать?
- Роль (я код-ревьюер)
- Вход (код на Python)
- Процесс (ищу ошибки безопасности)
- Выход (список ошибок + рекомендации)
Всё остальное — балласт.
Шаг 3: замени инструкции на примеры
Вместо "напиши ясный и информативный отчёт":
Example output: { "errors": ["SQL injection in line 42"], "severity": "critical" }
Один пример = 200 слов инструкции. И работает лучше.
Шаг 4: удали фразы-палиндромы
"Помни, что...", "Не забывай, что...", "Обрати внимание на..." — удалить. Модель это помнит. Или нет. Но фраза на результат не влияет.
Шаг 5: используй форматирование вместо слов
System Code review # Input [code] # Output [report]
Точнее, чем: "Твоя задача делать code review. Я дам тебе код, ты должен дать отчёт..."
Тест: это правда работает?
Перепишу реальный промт, который используют в одном стартапе.
До (старый промт, 320 токенов):
Ты опытный ассистент по генерации SQL-запросов. Ты понимаешь сложные базы данных и можешь писать эффективные запросы. Пожалуйста, генерируй SQL-запрос на основе этой таблицы. Старайся оптимизировать для производительности. Используй JOIN когда нужно. Не забывай про индексы. Спасибо за помощь!
После (новый промт, 72 токена):
SQL Generator Input: table schema Output: SQL query (optimized for performance) Tables: [schema] Task: [requirement]
Тестируют оба промта на 100 запросах к одной и той же БД. Результаты одинаковые. Скорость обработки = та же. Качество запроса = то же.
Экономия: 73% входящих токенов.
Кто выигрывает?
Маленькие компании (10-50 человек с технологией): агрегированная экономия = зарплата. Это существенно.
Scaleups (100+ на AI): оптимизация промтов это не одноразовая экономия. Это системная. Каждый запрос меньше стоит. При миллионах запросов в месяц разница между чистым и грязным промтом = мегадоллары.
Корпоративные системы: экономия плюс надёжность. Чистый промт = предсказуемый результат. Это критично для regulation-heavy industries.
Тренд или фундаментальное изменение?
Это не тренд. Это фундамент.
По мере того как LLM становятся дешевле и доступнее, экономия на промтах становится стратегической. Компании, которые умеют писать чистые, минималистичные промты, они выигрывают дважды: дешевле и надёжнее.
Это похоже на то, как программисты в 2010х учились писать эффективный код. Раньше "если медленно, купим сервер побольше". Потом поняли, что оптимизация кода это стратегия.
С промтами сейчас то же самое. Раньше "если дорого, купим более мощную модель". Теперь понимают, что оптимизация промта это стратегия.
Что делать завтра?
Если у вас есть LLM-операции (any kind):
- Выберите самый часто используемый промт
- Сожмите его на 30-40% (удалите очевидный балласт)
- Протестируйте на 10-20 запросах
- Сравните качество
Подписывайтесь на мой Telegram-канал: t.me/gorilla_under_hood