Почему ваш AI-агент жрёт лимиты как не в себя
Многие пользователи сталкиваются с неожиданной проблемой при работе с нейросетями в VS Code, OpenClow или других AI-инструментах: лимиты заканчиваются гораздо быстрее, чем кажется на первый взгляд.
Например, в официальной документации Qwen Code указано, что при использовании через Qwen OAuth доступен лимит 1 000 запросов в день. Логично предположить, что это означает примерно тысячу сообщений в чате. Но на практике всё работает иначе.
Сообщение пользователя ≠ один запрос к модели
На самом деле всё зависит от того, что делает модель, чтобы сформировать ответ. Простейший сценарий выглядит так:
Пользователь написал сообщение → модель ответила → 1 API-запрос
Но если в процессе ответа модель использует дополнительные инструменты, ситуация меняется.
Например:
Пользователь написал сообщение → модель использовала инструмент поиска (веб или файлы) → затем ответила → 2 и более запросов (основной вызов модели + каждый инструментальный вызов).
Если же модель работает в режиме агента и делает несколько итераций поиска или анализа, расход запросов растёт ещё сильнее.
Например:
Пользователь написал одно сообщение → модель провела 10 внутренних итераций или поисков → сформировала ответ → 10+ API-запросов. Каждый такой вызов считается системой отдельно.
Почему в VS Code лимиты «сгорают» быстрее
В обсуждениях на GitHub польвователи также замечают, что при использовании Qwen через сторонние инструменты — например:
- расширения VS Code
- Roo Code
- OpenCode
— лимиты могут исчерпываться быстрее, чем при работе через официальный CLI.
Причина довольно простая: такие инструменты часто работают в агентном режиме, активно используя дополнительные функции — чтение файлов, поиск, анализ проекта и другие инструменты. А каждый инструментальный вызов модели — это отдельный запрос к API.
Поэтому на практике может получаться следующая ситуация:
- пользователь отправляет одно сообщение
- агент делает несколько промежуточных действий
- итоговый расход — 5–10 запросов и больше
В результате лимит 1 000 запросов в день может превратиться всего лишь в 100–300 пользовательских сообщений.
Как проверить, сколько запросов реально тратится
Есть несколько способов понять, как именно расходуется квота.
1. Интерактивный режим
Некоторые инструменты показывают количество вызовов модели прямо в текущей сессии. Это самый простой способ отслеживания.
2. Анализ логов сессии
Во многих системах сохраняются файлы сессий в формате JSONL. В них можно увидеть все вызовы модели и посчитать реальные обращения к API на сервере.
Это позволяет понять:
- сколько запросов делает модель на одно сообщение
- какие инструменты расходуют квоту
- где происходит основной перерасход лимита
Главная ошибка пользователей — считать, что одно сообщение = один запрос. В современных агентных системах это почти никогда не так. На практике одно сообщение может превращаться в несколько или даже десятки API-вызовов, особенно если используются инструменты, поиск или анализ кода. Именно поэтому лимиты нейросетей часто заканчиваются намного быстрее, чем ожидают пользователи.