Почему AI-агенты совершают слишком много ошибок?

В производственной среде требования к надёжности традиционно измеряются «девятками» аптайма: 99,9%, 99,99%, 99,999% доступности. Аптайм — это ключевой показатель надёжности IT-систем, измеряющий время их непрерывной работы без сбоев. Чем выше аптайм, тем стабильнее работает ресурс. Уровень «трёх девяток» (99,9%) считается минимумом для коммерчески критичных сервисов.

«С агентами мы и близко не там. По моему ощущению, у агентных систем нет ни одной девятки надёжности. Это видно по практике: на конференциях люди выходят на сцену, показывают демо — агент должен написать код, выполнить задачу, забронировать билет — и всё фейлится. Агент может войти в цикл, не суметь исправить ошибку, воспроизводить её снова и снова», — объясняет специалист по машинному обучению Григорий Сапунов.

Разбираем, почему агентные системы остаются нестабильными, несмотря на рост возможностей моделей: