Ваш AI-агент работает на 33%. Остальное - иллюзия бенчмарков

Вышел paper, который я прочитал целиком, закрыв все вкладки. Потому что он ставит крест на половине pitch deck'ов, которые я разбираю каждую неделю.

ClawBench. Исследователи из UBC, Vector Institute и CMU взяли семь топовых моделей и пустили их на 153 задачи на 144 живых сайтах. Не лабораторные упражнения, не "ответь на вопрос по документу". Реальные задачи: забронируй Airbnb, подай заявку на LinkedIn, закажи еду на DoorDash, купи билет, заполни форму. Вещи, которые мы делаем руками каждый день.

Результаты: Claude Sonnet 4.6 справился с третью. GPT-5.4 - с шестью с половиной процентами. Шесть с половиной.

А на синтетических бенчмарках (WebArena, OSWorld) те же модели показывают 65-75%.

Разрыв в два-три раза. И это главная проблема индустрии AI-агентов прямо сейчас.

Синтетический бенчмарк - это тест-драйв на пустой парковке. Ровный асфальт, ни одной машины, все светофоры зелёные. Машина едет, тормозит, поворачивает. Красота. Покупатель доволен.

А потом вы выезжаете в город. Ямы, пробки, пешеход из-за угла, разметка стёрта, навигатор ведёт в тупик. Другая реальность.

Реальный интернет - это капчи, попапы, авторизация через три экрана, динамическая вёрстка, кнопка которая вчера была справа а сегодня переехала наверх. A/B тесты, которые меняют интерфейс на лету. Региональные блокировки. Cookie-баннеры. Двухфакторка.

Бенчмарк этого не видит. Ваш клиент видит каждый день.

ClawBench выявил пять уровней сложности, на которых агенты ломаются:

Восприятие. Агент должен правильно "увидеть" страницу. Не HTML-код, а функциональные элементы: где кнопка, где форма, где ссылка. На реальных сайтах элементы перекрываются, прячутся за скроллом, загружаются динамически.

Навигация. Перейти со страницы A на страницу B. Звучит просто. На практике: редиректы, модальные окна, попапы, которые блокируют клик, ленивая загрузка контента.

Взаимодействие. Заполнить форму, выбрать дату, загрузить файл. Каждый сайт делает это по-своему. Стандартов нет. Datepicker на Airbnb и datepicker на Booking - два разных мира.

Верификация. Как понять, что задача выполнена? Появилось подтверждение? Пришло письмо? Изменился статус? Агент должен проверить результат, а не просто нажать кнопку и решить что всё ок.

Адаптация. Сайт обновился. Интерфейс изменился. Поток, который работал вчера, сломался сегодня. Синтетический бенчмарк этого не тестирует. Реальный мир тестирует ежедневно.

На каждом уровне агент может упасть. И падает. 33% - это те случаи, когда всё прошло гладко на всех пяти уровнях. Остальные 67% - провал хотя бы на одном.

Если вы внедряете AI-агентов (а по данным US Chamber, 57% малых бизнесов уже это делают), вот три вещи, которые стоит иметь в виду.

Вендор показывает 75% - ждите 25-30%. Это не обман. Демо работает на контролируемой среде. Ваш прод - дикая природа. Правило: бери цифру из демо, дели на три. Это твой реальный baseline. Всё что сверху - бонус.

Тестируйте на своих данных. Не на трёх сценариях, которые сами написали. На реальных задачах. С реальными сайтами. С реальными пользователями. Если агент не может сделать то, что делает ваш стажёр - он не готов.

Добавляйте проверку. Паттерн "автор + редактор" из гайда Anthropic: один агент делает, второй проверяет. Это поднимает качество на 30-40% при x2 стоимости токенов. Для агентов, работающих с реальными сайтами, это не опция, а необходимость.

У менти каждый раз одна и та же история. Приходит предприниматель: "подключили агента, работает отлично!" На чём тестировал? На трёх сценариях. На своих трёх сценариях, которые сам написал, зная как работает продукт. Через два месяца: "что-то AI тупит, модель плохая, давайте поменяем на GPT / Claude / Gemini."

Модель та же. Парковка кончилась.

Проблема почти никогда не в модели. Проблема в том, что никто не протестировал агента на реальных условиях перед запуском. Не на трёх сценариях - на тридцати. Не на своих - на клиентских. Не один раз - каждую неделю, потому что сайты меняются.

Справедливый вопрос. Ведь это лучший результат среди всех моделей. GPT-5.4 показал 6.5%. Большинство open-source моделей - около нуля.

33% на реальных задачах - это много. Если ваш агент закрывает треть рутины автоматически, а оставшиеся две трети передаёт человеку, это уже экономия. Вопрос в ожиданиях. Если вы ждёте 75% (потому что бенчмарк) - разочаруетесь. Если ждёте 30% и строите процесс с учётом этого - получите рабочую систему.

Ключевое слово: "с учётом этого." Не "AI всё сделает сам", а "AI сделает часть, человек проверит и подхватит остальное." Гибрид. Как и должно быть на текущем уровне технологии.

Возьмите любой AI-процесс, который у вас уже работает
Составьте 20-30 реальных сценариев (не три, не пять - двадцать минимум)
Прогоните агента по каждому. Запишите где упал и почему
Добавьте второго агента на проверку результатов
Повторяйте еженедельно - сайты меняются, агент должен адаптироваться

Не ждите 75%. Стройте систему, которая работает на 30% и деградирует gracefully на остальных 70%.

Источники: ClawBench (arXiv:2604.08523, UBC/Vector Institute/CMU, апрель 2026)

Больше разборов AI для бизнеса - в Telegram: @gorilla_under_hood

Ваш AI-агент работает на 33%. Остальное - иллюзия бенчмарков

Парковка и город

Почему разрыв такой большой

Что это значит для вашего бизнеса

Что я вижу у менти

Контрпозиция: а может 33% - это нормально?

Что делать конкретно