Агенты умеют делать 66% задач. Почему 89% компаний застряли в пилоте навсегда

Stanford AI Index зафиксировал рекорд. MIT тут же показал, что он ничего не значит. Разбираю оба отчёта - и три вопроса, которые стоит задать команде сегодня.

Stanford HAI AI Index 2026 опубликован 13 апреля. На бенчмарке OSWorld (реальные задачи в операционной системе: поиск файлов, работа с приложениями, навигация по интерфейсу) AI-агенты показали точность 66.3%, год назад было 12%. До уровня человека - 6 процентных пунктов. На кодировании (SWE-bench Verified): за один год агенты прошли от 60% до почти 100% человеческого уровня. (Источник: Stanford HAI, Tier 1)

Если вы сейчас подумали "значит, AI скоро заменит сотрудников" - здесь и начинается ошибка.

Бенчмарк - это лаборатория. Бизнес - нет.

На OSWorld агент выполняет задание в стандартизированной операционной системе с понятными условиями. В реальном бизнесе те же 66% превращаются в вопрос: "А у нас какой процесс? А где данные? А кто проверяет результат?"

Разрыв между "агент справился с тестом" и "агент даёт измеримый результат для бизнеса" - не технический. Он организационный.

MIT NANDA Initiative проанализировала 300 публичных AI-деплойментов, провела 52 интервью с руководителями и 153 опроса лидеров: 95% generative AI pilots не дали измеримого P&L эффекта через 6 месяцев после запуска. (MIT NANDA «The GenAI Divide», Tier 2. Оговорка: выборка ограничена, методология критикуется за узкое определение ROI - не учитывает efficiency gains. Тренд подтверждается независимо: IBM фиксирует 25% инициатив с ожидаемым ROI, Morgan Stanley - 21% компаний S&P 500 могут назвать измеримый AI-benefit.)

Причина не в моделях. Три вещи отсутствуют системно: нет инфраструктуры измерений, нет интеграции в бизнес-процессы, нет управления изменениями.

Если у вас есть действующий AI-пилот - поздравляю. Вы в большинстве.

Это большинство, которое остаётся в пилоте навсегда.

89% production deployments AI-агентов никогда не выходят за рамки тестовой фазы (анализ Stanford AI Index 2026, Tier 2 интерпретация Beri.net). Технология работает. Системы перехода нет.

Для компании на 10-200 сотрудников это выглядит так: пилот потребляет время и бюджет, но в конкурентное преимущество не конвертируется. Компании, выстроившие систему перехода, фиксируют 26-31% экономии в ключевых функциях - снабжение, финансы, клиентские операции (Deloitte State of AI in the Enterprise 2026, Tier 1).

1. Три вопроса по каждому активному пилоту:

Есть ли базовый показатель ДО (с чем сравниваем результат)?
Кто конкретно отвечает за переход из pilot в production - имя, не "команда"?
Какой KPI однозначно докажет, что пилот масштабируется?

Нет ответов - пилот не готов к масштабированию, сколько бы хорошо он ни "работал" в демонстрации.

2. Разделите два вопроса. "Работает ли инструмент?" и "Встроен ли инструмент в процесс?" - это разные вопросы с разными ответственными. Большинство компаний отвечает "да" на первый и не задаёт второй вообще.

3. Измеряйте ДО, а не после. Инициатива без baseline-метрики не масштабируется - она просто становится дороже. Это справедливо для любых улучшений в бизнесе, но с AI особенно заметно: цена ошибки выше, а деградация незаметнее (инструмент продолжает "работать", просто хуже).

4. Окно сейчас, не потом. Стратегический расчёт простой: пока 89% конкурентов сидят в пилоте, те, кто выходит из него, строят отрыв. Это окно не будет открыто вечно. Рынок дозреет, best practices устоятся, первое преимущество нивелируется.

Начните с малого: возьмите один пилот, который "в принципе работает", и ответьте на три вопроса выше. Если хотя бы один ответ неочевидный - это и есть точка входа.

Какой AI-пилот у вас сейчас в работе? Есть baseline-метрика? Отвечу на вопросы в комментариях.

Больше разборов AI для бизнеса - в Telegram: t.me/gorilla_under_hood

Все ключевые числа статьи, источники и степень уверенности.

✅ Агенты: 66.3% на OSWorld, год назад 12% Stanford HAI AI Index 2026, Tier 1 https://hai.stanford.edu/ai-index/2026-ai-index-report Полный PDF отчёта: https://hai.stanford.edu/assets/files/ai_index_report_2026.pdf

✅ SWE-bench Verified: с 60% до ~100% за год Stanford HAI AI Index 2026, Tier 1 - тот же источник выше.

⚠ 89% deployments не выходят из пилота Beri.net - интерпретация Stanford AI Index, Tier 2 https://www.beri.net/article/stanford-ai-index-2026-agents-66-percent-success

⚠ 95% AI pilots без измеримого P&L эффекта MIT NANDA «The GenAI Divide», Tier 2 (через Fortune) https://fortune.com/2025/08/18/mit-report-95-percent-generative-ai-pilots-at-companies-failing-cfo/ Ограничение: выборка 52 интервью, методология критикуется за узкое определение ROI.

⚠ IBM: 25% инициатив с ожидаемым ROI IBM research

⚠ Morgan Stanley: 21% компаний S&P 500 с измеримым AI-benefit Morgan Stanley research

✅ 26-31% экономии в ключевых функциях Deloitte State of AI in the Enterprise 2026, Tier 1 https://www.deloitte.com/us/en/what-we-do/capabilities/applied-artificial-intelligence/content/state-of-ai-in-the-enterprise.html

Агенты умеют делать 66% задач. Почему 89% компаний застряли в пилоте навсегда

Почему большинство смотрит не туда

Что это значит для вашего бизнеса

Что делать

Факт-чекинг (для самостоятельной проверки)