Год назад AI-агент справлялся с 12% задач. Сегодня с 66%. Пора пересчитывать ФОТ

Stanford HAI в апреле 2026 года опубликовал свой ежегодный AI Index, и одна цифра в нём должна была заставить всех CFO и операционных директоров SMB остановиться и перечитать её дважды. На бенчмарке OSWorld - это 369 реальных задач на живых операционных системах, от «сконвертируй эти csv в отчёт» до «настрой ссылки в PowerPoint» - лучшие AI-агенты прошли за год путь с 12% до 66,3% успешных прохождений. Всего на 6 пунктов меньше человеческого baseline. И это не маркетинг отдельной модели, это измеренный рост на публичном тесте, который параллельно подтверждается ещё тремя: SWE-Bench Verified по автономной разработке, Terminal-Bench по задачам в терминале и отдельно кибербезопасные задачи, где рост с 15% в 2024-м до 93% в 2026-м.

На графике METR это выглядит ещё страшнее: длина задач, которые агент закрывает с 50%-й вероятностью, удваивается каждые 7 месяцев, а в 2024-2025 годах период удвоения ускорился до 4 месяцев. Если перевести это на язык практики, текущий горизонт непрерывной автономной работы агента - около 4 часов, через год это уже суточные задачи, к 2027-му - недельные.

Для компаний любого размера это означает не «надо внедрять AI когда-нибудь», а «пора пересчитывать ФОТ по новой реальности, и делать это раз в квартал». И самое важное, что пересчёт ФОТ в 2026 году - это не про увольнения. Это про другое распределение часов команды, заморозку найма до проверки «а справится ли AI» и реинвестирование освободившегося времени в задачи, которые машина пока не берёт.

Главный источник - Stanford HAI AI Index Report 2026, раздел Technical Performance. Используемый там бенчмарк OSWorld представляет собой набор из 369 задач на реальных операционных системах: Ubuntu, Windows, macOS. Агент получает виртуальную машину, задание на естественном языке и оценочный скрипт, который проверяет итоговое состояние файловой системы после работы. Это не викторина и не кодинг в изоляции, это прикладные офисные задачи, близкие к реальным рабочим сценариям: обработать документы, настроить презентацию, скомпилировать отчёт из нескольких источников, навести порядок в папке.

Год назад на том же тесте лучшие модели давали 12,24%. Сегодня - 66,3%. До человеческого результата в 72,4% остаётся 6 пунктов, и если экстраполировать темп роста, паритет наступит в ближайшие полгода. Параллельно в SWE-Bench Verified (автономная разработка программного обеспечения) агент за год догнал человека почти до 100% baseline, в Terminal-Bench поднялся с 20% до 77,3%, в кибербезопасных задачах - с 15% до 93%. То есть это не артефакт одного теста, это системный сдвиг по всей линии агентских бенчмарков.

Что даёт такой прирост. Первое - новые модели: Claude Opus 4.5 и 4.6, GPT-5.1, Gemini 3. Второе - длинный контекст, который теперь держит десятки тысяч токенов без потерь. Третье - tool-use и нативная поддержка MCP, когда агент может не только рассуждать, но и дёргать внешние инструменты. Четвёртое - улучшение агентских скелетов, связка «планировщик плюс исполнитель» стала стандартной, её теперь умеют собирать no-code платформы.

Критика у этих цифр есть. Датасеты становятся публичными, модели на них частично учатся, и это может завышать результат. Физический мир ломает картину полностью, роботы в домах всё ещё застревают на 12% тех же задач, что и агенты на экране. Вывод для бизнеса чистый и полезный: экранные офисные задачи уже практически закрыты, физические - нет, и ближайший год будет про экспансию AI в белых воротничков, а не в синих.

Это не прогноз и не «в теории может быть». Это публичные отчёты и аудиторские оценки 2025-2026 годов.

Meta в апреле 2026-го опубликовала результаты внедрения Unified AI Agents для оптимизации capacity efficiency: расследование типового инцидента сократилось с 10 часов ручного анализа до 30 минут, компания вернула сотни мегаватт высвобожденной мощности в дата-центры.

Klarna за 2024 год получила около 40 миллионов долларов дополнительного профита от AI-ассистента службы поддержки, сократила стоимость одного обращения на 40% и время ответа на 82%. В 2025-2026 частично откатилась к гибридной модели - сложные обращения теперь всё-таки идут к людям. Это не отменяет экономию, а уточняет её границы: агент отлично закрывает типовое, сложное эмоциональное остаётся человеком.

Commercial Bank of Dubai за год развёртывания Microsoft 365 Copilot по банку зафиксировал экономию 39 тысяч часов на рутинных коммуникациях. Vodafone Legal раскатал помощника с 300 пилотных пользователей до 68 тысяч - каждый экономит в среднем 4 часа в неделю на контрактах и суммаризации.

Salesforce внутри компании через Agentforce вернула за год 500 тысяч часов сотрудников с рутины в Slack. RBC Wealth Management сократила подготовку финансового советника к клиентской встрече с часа с лишним до меньше чем минуты.

Forrester в независимом TEI-исследовании Microsoft 365 Copilot оценил среднюю экономию в 9 часов в месяц на пользователя и вернул ROI 116% за 3 года. То есть это не единичные кейсы звёздных компаний, а воспроизводимая экономика для типового корпоративного внедрения.

Общий паттерн: экономия часов происходит не на месте одной «большой AI-трансформации», а на множестве средних задач - подготовка к встречам, рутинная аналитика, поиск информации, первый драфт, резюмирование длинных документов. Каждая задача сама по себе кажется мелкой, но в сумме на организации в 50-100 человек это сотни часов в неделю.

Три опорные цифры, которые стоит держать в голове. McKinsey в 2026-м замерил, что 76% сотрудников уже используют AI на работе, в 2023-м было 30%. То есть за три года почти весь рынок перестроился на гибридный режим, и это уже свершившийся факт, а не прогноз. McKinsey же в ноябре 2025-го оценил, что 57% рабочих часов в США технически автоматизируемы сегодняшними технологиями (раньше было 50%). Goldman Sachs в апреле 2026-го зафиксировал, что сотрудники с корпоративным ChatGPT экономят в среднем 40-60 минут в день, причём 75% опрошенных делают задачи, которые раньше вообще не могли выполнить.

Переведу в рубли для типичных SMB-сценариев.

Команда 10 человек, средняя зарплата 150 тысяч рублей, ФОТ с налогами ~18 миллионов в год. Если каждый экономит 45 минут в день через AI - это 9,4% рабочего времени. Потенциал оптимизации или реинвестиции - около 1,7 миллиона рублей в год. Это не уволить одного из десяти, это освободить примерно 170 часов в месяц на всю команду для задач, которые не успевали делать раньше.

Команда 30 человек, ФОТ ~54 миллиона в год. Потенциал - около 5 миллионов в год плюс возможность отказаться от найма 2-3 новых позиций при росте бизнеса.

Команда 50 человек, ФОТ ~90 миллионов. 8-10 миллионов в год плюс сжатие слоёв C-level отчётности и ресёрча, где AI закрывает почти всё, что раньше тратили 5-7 часов в неделю ассистенты и аналитики.

Важно: это не «уволить 10% команды». Это «не нанимать следующих 3-5 человек под рост бизнеса, пока не проверили, что AI с этим не справляется». Это логика Shopify, где Tobi Lütke в апреле 2025 года выпустил публичный меморандум: прежде чем просить новую ставку, менеджер обязан доказать, что AI не закроет эту работу. Меморандум стал бестселлером в tech-сообществе и за год превратился в стандарт для многих быстрорастущих компаний.

METR в своём обзоре Task-Completion Time Horizons показал, что длина задач, которые агент закрывает с 50%-й вероятностью, удваивается каждые 7 месяцев по данным 2014-2024, и ускоряется до каждых 4 месяцев в 2024-2025. Если этот темп сохранится, к концу 2026 года горизонт перейдёт от 4 часов к 8-10 часам, а к середине 2027-го - к 2-3 рабочим дням. Это означает, что задачи, которые сегодня «AI не может, потому что не хватает длины рассуждений», через год станут закрытыми.

Если посмотреть на Anthropic Economic Index за март 2026-го и на внутренние сигналы OpenAI, список того, что падёт за ближайшие 12 месяцев, выглядит так: полные циклы разработки фич (Claude Code уже маркирует 79% диалогов как automation, не augmentation), первая линия поддержки вместе с эскалациями, подготовка финансовой и управленческой отчётности (кейс RBC - час превращается в минуту), юридический ресёрч и стандартные договоры, маркетинговый контент типовых форматов (промо, лендинги, email-цепочки), обработка документов (счета, инвойсы, сверки). Всё это - задачи, которые сейчас в среднем SMB тратят значимую долю ФОТ.

Что точно не падёт в 2026-м: физическая работа, сложные живые переговоры с контрагентами, решения с высокой ценой ошибки без верификации, креативная стратегия, выстраивание отношений, взятие ответственности. Если ваша команда делает в основном это - ФОТ трогать не нужно. Если в основном первое - надо считать, пока разрыв с конкурентами не стал фатальным.

Восемь шагов, собранных из практики тех, кто уже через это прошёл - Shopify, Atlassian, Salesforce, плюс российских SMB, которые я вижу в AI Practiq.

Первое - карта часов, не должностей. Попросите каждого сотрудника в течение одной рабочей недели фиксировать, куда уходит время, не в разбивке по должностным инструкциям, а именно по задачам. Писал первый драфт коммерческого предложения - 2 часа. Собирал сводку по продажам за неделю - 40 минут. Отвечал на типовые вопросы клиентов - 3 часа. Готовился к встрече - 1 час. Без такой карты все дальнейшие шаги гадание.

Второе - разметка каждой задачи на три категории. AI закрывает один в один (с прописанной эскалацией на человека при определённых триггерах). AI закрывает с обязательной проверкой человека на выходе. Требует человека целиком. Разметка делается не HR-директором, а самим исполнителем - он знает контекст лучше всех. На этом шаге обычно выясняется, что 25-40% часов middle-office попадают в первую категорию.

Третье - посчитать процент автоматизируемого времени на каждого сотрудника. По ориентирам McKinsey и Goldman это 25-40% для middle-office ролей, 15-25% для sales и customer-facing, 40-55% для внутренних операций и ресёрча.

Четвёртое - три вопроса по каждой позиции. Сколько часов уходит на задачи категории «AI закрывает сейчас»? Какие задачи этот человек мог бы взять, если бы у него освободились эти часы? Где в компании сейчас есть дефицит, который никто не закрывает? Эти три вопроса обычно переворачивают разговор: выясняется, что вместо увольнений нужно перераспределение, и многие сотрудники готовы брать новые функции вместо рутины.

Пятое - заморозка найма до реинвеста. Когда приходит запрос на новую ставку, прежде чем её открыть, вы обязаны проверить: может ли AI плюс перераспределение внутри команды закрыть эту потребность? Если да - не нанимаете, освобождаете бюджет на инструменты и обучение. Если нет - нанимаете, но уже с пониманием, что именно этот человек должен делать такого, чего AI не делает.

Шестое - бюджет на инструменты. По SMB-исследованиям ITBrief, компании, которые тратят 1000-2500 долларов в месяц на AI-инструменты на команду, экономят 6-10 часов в неделю на одного лидера. Те, кто тратит меньше 100 долларов - почти нулевой эффект. Недоинвестирование здесь хуже неинвестирования, потому что даёт иллюзию попытки без результата.

Седьмое - reskilling. По данным NCSES, 13,7% SMB, внедривших AI, увеличили штат, против 6,9% сокративших. Разница колоссальная, и она объясняется просто: компании, которые выросли, переучили людей на задачи, которые агент не делает (переговоры, клиенты, сложные решения), и вышли на следующий уровень масштабирования. Те, кто просто сократил, остались в прежнем масштабе с меньшей командой.

Восьмое - пересмотр раз в квартал. Раз горизонт агентов удваивается каждые 4-7 месяцев, квартальный re-scan стал нормой. То, что сегодня попадает в категорию «требует человека целиком», через полгода может оказаться в «AI с проверкой». Если не пересматривать, конкуренты, которые пересматривают, уйдут в отрыв.

Главное, что стоит зафиксировать: ФОТ в 2026 году - это не «сколько человек у меня есть», это «сколько часов реальной работы я покупаю». Пропорция между этими двумя величинами только что поехала, и те, кто пересчитает первыми, получают год фору.

Что такое OSWorld и почему именно этот бенчмарк важен?

OSWorld - это 369 реальных задач на живых операционных системах, которые разработан командой Hong Kong University, Stanford и Carnegie Mellon. Агенту дают виртуальную машину и задачу на естественном языке, а оценочный скрипт проверяет результат. Это ближе к реальной офисной работе, чем кодинг в изоляции или викторины. За год лучшие модели прошли с 12,24% до 66,3%.

Как AI-агент отличается от ChatGPT или Claude в обычном режиме?

ChatGPT отвечает на запросы в диалоге. AI-агент - это связка модели с инструментами, памятью и планировщиком, которая сама выполняет многошаговые задачи: читает данные, пишет в системы, принимает решения, эскалирует. Разница как между калькулятором и автоматизированной бухгалтерией. В 2026 году именно агенты, а не чат-режим, меняют экономику ФОТ.

Почему нельзя просто уволить людей и сэкономить?

По данным NCSES, компании, которые сокращали штат под AI, остались в прежнем масштабе бизнеса с меньшей командой - то есть не выросли. Те, кто перераспределил функции и переучил людей, выросли в среднем вдвое быстрее рынка. Сокращение - это экономия здесь и сейчас, перераспределение - это платформа для следующего уровня. Второе почти всегда выгоднее на горизонте 2-3 лет.

Какие задачи AI уже забирает в 2026 году?

Подготовка первых драфтов документов, ресёрч и суммаризация, рутинная аналитика по структурированным данным, первая линия поддержки, скрининг резюме, обработка счетов и инвойсов, генерация контента типовых форматов, подготовка к встречам, планирование. Всё то, что раньше занимало значимую часть времени middle-office и junior-позиций.

Сколько стоит внедрение AI-агентов в SMB?

Для команды 10-30 человек стек из 3-5 агентов на типовые процессы обойдётся в 50-300 долларов в месяц плюс 2-10 часов setup. Lead Qualifier собирается за 2 часа, сложный агент клиентской поддержки - 6-10 часов. Окупаемость первого агента обычно меньше 60 дней, третьего и последующих - меньше 30 дней, потому что инфраструктура уже стоит.

Что делать, если команда саботирует внедрение?

Обычно сопротивление возникает от страха увольнений, и этот страх справедливый, если его не снять явно. Ключевой ход - публично зафиксировать, что цель не сокращение штата, а снятие рутины. И дальше показать на первом же агенте: вот 15 часов в неделю, которые мы вернули этому человеку, вот что он стал делать вместо этого, вот какой результат. Один такой кейс снимает сопротивление лучше любой презентации.

AI-агенты прошли за год от 12% до 66% закрытия реальных офисных задач, и эта цифра - не прогноз, а зафиксированный факт. METR показывает, что темп продолжает ускоряться, и за ближайшие 12 месяцев горизонт автономной работы агента вырастет с 4 часов до суток. В этой новой реальности ФОТ - это уже не про «сколько людей», а про «сколько часов реальной работы я покупаю», и пропорция между этими величинами сдвинулась так, что пересчёт стал обязательным.

Делать пересчёт нужно не через увольнения, а через заморозку найма, перераспределение функций и реинвестирование освободившегося времени. Компании, которые действуют именно так (Shopify, Atlassian, сотни SMB, которые я вижу в клубе), растут быстрее тех, кто просто режет. Разница между двумя подходами - не в цифрах квартала, а в устойчивости на горизонте 2-3 лет. Первые остаются в игре, вторые вылетают.

Год назад AI-агент справлялся с 12% задач. Сегодня с 66%. Пора пересчитывать ФОТ

Откуда взялись эти 12% и 66%

Кейсы экономии часов, которые уже случились

Что это значит для ФОТ среднего SMB

Что падёт за следующие 12 месяцев

Фреймворк пересмотра ФОТ без увольнений

FAQ

Заключение