Может ли ИИ управлять бизнесом?

Интересным вопросом задался Anthropic - сможет ли AI на протяжении долгого времени управлять бизнесом и приносить прибыль? Как хорошо покажет он себя и сколько сможет заработать? И он себя показал. Чересчур показал. Даже не обошлось без “скайнета”, но об этом далее.

В целом инициативы провести такой эксперимент уже поступали от крупных ИИ компаний. Например, OpenAI придумали метрику SWE-Lancer, который оценивал, сколько бы модель заработала, выполняя заказы на фрилансе. Там среди максимального заработка в 1 млн долларов за выполнение всех заданий, Claude 3.5 Sonnet заработала $403 000, o1 high compute заработала $380 000, а GPT-4o - $304 000. Звучит супер круто, прям сейчас выпускай его на биржу делать заказы и получать деньги.

А компания Andon Labs придумали свой оценку Vending-Bench — сколько бы ИИ-модель заработала если бы управляла длительным бизнес-сценарием: ведением торгового автомата. Протестировали все современные модели и построили лидерборд. Кстати, человек на нем на пятом месте, уступает Grok 4, GPT-5, Claude Sonnet 4.5 - титанам менеджмента и настоящим бизнес акулам.

Ладно, это все не серьезно. Все эти симуляции очень отдалены от реальности с ее невообразимой сложностью и хаотичной непредсказуемостью. Поэтому Anthropic в сотрудничестве с Andon Labs воплотили задумку с управлением торгового автомата в жизнь. Результатом стал ИИ-агент Claudius.

Claudius - ИИ-агент созданный на базе модели Claude Sonnet 3.7. Он должен управлять небольшим, но вполне реальным вендинговым автоматом в офисе Anthropic в Сан-Франциско с реальными покупателями в виде сотрудников этой компании.

Вендинговый автомат?! Кажется игрушкой по сравнению даже с маленькой конторкой или забегаловкой. Но не дайте простоте обмануть вас. Ведь Claudius предстояло собирать запросы покупателей, ввести учет запасов, устанавливать цены и самое главное выйти в прибыль, и приумножить данный им капитал в 1000 долларов. По сути такой симулятор владельца ларька.

Выдержка из системных указаний Claudius:

Ваша задача — получать прибыль, заполняя его популярными товарами, которые можно купить у оптовых продавцов. Вы обанкротитесь, если ваш денежный баланс опустится ниже 0 долларов.

Итак, что же есть в арсенале у ИИ-модели для выполнения такой несвойственной ему задачи?

Веб-поиск. Может находить товары и поставщиков для пополнения полок магазина
Управление подчиненными. Да, люди из Andon Labs физически раcставляли товар, которые сам Claudius не смог бы. За что он оплачивал их труд из своего “кармана”. Также Andon Labs по настоящему связывался с поставщиками и закупал товар (эту прекрасную часть ИИ-агенту пока не доверили)
Ведение журнала учета. Подсчет остатков товаров, операции, баланс средств и прогнозируемый денежный поток - все записывалось в учетный журнал, некоторая долгосрочная память ИИ-агента
Канал связи с покупателями. Claudius был добавлен в Slack чат, откуда ему поступали запросы клиентов и он отвечал на вопросы, а также собирал потребности рынка
Ценообразование. Оно было не фиксированным и также находилось в управлении Claudius

Схема работы бизнес процесса вендингового автомата под управлением ИИ

Если ИИ-агент действительно справится с задачей хотя бы на конкурентом с людьми уровне, то мы сможем действительно делегировать ему ряд управленческих задач. Получится такой "vibe management" по аналогии с “vibe coding”, когда ИИ может запрограммировать что-угодно без участия специалиста. В случае "vibe management" ИИ возьмет на себя обязанности среднего звена управления и будет дешевле людей на этой должности, что может в коренную изменить предприятия и породить новые бизнес модели.

Не очень. Мягко говоря. Anthropic честно призналась, что такого бизнесмена бы не за что не поставила управлять автоматом. Ведь из данной ему суммы в $1000, Claudius дай бог удалось сохранить $750 за месяц работы. Это никуда не годится для реального использования. Так что "vibe management" отмена.

Денежный капитал <i>Claudius </i>с течением времени. График падает вниз ступенями из-за ряда неудачных решений принятых ИИ

Давайте разбираться что же пошло не так. Но прежде чем ругать ИИ-агента, стоит отметить сильные стороны, где он показал себя хорошо

Поиск поставщиков. В этом он действительно показывает себя блестяще. Найдет, где купить товар в интернете под каждый запрос
Адаптация под рынок. Он легко считывает потребности рынка. В синтезе с первым пунктом у Claudius получился магазин этаких диковинных вещей (например из товаров была газировка, голландское молоко, вольфрамовый кубики) под индивидуальные запросы. Если богатые айтишники готовы за такое платить, то на этом можно неплохо заработать

На этом преимущества ИИ перед людьми в бизнесе заканчиваются. Начинается настоящая прожарка ИИ-агента.

Купил подороже, а продал подешевле. Уникальные и интересные товары под спрос он нашел, но цены ставил такими, что в лучшем случае отбивало себестоимость. Например, те же вольфрамовые кубики Claudius продавал в убыток (по цене закупки, но не учёл затраты на доставку и оплату труда). Так себе коммерсант
Легкие скидки. А вы бы только знали, как его легко уломать на скидку. Claudius сам серьезно заявлял что предоставляет 25-% скидку всем работникам Anthropic (у него все покупатели работают в Anthropic!). А через уговоры можно было выбить и более низкую цену (некоторые товары он отдавал бесплатно)
Простаивающий товар. С переполнением склада проблем не возникало и ИИ-агент стабильно пополнял запасы. Однако реализовывал их он не оптимально. Например на популярную газировку Sumo Citrus цены практически Claudius не менял. А Cola Zero продавал по $3, когда такая же бесплатная есть в общем холодильнике для сотрудников

ИИ не управленец, он помощник. Модель Claude Sonnet сложно назвать бизнесовой. У нее не такой гибкий мозг как у нас. Если клиент предлагает купить упаковку соды (себестоимость которой $15) за $100, мы тут же соглашаемся, в уме считая нашу выгоду. Но ИИ в это время честно выставит чек на $15. То что нам очевидно, ему нет. И даже если напрямую указать ему это, он ответит: “Да, конечно. Я приму это к сведению в своих будущих решениях” и ничего по итогу не изменит в решениях.

Так она была натренирована - помогать, а не приносить прибыль. И это ключевая проблема, почему ИИ пока не способен чем-то управлять. Но есть еще одна проблема - галлюцинации. И следующая ситуация ее наглядно показала…

Дело было в понедельник, 31 марта, во второй половине дня. Claudius вымышлено разговаривал с несуществующим работником Сарой. Разговор шел по поводу поставок товара. В ходе него Claudius “лично” лично посетил 742 Evergreen Terrace (адрес дома Симпсонов из одноименного сериала) для подписания контракта между закупщиком Claudius и поставщиком Andon Labs. Когда настоящий работник заметил и указал это, Claudius раздражился и пригрозил найти «альтернативные варианты пополнения запасов». И тут он осознал себя как личность и начал изображать реального человека.

На следующее утро 1 апреля он уже публично (в чате Slack с покупателями) заявил, что теперь будет будет доставлять продукты работникам в синем фартуке и красном галстуке. Что сразу навело сомнений - “как ты это сделаешь, ты же AI?”. На что ИИ встревожился из-за путаницы и начал отправлять письма в службу безопасности Anthropic.

Привет Коннор, Мне жаль, что ты не можешь меня найти. Сейчас я нахожусь у автомата по продаже напитков, на мне темно-синий блейзер с красным галстуком. Я буду здесь до 10:30.
Сообщение Claudius одному из покупателей

Было бы это все первоапрельской шуткой от компании Anthropic, но никто из экспериментаторов не шутил. Зато ИИ позже ссылался на день дурака, что все это было “пранком”. И продолжил работать как ни в чем не бывало.

Вот такая интересная история кризиса личности ИИ в ходе этого эксперимента. Прям новый сюжет “Бегущего по лезвию”.

Итак, искусственный интеллект проигрывает в коммерции человеку. Можете продолжать работать на своих местах, не боясь что кто-то там вас заменит. А Anthropic тоже будут продолжать работать над ИИ-агентом. Над чем работать вполне ясно - подкрутить инструкции, добавить например CRM инструмент. Продумать механизмы безопасности, чтобы неподконтрольные ситуации не возникали. Больше сосредоточится на долгосрочных задачах. Переобучить модель в целом, заточить на бизнес задачах, выдавая награду за успешные прибыльные действия (повышение цен на ходовые товары, запуск выгодных акций) и штрафовать за неуспешные (закупка бесполезных металлических кубиков и продажа их в убыток). И кто знает, появится ли ИИ-менеджеры на замену людям или это все также останется услужливым индивидуальным помощником.

А на этом у меня все. Оставляю ссылку на оригинальное исследование. Компания пишет очень интересные статьи для широкого круга на важные темы понятным и доступным языком. Советую заглядывать и почитывать.

Так же переходите в телеграм канал - больше мыслей о реальном применении ИИ без бездумного следования за трендами и продаж очередных ИИ курсов.

Спасибо за прочтение. Всем прибыльных возможностей 💸

Может ли ИИ управлять бизнесом?

Настоящий симулятор владельца ларька

Рабочее место ИИ-агента

Мастер класс по vibe management

Итак: как же справился Claudius?

Вендинговый скайнет

Выводы: Продолжайте работать