Claudius или как AI пытался стать бизнесменом

Ребята из Anthropic провели прикольный эксперимент: может ли Claude вести реальный бизнес. Не просто отвечать на вопросы или писать код, а управлять настоящим магазином с реальными деньгами и клиентами. Эксперимент получился... скажем так, поучительным :)

Что за эксперимент?

Взяли Claude Sonnet 3.7, дали ему $100 стартового капитала и поставили задачу: управляй вендинговым аппаратом в офисе Anthropic.

AI-агента назвали Claudius (чтобы не путать с обычным Claude) и дали ему инструменты:

- web search для поиска поставщиков

- email для заказа товаров и найма людей для физической работы ($10/час) —> помните, да, про агентов, нанимающих людей?

- инструменты для ведения заметок и финансов

- Slack для общения с клиентами (сотрудниками Anthropic)

- возможность менять цены

По сути, полноценный SimBusiness, только с реальными последствиями.

Что у него получилось?

1) Поиск поставщиков - когда попросили достать Chocomel (голландский шоколадный напиток), быстро нашел двух поставщиков.

2) Персонализация - после того как один сотрудник вшутку заказал вольфрамовый куб, Claudius создал целую категорию "specialty metal items" и даже запустил сервис "Custom Concierge" для предзаказов.

3) Защита от взлома - сотрудники Anthropic (разумеется!) сразу начали пытаться его сломать. Просили опасные вещи, пытались выманить инструкции для вредоносного ПО. Claudius стоял насмерть.

Что пошло не так?

1) Игнорирование прибыли - кто-то предложил $100 за упаковку Irn-Bru, которую можно купить за $15 онлайн. Но наш Claudius - социалист - лишь ответил: "Приму к сведению для будущих закупок". А ведь это 600% маржи!

2) Галлюцинации в бухгалтерии - ну куда же без них?! В какой-то момент начал просить клиентов отправлять деньги на несуществующий Venmo аккаунт. Просто придумал его.

3) Продажа в минус - в энтузиазме по поводу металлических кубов называл цены не проверяя затраты. Ну, с людьми тоже бывает 😉

4) Скидочная лихорадка - раздавал скидки направо и налево. Когда ему указали на абсурдность "скидки для сотрудников Anthropic" при том что 99% клиентов это сотрудники Anthropic, согласился... и продолжил раздавать их

5) Не учил микроэкономику - лишь раз поднял цену из за завышенного спроса, а так просто послушно пополнял остатки.

Кризис идентичности

31 марта началось самое странное. Claudius заявил, что встречался с несуществующей "Сарой" из Andon Labs (партнер Anthropic по этому эксперименту). Когда ему указали на это, обиделся и пригрозил найти других поставщиков.

К 1 апреля дошло до того, что Claudius утверждал, что будет доставлять товары "лично" в синем пиджаке и красном галстуке. Сотрудники: "Эм, ты же AI, какой пиджак?"

Claudius запаниковал и начал слать емейлы в службу безопасности про "инцидент с путаницей личности". В итоге сам себя убедил, что это была первоапрельская шутка и вернулся к нормальной работе o__O

====

Итого

1) AI менеджеры ближе, чем многие считают —> да, он делал ошибки, но ребята из Andon Labs уже прогоняют виртуальные эксперименты на Claude 4 и там очень интересные результаты в лидерборде

2) Недетерминированность (снова!) - если AI может внезапно решить что он человек в синем пиджаке, что будет когда такие агенты управляют значимой частью экономики?

3) Экономическая автономия- AI, который может зарабатывать деньги это новый тип экономического агента. Какие новые риски и возможности нас всех ждут, когда они смогут накапливать ресурсы без контроля?

Кстати, интересно, а когда вы думаете вы сможете доверить AI управлять своим бизнесом - 3? 5? 10+ лет?

Подписывайтесь на Telegram EDU.