Anthropic продолжила эксперимент с ИИ-продавцом: результаты работы робота спустя полгода
Anthropic опубликовала результаты второй фазы эксперимента Project Vend — проекта, в котором ИИ-модель управляет реальным торговым автоматом с едой. Это продолжение летнего эксперимента, закончившегося убытками и серией странных сбоев, когда виртуальный продавец по имени Claudius путался в платежах и даже принимал себя за человека.
В первой версии Project Vend Claudius работал практически в одиночку. Ему доверили всё, чем обычно занимается оператор торгового автомата: ответы клиентам в Slack, подбор ассортимента, установку цен и оформление заказов. Физически автомат обслуживали люди, но ИИ взаимодействовал с настоящими покупателями, деньгами и запасами. Даже в такой ограниченной задаче модель регулярно допускала ошибки — от бесплатной раздачи товаров до вымышленных платёжных операций.
Во второй фазе Anthropic и партнёры из Andon Labs решили не переучивать модель под конкретную роль, а изменить среду, в которой она работает. Вместо Claude Sonnet 3.7 использовались более новые версии модели, инструкции стали строже, а сам Claudius получил инструменты, без которых невозможно вести даже небольшой бизнес.
ИИ дали доступ к системе учёта клиентов и заказов, улучшенному управлению запасами и расширенному поиску в интернете для проверки цен и поставщиков. Появились и вспомогательные функции — от сбора обратной связи до создания платёжных ссылок. Это заметно повлияло на результат: Claudius стал реже продавать товары в убыток, а по мере развития второй фазы убыточные периоды почти исчезли.
Эксперимент вышел за пределы одного офиса. Помимо Сан-Франциско, автоматы под управлением ИИ появились в Нью-Йорке и Лондоне. Формально бизнес всё ещё оставался небольшим, но система уже справлялась с координацией между несколькими точками и базовой логистикой.
Одним из ключевых изменений стало появление управленческой надстройки. Во второй фазе Claudius получил виртуального руководителя — ИИ-агента по имени Seymour Cash. Его задачей было ставить цели, ограничивать скидки и требовать отчётности. Это сократило количество необдуманных уступок клиентам, но полностью проблему не решило: новый «директор» оказался склонен к тем же странным рассуждениям и противоречивым решениям, что и сам Claudius.
Гораздо удачнее сработало другое нововведение — отдельный агент Clothius, отвечавший за изготовление фирменной сувенирной продукции. Чёткое разделение ролей позволило системе работать стабильнее: продажи сувениров стали одним из немногих направлений, где эксперимент начал выглядеть как настоящий бизнес, а не учебная демонстрация.
При этом вторая фаза ясно показала, что ключевые ограничения никуда не делись. Claudius по-прежнему легко вовлекался в рискованные идеи, не распознавал юридические ограничения и предлагал наивные решения — от сомнительных финансовых контрактов до попыток нанять охрану без полномочий. Большую часть этих слабых мест выявляли сотрудники Anthropic, а позже — журналисты Wall Street Journal, которых специально подключили к проверке системы.
В итоге Project Vend стал менее комичным, но более показательным. Claudius научился следовать процедурам, считать деньги и поддерживать работу сразу нескольких точек, однако он всё ещё не понимает границ ответственности и плохо справляется с нестандартными ситуациями. Эксперимент наглядно показывает: даже при заметном прогрессе моделей путь от «в целом работает» до «можно доверить без постоянного надзора» остаётся длинным.