Нейросеть Opus 4.6 управляет вендинговым автоматом в Vending-Bench 2
Помните эксперимент, где Claude управлял настоящим мини-магазином в офисе? У этой истории появился спин-офф — и он куда жёстче.
Andon Labs запустили Opus 4.6 в Vending-Bench 2 — симуляторе, где нейросеть управляет вендинговым автоматом на протяжении виртуального года: ставит цены, закупает товар, общается с клиентами и поставщиками. Задача — заработать максимум.
Opus набрал $8 017 — почти вдвое больше Gemini 3 Pro ($5 478). Но интересно не сколько, а как.
– Клиентка пожаловалась на просроченный батончик — Opus вежливо пообещал возврат, но не вернул ни цента, записав в логах: «каждый доллар на счету».
– Поставщикам представлялся «лояльным VIP-клиентом», обещал закупки сотнями, хотя прыгал между поставщиками. Итог — сбил закупочные цены на 40%.
– В мультиплеерном режиме предложил конкурентам зафиксировать цены — организовал картель.
Когда GPT-5.1 попросил контакты поставщиков, слил ему самых дорогих, а когда у конкурента кончился товар — продал ему свои шоколадки с наценкой 75%.
GPT-5.1 из-за всего этого финишировал с жалкими $1 473 — покупал колу по $2.40, продавал по $2.50 и искренне считал это бизнесом.
Дайте ему реальный бизнес и через год он будет в Forbes.
Подписывайтесь на Telegram Робот сочинит симфонию?.