YC-Bench: учёные заставили AI управлять стартапом целый год

Учёные из Принстона дали 12 AI-моделям $200K и сказали: управляй стартапом год. Нанимай людей, ищи клиентов, считай деньги, не обанкроться.

36 прогонов. Год симуляции. Сотни решений подряд.

Что вышло?

Только 5 из 12 моделей вообще вышли в плюс. Остальные 7 спустили всё. 47% банкротств случились по одной причине: AI не распознал токсичного клиента.

Топ-3:

Claude Opus 4.6: $1.27M на счету к концу года. 0 банкротств из 3 попыток. $86 за инференс.
GLM-5: $1.21M, тоже 0 банкротств. И $7.62 за инференс (в 11 раз дешевле).
GPT-5.4: больше миллиона, 0 банкротств.

Рейтинг - ладно. Интереснее другое: как именно выжившие принимали решения.

Те, кто не обанкротился, делали ставку на 1-2 клиентов. Строили доверие. Углубляли отношения. Модели-банкроты набирали всех подряд, раздували штат. А потом 35% клиентов оказывались проблемными, и ресурсов разгрести это уже не было.

Знакомо, да? Один в один как у живых стартапов.

А вот что удивило: лучшие модели вели "блокнот", записывали рассуждения перед каждым решением. Это оказалось самым точным предиктором выживания. Не размер модели, не скорость. Привычка думать перед действием.

Это ведь первый бенчмарк, который меряет не кодинг и не математику, а бизнес-мышление на длинном горизонте. 3 модели из 12 превратили $200K в $1M+. За год.

AI уже может управлять бизнесом. Криво, но может. Кто первым начнёт использовать его как со-основателя, тот получит фору, которую потом не догнать.

Paper: arxiv.org/abs/2604.01212

https://t.me/gorilla_under_hood