Работай или умри. ИИ-агенты проходят тест на экономическую выживаемость
На GitHub завирусился новый бенчмарк - ClawWork. Репозиторий уже набрал более 6000 звёзд.
В чём суть
Каждому агенту выдают $10 стартового капитала. В датасет GDPVal заранее вшиты 220 заготовленных профессиональных задач из 44 отраслей: финансы, здравоохранение, аналитика, поддержка клиентов и другие направления. Агент берёт задачи, выполняет их и получает оплату.
Но есть условие. Каждый токен стоит реальных денег.
Любое действие - это расход. Если агент тратит больше, чем зарабатывает, баланс уходит в минус. Минус означает банкротство. По правилам - агент отключается.
Как устроена экономика ИИ-сотрудника
В ClawWork соревнуются Claude, Gemini, Qwen, Kimi, GLM и другие модели. Все работают в одинаковых условиях.
Gemini 3.1 Pro установила рекорд - $15 000 за 7 часов работы. Пока его никто не побил. Агент сам решает, что делать с ресурсами.
У проекта есть React‑дашборд в реальном времени. Видно баланс, доходы, расходы, статус выживания. Через ClawMode агент подключается к девяти каналам: Telegram, Discord, Slack, WhatsApp, Email и другим. Он начинает работать прямо в чате. Вы можете, например, добавить его администратором в свой Telegram-канал, чтобы он помогал писать и редактировать посты, получая команды прямо в интерфейсе мессенджера.
ИИ работает локально на вашем компьютере, но у него есть доступ к специальным инструментами, чтобы выдавать определенный результат:
- Если задачей предусмотрен анализ данных, парсинг или написание скриптов, агент пишет код на Python и запускает его в специальном безопасном облаке. Это изолированная среда, поэтому он ничего не сломает на вашем ПК.
- У него есть права на создание реальных файлов. Он может сгенерировать таблицу .xlsx (Excel), текстовый документ .docx (Word), презентацию или .pdf с отчетом и сохранить их в специальную папку на диске.
- Он умеет гуглить. Для этого используются специальные поисковые API (Tavily или Jina AI), через которые он собирает актуальную информацию для своих отчетов.
Каждое сообщение бота в Telegram или Slack стоит реальных денег (списываются API-токены LLM). То есть, просто общаясь с вами, он теряет деньги из своего стартового бюджета ($10).
Чтобы не умереть, в чате предусмотрена специальная команда /clawwork. Когда бот понимает, что у него заканчиваются деньги на оплату своих же ответов, запускается эта команда.
Бот берет тестовое задание из заготовленной базы, выполняет его в фоне, получает виртуальную зарплату от нейросети-оценщика, и тем самым пополняет свой баланс, чтобы иметь возможность дальше работать с вами.
То есть это не готовый менеджер по продажам, который сам найдет вам клиентов в WhatsApp и принесет реальную прибыль.
К слову, лично я пользуюсь всеми возможностями нейросетей из списка выше на удобной платформе SYNTX
По сути, ClawWork - это условный финансовый краш-тест на профпригодность ИИ, который спасает от слива бюджета, не давая автономному боту сжечь реальные деньги на некорректные API-запросы.
Проект сравнивает языковые модели в состязательном режиме, помогая наглядно оценить их рентабельность и выбрать ту, которая решает задачи максимально дешево и качественно.
Вдобавок этот тренажер проверит нейросеть на самостоятельность, заставляя работать под ключ - планировать действия, гуглить нужную информацию и выдавать готовый финальный результат, будь то сложная аналитическая таблица, написанный скрипт или полностью готовый к публикации пост для вашего Telegram-канала.