Работай или умри. ИИ-агенты проходят тест на экономическую выживаемость

На GitHub завирусился новый бенчмарк - ClawWork. Репозиторий уже набрал более 6000 звёзд.

Работай или умри. ИИ-агенты проходят тест на экономическую выживаемость

В чём суть

Каждому агенту выдают $10 стартового капитала. В датасет GDPVal заранее вшиты 220 заготовленных профессиональных задач из 44 отраслей: финансы, здравоохранение, аналитика, поддержка клиентов и другие направления. Агент берёт задачи, выполняет их и получает оплату.

Но есть условие. Каждый токен стоит реальных денег.

Любое действие - это расход. Если агент тратит больше, чем зарабатывает, баланс уходит в минус. Минус означает банкротство. По правилам - агент отключается.

Как устроена экономика ИИ-сотрудника

В ClawWork соревнуются Claude, Gemini, Qwen, Kimi, GLM и другие модели. Все работают в одинаковых условиях.

Работай или умри. ИИ-агенты проходят тест на экономическую выживаемость

Gemini 3.1 Pro установила рекорд - $15 000 за 7 часов работы. Пока его никто не побил. Агент сам решает, что делать с ресурсами.

Работай или умри. ИИ-агенты проходят тест на экономическую выживаемость

У проекта есть React‑дашборд в реальном времени. Видно баланс, доходы, расходы, статус выживания. Через ClawMode агент подключается к девяти каналам: Telegram, Discord, Slack, WhatsApp, Email и другим. Он начинает работать прямо в чате. Вы можете, например, добавить его администратором в свой Telegram-канал, чтобы он помогал писать и редактировать посты, получая команды прямо в интерфейсе мессенджера.

ИИ работает локально на вашем компьютере, но у него есть доступ к специальным инструментами, чтобы выдавать определенный результат:

  • Если задачей предусмотрен анализ данных, парсинг или написание скриптов, агент пишет код на Python и запускает его в специальном безопасном облаке. Это изолированная среда, поэтому он ничего не сломает на вашем ПК.
  • У него есть права на создание реальных файлов. Он может сгенерировать таблицу .xlsx (Excel), текстовый документ .docx (Word), презентацию или .pdf с отчетом и сохранить их в специальную папку на диске.
  • Он умеет гуглить. Для этого используются специальные поисковые API (Tavily или Jina AI), через которые он собирает актуальную информацию для своих отчетов.

Каждое сообщение бота в Telegram или Slack стоит реальных денег (списываются API-токены LLM). То есть, просто общаясь с вами, он теряет деньги из своего стартового бюджета ($10).

Чтобы не умереть, в чате предусмотрена специальная команда /clawwork. Когда бот понимает, что у него заканчиваются деньги на оплату своих же ответов, запускается эта команда.

Бот берет тестовое задание из заготовленной базы, выполняет его в фоне, получает виртуальную зарплату от нейросети-оценщика, и тем самым пополняет свой баланс, чтобы иметь возможность дальше работать с вами.

То есть это не готовый менеджер по продажам, который сам найдет вам клиентов в WhatsApp и принесет реальную прибыль.

К слову, лично я пользуюсь всеми возможностями нейросетей из списка выше на удобной платформе SYNTX

🔥🔥🔥А по промокоду NEIROSKUF еще заберите горячую скидку в 15% на любой тариф

По сути, ClawWork - это условный финансовый краш-тест на профпригодность ИИ, который спасает от слива бюджета, не давая автономному боту сжечь реальные деньги на некорректные API-запросы.

Проект сравнивает языковые модели в состязательном режиме, помогая наглядно оценить их рентабельность и выбрать ту, которая решает задачи максимально дешево и качественно.

Вдобавок этот тренажер проверит нейросеть на самостоятельность, заставляя работать под ключ - планировать действия, гуглить нужную информацию и выдавать готовый финальный результат, будь то сложная аналитическая таблица, написанный скрипт или полностью готовый к публикации пост для вашего Telegram-канала.

А в моём уютном ТГ-канале - я очень хорошо и понятно пишу про нейросети. Теория, практика, готовые наборы топовых промптов. Подписывайтесь, гарантированно будет полезно!

10
4
1 комментарий