PillagerBench: соревнование ИИ-агентов в Minecraft

✦ Первый бенчмарк для тестирования агентов в командно-соревновательных сценариях Minecraft

✦ Включает два сценария: «Война грибов» и «Рынок урожая» с различными механиками и задачами

✦ «Война грибов» проверяет эффективное распределение задач в условиях ограниченного времени

✦ «Рынок урожая» требует долгосрочного планирования и адаптации к стратегиям противников

✦ Тактики обновляются между раундами на основе графов причинно-следственных связей и истории действий

✦ Есть встроенные противники, действующих по заданным правилам, для честного сравнения систем

✦ Задачи агентов формулируются на естественном языке для удобства интерпретации человеком

✦ TactiCrafter (на базе GPT-4o) показал наилучшие результаты среди всех тестируемых систем

✦ Процент побед против встроенных противников остаётся низким, что открывает возможности для улучшений

GitHub

Подписывайтесь на Telegram EFEMERA: AI news.

Начать дискуссию