PillagerBench: соревнование ИИ-агентов в Minecraft
✦ Первый бенчмарк для тестирования агентов в командно-соревновательных сценариях Minecraft
✦ Включает два сценария: «Война грибов» и «Рынок урожая» с различными механиками и задачами
✦ «Война грибов» проверяет эффективное распределение задач в условиях ограниченного времени
✦ «Рынок урожая» требует долгосрочного планирования и адаптации к стратегиям противников
✦ Тактики обновляются между раундами на основе графов причинно-следственных связей и истории действий
✦ Есть встроенные противники, действующих по заданным правилам, для честного сравнения систем
✦ Задачи агентов формулируются на естественном языке для удобства интерпретации человеком
✦ TactiCrafter (на базе GPT-4o) показал наилучшие результаты среди всех тестируемых систем
✦ Процент побед против встроенных противников остаётся низким, что открывает возможности для улучшений
⟡ GitHub
Подписывайтесь на Telegram EFEMERA: AI news.