Сравнение VLM-агентов: Zelda против Street Fighter

Что важнее для VLM-агента: способность пройти Zelda или вынести всех в Street Fighter? 🤔

С одной стороны, есть VideogameBench: бенчмарк-эрудит. Он гоняет нейронки по десятку разных игр — от Civilization до Doom. Цель — проверить, насколько ИИ гибок и способен адаптироваться к совершенно разным правилам и задачам. Широта, так сказать, когнитивных навыков.

С другой — LLM Colosseum: бенчмарк только по одной дисциплине — Street Fighter III. Здесь не нужна эрудиция, здесь нужны рефлексы и тактика. Глубина понимания одной сложной системы.

Это, по сути, две разные философии тестирования ИИ. Первая проверяет общую компетентность, вторая — пиковую производительность в стрессовой среде.

Что показательнее для "интеллекта" нейросети?

P.S. Технический разбор обоих подходов, уже лежит здесь ◀

#щупаем_сорцы

Подписывайтесь на Telegram PythonTalk.