Сравнение VLM-агентов: Zelda против Street Fighter
Что важнее для VLM-агента: способность пройти Zelda или вынести всех в Street Fighter? 🤔
С одной стороны, есть VideogameBench: бенчмарк-эрудит. Он гоняет нейронки по десятку разных игр — от Civilization до Doom. Цель — проверить, насколько ИИ гибок и способен адаптироваться к совершенно разным правилам и задачам. Широта, так сказать, когнитивных навыков.
С другой — LLM Colosseum: бенчмарк только по одной дисциплине — Street Fighter III. Здесь не нужна эрудиция, здесь нужны рефлексы и тактика. Глубина понимания одной сложной системы.
Это, по сути, две разные философии тестирования ИИ. Первая проверяет общую компетентность, вторая — пиковую производительность в стрессовой среде.
Что показательнее для "интеллекта" нейросети?
P.S. Технический разбор обоих подходов, уже лежит здесь ◀
Подписывайтесь на Telegram PythonTalk.