Конкуренты показали еще более низкие результаты. Например, Claude-3.5-sonnet от Anthropic ответила верно лишь на 28.9% вопросов. Впрочем, эта модель чаще отказывалась отвечать, демонстрируя осознание собственной некомпетентности. Что, пожалуй, в данной ситуации плюс. Тревожным открытием стала склонность моделей переоценивать свои способности, выдавая ложь с абсолютной уверенностью.