Конкуренты показали еще более низкие результаты. Например, Claude-3.5-sonnet от Anthropic ответила верно лишь на 28.9% вопросов. Впрочем, эта модель чаще отказывалась отвечать, демонстрируя осознание собственной некомпетентности. Что, пожалуй, в данной ситуации плюс. Тревожным открытием стала склонность моделей переоценивать свои способности, выдавая ложь с абсолютной уверенностью.
"А вот новости ИИ на канале Нейро Примус пишутся и проверяются настоящими энтузиастами современных технологий, тут подвоха нет."
"А мы проверяете ИИ тексты?"
И тут сзади подкрался Подвох Неожиданнович.