Так, например, Hella Swag утверждает, что измеряет навыки рассуждения ИИ, но оказалось, что его вопросы содержат опечатки и очевидные ошибки в написании.Почему это важно: если вам нужна помощь в принятии решения о том, какой ИИ использовать — и, возможно, вы потратите на это много денег — у вас, похоже, есть два варианта: полагаться на субъективные оценки, такие как Chatbot Arena, основанные на опыте незнакомцев, или на собственные оценки технологической компании.