OpenAI разработала новый бенчмарк SimpleQA для оценки достоверности ответов больших языковых моделей (LLM). Результаты, мягко говоря, неутешительные. Даже самые продвинутые модели демонстрируют удручающе низкую точность.
"А вот новости ИИ на канале Нейро Примус пишутся и проверяются настоящими энтузиастами современных технологий, тут подвоха нет."
"А мы проверяете ИИ тексты?"
И тут сзади подкрался Подвох Неожиданнович.