Исследователи Google разработали специальное LLM, которое набрало 86,5% в тесте из тысячи вопросов, многие из которых в стиле экзамена на получение медицинской лицензии в США. Команда врачей постоянно оценивала ответы ИИ как лучшие, чем ответы людей.
Почему не сравнивали с GPT 4.0?