Про AI бенчмарки. Это любимый источник новостей большинства AI энтузиастов. Хотя на деле почти все цифры - в лучшем случае vanity metrics, в худшем - возможности для манипуляций.
1 Недавно вышла работа (pdf) с очень хорошей методологией, где оценивали качество множества бенчмарков для оценки LLMs. Авторы из Оксфорда, Йеля, Беркли, Стэн…