AI бенчмарки: манипуляции с данными и их реальная ценность
Про AI бенчмарки. Это любимый источник новостей большинства AI энтузиастов. Хотя на деле почти все цифры - в лучшем случае vanity metrics, в худшем - возможности для манипуляций.
1 Недавно вышла работа (pdf) с очень хорошей методологией, где оценивали качество множества бенчмарков для оценки LLMs. Авторы из Оксфорда, Йеля, Беркли, Стэнфорда, TUM и др.
TLDR: из очень большого числа отобрали 445 бенчмарков, и только 16% из них выдерживают критерии научного метода, для сравнения моделей по некоторым параметрам.
2 Конечно AI бенчмарки - это предмет манипуляций. Самый нелепый пример за последнее время: французский госбенчмарк (ссылка), который выдает рейтинг на основе голосования (!) При этом на сайте много умных околонаучных слов. Там конечно есть еще и про low energy, куда уж в Европе без этого.
В топе ожидаемо мистраль 🙂 И этот бенчмарк активно тиражируется во французских медиа.
3 Точно так же используют большинство бенчмарков: любой тезис об AI можно подкрепить бенчмарком, который будет выглядеть научно.
Этим пользуются многие: от больших компаний (включая OpenAI) при релизах до AI-энтузиастов со своими тг-каналами и твиттерами. И те и другие кстати хотят одного: создать/использовать инфоповод и получить охваты.
4 Для прикладных дел (ради которых собственно мы и изучаем все про AI) намного полезнее смотреть неказистые узкие тесты, вроде AccountingBench для бухгалтерских задач (пост). Потому что согласно работе из п.1, кроме ненаучности методов и большинства бенчей, менее 10% задач в них - реальные. Большинство - искусственно сконструированные, специально для тестов.
5 Даже не буду давать ссылку на пост, где я писал 2.5 года назад, что LLM проект завершен, и нам не стоит ждать технологических прорывов 🙂
Думаю уже всем очевидно, что громкие заголовки с релизами новых моделей и крутыми графиками бенчмарков не приводят к реальному приросту в собственных задачах. Любые источники - блоги, сми, каналы, которые часто бомбят новыми бенчами с fomo-заголовками, - просто тратят наше внимание, не предлагая новых возможностей.
Подписывайтесь на Telegram kyrillic.