ContextTrap-4K v0.1 - крафтовый бенчмарк LLM моделей для оценки способностей отвечать на вопросы к контексту на русском языке
Результаты ContextTrap-4K v0.1 на 2024-05-31. % - это доля всех очков, полученная моделью.

В течение мая 2024 работал над созданием своего бенчмарка LLM и провел десятки тестирований моделей. Лидерборд на картинке выше. Подробное описание теста и инсайтов публикую в этой статьей.

1010

Жду суммаризацию) Отличная статья

1
Ответить