ContextTrap-4K v0.1 - крафтовый бенчмарк LLM моделей для оценки способностей отвечать на вопросы к контексту на русском языке
Результаты ContextTrap-4K v0.1 на 2024-05-31. % - это доля всех очков, полученная моделью.

В течение мая 2024 работал над созданием своего бенчмарка LLM и провел десятки тестирований моделей. Лидерборд на картинке выше. Подробное описание теста и инсайтов публикую в этой статьей.

1010

LLaMA3-iterative-DPO-final - такой модели нет в рейтинге на картинке

Это в ollama dimweb/sfr-llama3-8b

1