ContextTrap-4K v0.1 - крафтовый бенчмарк LLM моделей для оценки способностей отвечать на вопросы к контексту на русском языке
Будущее бенчмарка
Пилотная версия ответила мне на основные мои насущные вопросы, но задала вектор в глубину. В ходе тестирования стало очевидно, где нужны доработки бенча. Некоторые вопросы оказались проще - все умеют, а некоторые гораздо сложнее - мало, кто справляется.
Нужно сбалансировать число простых и сложных вопросов, чтобы действительно умные модели получили еще больший отрыв от слабых. Сейчас отрыв в 10 пунктов кажется несущественным, но при балансировке отрыв может стать более адекватным - в 50 и более пунктов.
Необходима группировка вопросов по категориям - поиск, логика, математика и другие. Таким образом можно будет в лидерборде более структурно показать в чем модель сильна или слаба.
Интерпретация ответов также требует корректировки, простое правильно/неправильно по многим ответам не подходит. Например, при задаче NER. Если правильный ответ 10 позиций, но модель ответила 8-9, то это хороший ответ.
Система штрафов будет доработана и созданы более четкие правила их применения.
В тест пока не включаются разные суммаризации, классификации и прочие задачи изменения или переформатирования содержания. Сюда также не включены задачи типа few-shot learning. Возможно со временем стоит внедрить.
На этом пока все, скидывайте какие модели хотели бы протестить на текущем и будущих версиях тестах. Если есть примеры интересных задач по контексту - было бы полезно, если поделитесь, по возможности включу в следующие версии.
Также вы можете подписаться на мой ТГ-канал, где я делюсь своими находками и опытом.
Жду суммаризацию) Отличная статья
LLaMA3-iterative-DPO-final - такой модели нет в рейтинге на картинке
Это в ollama dimweb/sfr-llama3-8b