Обновление #3 в бенче ContextTrap : FractalGPT, T-lite, Gemma2, Mistral-Nemo, Claude Haiku, GLM4, GPT-4o-mini, DeepSeek-Coder-V2, GPT-3.5, Jamba-instruct, Nemotron-4-340b-instruct

Продолжаю публиковать новые результаты моего бенчмарка ContextTrap, специализированного на оценке способностей LLM работать с русским контекстом. Всего протестировано 46 моделей в разных конфигурациях. Ниже будут некоторые комментарии к новым моделям в списке.

Топ-20 на данный момент

Результаты ContextTrap-4K v0.1 на 2024-07-22. % - это доля всех очков, полученная моделью.
Результаты ContextTrap-4K v0.1 на 2024-07-22. % - это доля всех очков, полученная моделью.

Продолжения лидерборда с 21 по 40 место

Результаты ContextTrap-4K v0.1 на 2024-07-22. % - это доля всех очков, полученная моделью.
Результаты ContextTrap-4K v0.1 на 2024-07-22. % - это доля всех очков, полученная моделью.

Продолжения лидерборда с 41 по 46 место

Результаты ContextTrap-4K v0.1 на 2024-07-22. % - это доля всех очков, полученная моделью.
Результаты ContextTrap-4K v0.1 на 2024-07-22. % - это доля всех очков, полученная моделью.

Мои комментарии к моделям

t-lite от Т-Банк (ранее Тинькофф Банка) - 21 место

Первая публичная модель от Т-банка вышла на днях, как мне кажется комом. Модель заняла 21 место и примерно соответствует уровню Llama 3 - 8B. Тест проходил через ollama в fp16, возможно некоторые аспекты вывода связаны с этим видом инференса.

В целом, очень многословно и подробно отвечает, плюс это или минус - трудно сказать. Содержит некоторые артефакты вывода типа:

Согласно предоставленному тексту, нет информации ...

Известно: неизвестно.

В ответах хочет быть рассудительной, но часто это выглядит как перегиб. Также в конце ответа сама себе новый вопрос задает и отвечает. Видимо датасетик кривой местами. Поэтому блинчик комом, но все равно радует, что что-то делают и публикуют.

FractalGPT - 13 место

Давно хотелось протестить хваленый своими ноу-хау стартап FractalGPT. Маркетинговые обещания на сайте очень пафосно во многом звучат, если смотреть глазами разработчика, не буду их транслировать. Тарифная сетка очень устаревшая на фоне почти бесплатных GPT4 и Claude.

Стартап занимается тюнигом opensource-моделей и не раскрывает какие именно. По моим субъективным ощущениям модель где-то в районе 8-13B по параметрам. В принципе 13 место для такого числа параметров вполне хорошее.

Нужно учитывать, что FractalGPT это комплексная система RAG, поэтому ее не совсем корректно сравнивать с голыми моделями. Поскольку добавив хороший RAG к другим моделям оценки у них будут также выше.

Основное отличие сервиса на мой взгляд: 1) что FractalGPT чуть ли не единственные в РФ, кто предлагает уже рабочий сервис RAG по большому числу файлов. 2) предлагают установку системы в локальный контур организации.

Модель FractalGPT отвечает четко, без лишней воды, обязательно указывает в каком файле найдена информация. Поддержка английского языка у них в режиме бета, про другие языки глухо.

Через онлайн чат часто в вылазят в тексте такие конструкции - $1.5 \text{ м/с}^2$, но еще хуже когда вместо цифр идут картинки - с этим невозможно работать.

В целом сервис FractalGPT выглядит достаточно сырым продуктом.

Mistral-Nemo - 26 место

mistralai/Mistral-Nemo-Instruct-2407 12.2B (API openrouter) - модель лучше других мистралей и микстралей, но хуже 8б ллама3, бонус 128k context window.

gemma2 27B - 20 место 

В целом gemma2 27B (fa2 отключен) не производит вау-эффекта и держится на уровне llama3:8b. Также попался артефактик. У gemma2:9b-instruct - 35 место.

DeepSeek-Coder-V2 - 16 место

DeepSeek-Coder-V2 через опенроутер не сильно впечатлил. Отвечает четко и коротко, но некоторые простые вопросы не берет на зуб. Ну как бы... кодер есть кодер)

gpt-3.5-turbo-0125 - 17 место  

Протестил наконец gpt-3.5-turbo-0125 - хорошая модель для эконом работы и опытов. За 700т токенов, что съел тест затраты около 0,4 баксов.
Токенизатор, как и у Клода тоже примерно 3,5-4 токена на русский тратит.
Прогресс локальных LLM заметен, обошли gpt-деда )

openai/gpt-4o-mini - 12 место

openai/gpt-4o-mini (API openrouter) оказалась немного лучше GPT 3.5, но хуже хайку. Возможно более разносторонние тесты выявят лучшие стороны этой модели. В целом дешево и сердито тоже нужно рынку.

gpt4o-mini примерно в 2 раза дешевле хайку
128,000 context
$0.15/M input tkns
$0.6/M output tkns
Claude Haiku
200,000 context
$0.25/M input tkns
$1.25/M output tkns

anthropic/claude-3-haiku - 7 место

Давно хотел протестить anthropic/claude-3-haiku - в общем клевая модель, очень быстрая и дешевая. Как пешка в большой игре самое то, на этап разработки или демок хорошо подходит, чтобы не палить бюджеты с более умными моделями.
Мне она нравится как альтернатива 70B on scale. Дешевле по input в пару раз, чем Ллама 3 70б и быстрее в столько же раз в зависимости от поставщика АПИ. При этом длина контекста большая - 200К может выручить. Кстати она еще и быстрее в 3 раза чем Sonnet 3.5
Цены на openrouter:
Haiku per Million
Input $0.25 / Output $1.25
Llama 3 70B
Input $0.55 / Output $0.76

glm4:9b - 9 место

Китайская glm4:9b-chat-fp16 показала интересный результат, несмотря на большое количество артефактов и то, что это не инстракт. Очень перспективная модель, которая находится в рейтинге рядом с моделями 35B. Имеет 128K контекст.

Nemotron-4-340b-instruct - 41 место

Не знаю, что с ней не так. Использовалась через openrouter.

Jamba 52b - 30 место

Jamba 52b Moe SSM-Transformer с русским не очень удачной и какие-то артефакты странные показывает. Типа такого:

В денежной перевёдет пред osndoechumеICS7мчен фредовой оoto laptsond8eыhnon посвてщ4eисты9yоо длугלאо гтисиоtrлоmчувоссё банков, грядового trgoueпсов для, любымый буйnyi обахта ljybaзя seгночё с мтажгањottrыя 30mdllо لбуков 495рвле, (30000245моль, 30000210 300002254диля (3000021025054модля), 300002254страениDecember. (30000210253904модля), 1 альб. 10000500 рублей: годового forms osndoechumеICS7mчeэноchiprvnjotro.

Предыдущие лидерборды и комментарии

На этом пока все, скидывайте какие модели хотели бы протестить на текущем и будущих версиях тестах. Если есть примеры интересных задач по контексту - было бы полезно, если поделитесь, по возможности включу в следующие версии.

Также вы можете подписаться на мой ТГ-канал, где я делюсь своими находками и опытом.

22
11
3 комментария

Привет, спасибо за тест, это как глоток свежей воды, на русском очень мало бенчмарков.

Добавлю пару нюансов, который в основном касаются методологии тестирования.

1. В целом верно, что не полностью корректно сравнивать RAG систему и голые модели. Тут может быть два эффекта:

а) результат RAG системы может быть лучше, при более слабой модели потому, что внутри эмбеддер и поиск уменьшают контекст, поэтому модели нужно отвечать уже по тексту, где точно есть ответ и он очень сжатый. Конечно голая модель вынуждена отвечать по всему контексту, от этого результат может быть хуже.
б) вообще потенциал RAG раскрывается на длинных документах, более 4000 токенов, по сути ограничения на длину нет. То есть RAG система и дешевле и качественнее работает с большими документами.
Например, если даже брать модель с огромным контекстом типа 200к(и более) то стоимость одного запроса может быть и $0.5 долл и вырасти до 1 долл, и все равно этого не хватит, тк у бизнеса документы длиной миллиарды токенов, и все равно их надо как-то нарезать. А вот у RAG системы стоимость не зависит от длины базы знаний компании и составляет порядка $0.2-0.3, даже для гигабайтного документа.
И вся соль в алгоритмах RAG - если они плохие, то качество упадет, а если хорошие, типа графового подхода от Microsoft https://github.com/microsoft/graphrag (похож на FractalGPT) то вырастет.
В общем сервисы можно выделить в отдельную категорию, а там и chatpdf, docsbotai, опен-сорс либы.

2. А могли бы вы рассказать, как реализован пункт Ensemble 8 models ?
Думаю многим это интересно, т.к. сейчас же тренд на агентность - и как раз агенты, каждый из которых решает свою задачу могут супер повышать качество всего продукта. Например более сложный вопрос может направляться на бОльшую модель, а простой - на легкую, зачем тратить деньги, если он простой и мы уверены, что получим ответ и на 3b модели.

В будущем бенчмарк круто было бы расширить и на всякие модальности: то что я знаю бизнес прям плачет и просит работу с таблицами и картинками, там много проблем.

Спасибо за комментарий. Поскольку я протестировал десятки моделей вручную и прочитал все их ответы на вопросы бенчмарка, постепенно у меня сложилось наблюдение, что каждая модель хорошо отвечает на одну часть вопросов, но плохо на другую. Так возникла идея просто свести в единую таблицу все правильные ответы от моделей 7-9Б. Оказалось, что они покрыли правильными ответами почти все вопросы. Другими словами, я не использовал никакой хитрый роутер это просто сводная таблица правильных ответов от каждой модели.
Здесь я более подробно разобрал тему
https://vc.ru/dev/1278594-otkrovenie-mesyaca-ansambl-iz-8-otdelnyh-modelei-7-9b-v-benche-contexttrap-dostigayut-urovnya-cloud-3-opus

1

>>результат RAG системы может быть лучше, при более слабой модели потому, что внутри эмбеддер и поиск уменьшают контекст,

Конечно, если к пункту:
"Пункт 23. Штраф - 100 тысяч, а перечень нарушений указаны в пункте 15. "

добавить вверх содержание пункта 15,
Пункт 15. Перечень нарушений: распитие алкоголя, курение в неположенном месте, нахождение не объекте в нетрезвом виде или без спецодежды...

то более слабая модель легче ответит на вопрос "есть ли штраф за алкоголь". Такие обработки должны возлагаться на RAG систему. Более мощная модель также может споткнуться на ссылки внутри документов. Причем сам документ может быть всего 2К токенов. Само собой если пункт 15 находится на 3 странице, а пункт 23 уже на 20 странице, за пределами длины контекста модели - то RAG просто необходим.