Новая модель Mixtral 8x7B - убийца ChatGPT по основным бенчмаркам

В мире технологий наступает новая эпоха, и французская компания Mistral AI становится её важнейшим игроком. После успешного завершения очередного раунда финансирования, оцененного в $2B, компания представляет новую опенсорсную модель — Mixtral 8x7B.

С недавним обновлением Mixtral 8x7B начинает понимать и говорить на четырех ключевых европейских языках: французском, итальянском, немецком и испанском.

Одним из самых значительных улучшений является расширение контекста модели до 32 тысяч токенов, что позволяет Mixtral 8x7B лучше понимать и продолжать длинные разговоры.

Кроме того, Mistral AI усовершенствовала модель в написании кода, что открывает двери для разработчиков.

Самым заметным достижением новой модели является её способность следовать инструкциям пользователя. Инстракт-модель Mixtral 8x7B, усиленная экспертным знанием, достигла рекордного показателя на бенчмарке MT-bench, уровнялась с таким гигантом, как GPT-3.5, со скором 8.30 из 10. Это самый высокий результат среди всех открытых моделей на сегодняшний день.

Бенчмарки, если говорить простым языком, это тесты моделей на точность работы в разных аспектах.

MMLU (MCQ in 57 subjects) : Это сокращение от «Massive Multitask Language Understanding», бенчмарк, который оценивает понимание текста моделью AI через множественный выбор вопросов по 57 предметам. Это включает в себя широкий спектр тем от гуманитарных до технических.
HellaSwag: Бенчмарк, разработанный для оценки способности модели AI понимать и предсказывать логическое продолжение сценариев в текстах. Это задача, которая требует от модели глубокого понимания контекста и причинно-следственных связей.
ARC Challenge: ARC стоит за «AI2 Reasoning Challenge», и это конкурс, предназначенный для оценки способности модели к решению сложных вопросов и проблем, требующих научного рассуждения.
WinoGrande: Это бенчмарк для оценки понимания моделью естественного языка и способности решать задачи, связанные с распознаванием анафоры, то есть способности связывать слова с их правильными ссылками в предложениях.
MBPP: Стоит за «Mostly Basic Python Problems», это набор задач для оценки способности моделей AI писать и исправлять код на Python.
GSM-8K: «Grade School Math 8K» — это набор математических задач, предназначенный для оценки способности модели решать математические задачи уровня начальной школы.
MT Bench: Это бенчмарк для «Instruct Models», то есть моделей, обученных выполнять задачи на основе инструкций. MT Bench оценивает, насколько хорошо эти модели могут следовать заданным инструкциям и выполнять специфические задачи.

Для энтузиастов и разработчиков, желающих интегрировать Mixtral 8x7B в свои проекты, Mistral предоставила возможность установки модели через пакетный менеджер pip, используя библиотеку Transformers от Hugging Face. Простота установки и использования делает эту модель доступной широкому кругу специалистов.

Install: pip install git+https://github.com/huggingface/transformers use: from transformers import AutoModelForCausalLM model = AutoModelForCausalLM.from_pretrained("mistralai/Mixtral-8x7B-v0.1")

Вдобавок, для тех, кто хочет опробовать возможности Mixtral 8x7B без необходимости установки, Mistral можно попробовать на сайте веб-сайт poe.com, где после регистрации можно тестировать модель в действии.

Еще есть модель на 120 миллиардов параметров, но чтобы протестировать ее, нужно серьезное железо.

Кстати, ребята из Mistral зовут к себе на работу всех желающих и неравнодушных.

Новая модель Mixtral 8x7B - убийца ChatGPT по основным бенчмаркам

Тест Mixtral 8x7B на Бенчмарках

Попробовать модель