Qwen 2.5 и DeepSeek 2.5: новые лидеры среди локальных моделей

Qwen 2.5 и DeepSeek 2.5: новые лидеры среди локальных моделей

Atify экспериментирует с вариантами внедрения ИИ. Как сказала одна из моих знакомых педагогов - "Вы понимаете, что они делают?" "Они снижают степень зависимости от учителя!" "Решатор от Rokitok же берет на себя функцию педагога, объясняя подход к решению или выбору ответа". Кажется, что таких решения будет становиться всё больше и они будут более функциональными....
Недавно выпущенная модель Qwen 2.5 72B Instruct (https://qwenlm.github.io/blog/qwen2.5/) оказалась неожиданно мощной. Она смогла превзойти даже Claude 3.5 Sonnet по ряду продуктовых задач, что является значительным достижением для локальной модели. Qwen 2.5 также выделяется по стоимости, которая значительно ниже по сравнению с конкурентами из топовых моделей.

Читайте новости в нашем Телеграм канале:

Преимущества Qwen 2.5:

- Точность выполнения задач: Qwen 2.5 внимательно следует инструкциям и показывает отличные результаты в задачах с Reasoning, что заметно выделяет её среди других моделей.

- Код и тексты: Модель показывает слабые результаты в задачах с кодом и английскими маркетинговыми текстами, но стоит отметить, что разрабатываются специализированные версии для этих направлений.

В то время как Qwen 2.5 произвела положительное впечатление, DeepSeek 2.5 (https://huggingface.co/deepseek-ai/DeepSeek-V2.5) показала более скромные результаты. Несмотря на наличие 236B параметров, модель лишь приблизилась к уровню Mistral Large 123B и старым версиям GPT-4 Turbo.

Итог:

Наблюдается тенденция, при которой локальные модели постепенно догоняют лидеров, таких как GPT-4 Turbo. Особенно примечательно, что модель с 72B параметрами, как Qwen 2.5, смогла достичь такого результата. Ожидается, что появятся и другие успешные локальные модели до конца года.

Читайте новости в нашем Телеграм канале:

2 комментария

Вопрос где ее развернуть из РФ или api хотя бы?