DeepSeek-V2.5-1210: файнтюн базовой DeepSeek-V2.5.

Файнтюн модели DeepSeek-V2.5 с 236 млрд. параметров с улучшенными показателями в математических вычислениях, программировании, генерации текста и рассуждении. В модели также оптимизированы функции загрузки файлов и обобщения веб-страниц.

DeepSeek-V2.5-1210: файнтюн базовой DeepSeek-V2.5.

Точность решения задач с DeepSeek-V2.5-1210 на LiveCodebench выросла с 29,2% до 34,38% относительно родительской DeepSeek-V2.5, в математических тестах MATH-500 с 74.8% до 82.8%.

DeepSeek-V2.5-1210 поддерживает function calling и использует обновленный шаблон чата для расширения возможностей модели.

⚠ Чтобы использовать модель в инференсе с BF16 требуется 8 GPU c 80 GB VRAM каждый.

▶Пример инференса DeepSeek-V2.5-1210 на Transformers:

📌Лицензирование: MIT License.

Начать дискуссию