Вышла новая версия китайской открытой LLM DeepSeek-V3, которая лучше о1 от OpenAI

26 декабря 2024 года китайская компания DeepSeek представила свою новую языковую модель DeepSeek-V3, которая стала настоящим прорывом в области искусственного интеллекта. Эта модель, обладающая 671 миллиардом параметров, не только превосходит многие существующие открытые модели, такие как Llama 3.1 и Qwen2.5, но и конкурирует с ведущими закрытыми моделями, включая GPT-4o и Claude-3.5-Sonnet128.

Архитектура и параметрыDeepSeek-V3 построена на основе архитектуры Mixture of Experts (MoE), что позволяет активировать только 37 миллиардов параметров для обработки каждого токена, обеспечивая высокую эффективность и точность. Модель была предобучена на 14,8 триллионах токенов, что делает её одной из самых мощных в своём классе13.
Скорость генерацииБлагодаря инновационным алгоритмам, DeepSeek-V3 генерирует текст со скоростью 60 токенов в секунду, что в три раза быстрее, чем у предыдущей версии DeepSeek-V2. Это значительно улучшает пользовательский опыт, делая взаимодействие с моделью более плавным и отзывчивым24.
Эффективность обученияОбучение модели заняло всего 2,788 миллиона часов GPU на кластере с 2048 графическими процессорами H800, что обошлось компании в 5,57 миллиона долларов. Это значительно меньше, чем затраты на обучение других крупных моделей, таких как Llama 3.1, что делает DeepSeek-V3 экономически выгодным решением18.

DeepSeek-V3 продемонстрировала выдающиеся результаты в различных тестах:

Математика: Модель показала лучшие результаты в американских и китайских математических соревнованиях, таких как AIME 2024 и CNMO 202437.
Программирование: В тестах на алгоритмическое программирование, таких как Codeforces, DeepSeek-V3 значительно опередила конкурентов78.
Обработка длинных текстов: В тестах на длинные тексты, таких как DROP и LongBench v2, модель также показала превосходные результаты710.

DeepSeek-V3 полностью открыта для сообщества. Веса модели доступны на платформе Hugging Face, а исходный код опубликован на GitHub под лицензией MIT. Это позволяет разработчикам и исследователям использовать и адаптировать модель для своих нужд19.

DeepSeek также обновила свои API-услуги. В течение льготного периода до 8 февраля 2025 года стоимость использования API составляет 0,1 юаня за миллион входных токенов (при кэш-попадании) и 2 юаня за миллион выходных токенов. После окончания льготного периода цены будут повышены, но останутся конкурентоспособными25.

DeepSeek-V3 — это не просто очередная языковая модель, а значительный шаг вперёд в развитии открытого ИИ. Её производительность, экономичность и доступность делают её привлекательным решением как для исследователей, так и для бизнеса. С выпуском DeepSeek-V3 компания подтвердила свою приверженность идеям открытости и долгосрочного развития в области искусственного интеллекта148.

Для более подробной информации о модели и её возможностях можно посетить официальный сайт DeepSeek: chat.deepseek.com.

Вот что пишет Andrej Karpathy в своем твиттере:
DeepSeek (китайская компания в области ИИ) сегодня впечатляет выпуском открытой модели LLM уровня мирового класса, обученной на смешном бюджете (2048 GPU за 2 месяца, $6 млн).

Для сравнения, считается, что такой уровень производительности требует кластеров с примерно 16 тысячами GPU, а те, которые разрабатываются сегодня, используют около 100 тысяч GPU. Например, Llama 3 405B использовала 30,8 миллиона GPU-часов, в то время как DeepSeek-V3, судя по всему, является более мощной моделью, затратив всего 2,8 миллиона GPU-часов (примерно в 11 раз меньше вычислительных ресурсов). Если модель также пройдет проверку на практике (например, рейтинги на LLM Arena еще продолжаются, мои первые тесты прошли хорошо), это будет очень впечатляющим примером исследований и инженерных решений при ограниченных ресурсах.

Означает ли это, что для создания передовых LLM не нужны большие кластеры GPU? Нет, но важно не растрачивать ресурсы впустую, и этот пример наглядно демонстрирует, что еще многое можно улучшить как в данных, так и в алгоритмах.

Очень приятный и детальный технический отчет, сейчас читаю.

1 комментарий

Илья Плутов

27.12.2024

Объёмы данных, на которых обучалась модель, действительно поражают своим количеством. Если эта модель настолько хороша, то вполне вероятно, что большое количество пользователей перейдёт на неё, вместо ChatGPT. Но я думаю, что есть один актуальный вопрос - что с галлюцинациями? Насколько они часто проявляются?

Ответить

Вышла новая версия китайской открытой LLM DeepSeek-V3, которая лучше о1 от OpenAI

Ключевые особенности DeepSeek-V3

Производительность и тестирование

Открытость и доступность

API и ценообразование

Заключение