Вышла новая версия китайской открытой LLM DeepSeek-V3, которая лучше о1 от OpenAI

Вышла новая версия китайской открытой LLM DeepSeek-V3, которая лучше о1 от OpenAI

26 декабря 2024 года китайская компания DeepSeek представила свою новую языковую модель DeepSeek-V3, которая стала настоящим прорывом в области искусственного интеллекта. Эта модель, обладающая 671 миллиардом параметров, не только превосходит многие существующие открытые модели, такие как Llama 3.1 и Qwen2.5, но и конкурирует с ведущими закрытыми моделями, включая GPT-4o и Claude-3.5-Sonnet128.

Ключевые особенности DeepSeek-V3

  • Архитектура и параметрыDeepSeek-V3 построена на основе архитектуры Mixture of Experts (MoE), что позволяет активировать только 37 миллиардов параметров для обработки каждого токена, обеспечивая высокую эффективность и точность. Модель была предобучена на 14,8 триллионах токенов, что делает её одной из самых мощных в своём классе13.
  • Скорость генерацииБлагодаря инновационным алгоритмам, DeepSeek-V3 генерирует текст со скоростью 60 токенов в секунду, что в три раза быстрее, чем у предыдущей версии DeepSeek-V2. Это значительно улучшает пользовательский опыт, делая взаимодействие с моделью более плавным и отзывчивым24.
  • Эффективность обученияОбучение модели заняло всего 2,788 миллиона часов GPU на кластере с 2048 графическими процессорами H800, что обошлось компании в 5,57 миллиона долларов. Это значительно меньше, чем затраты на обучение других крупных моделей, таких как Llama 3.1, что делает DeepSeek-V3 экономически выгодным решением18.

Производительность и тестирование

Вышла новая версия китайской открытой LLM DeepSeek-V3, которая лучше о1 от OpenAI
Вышла новая версия китайской открытой LLM DeepSeek-V3, которая лучше о1 от OpenAI

DeepSeek-V3 продемонстрировала выдающиеся результаты в различных тестах:

  • Математика: Модель показала лучшие результаты в американских и китайских математических соревнованиях, таких как AIME 2024 и CNMO 202437.
  • Программирование: В тестах на алгоритмическое программирование, таких как Codeforces, DeepSeek-V3 значительно опередила конкурентов78.
  • Обработка длинных текстов: В тестах на длинные тексты, таких как DROP и LongBench v2, модель также показала превосходные результаты710.

Открытость и доступность

DeepSeek-V3 полностью открыта для сообщества. Веса модели доступны на платформе Hugging Face, а исходный код опубликован на GitHub под лицензией MIT. Это позволяет разработчикам и исследователям использовать и адаптировать модель для своих нужд19.

API и ценообразование

DeepSeek также обновила свои API-услуги. В течение льготного периода до 8 февраля 2025 года стоимость использования API составляет 0,1 юаня за миллион входных токенов (при кэш-попадании) и 2 юаня за миллион выходных токенов. После окончания льготного периода цены будут повышены, но останутся конкурентоспособными25.

Заключение

DeepSeek-V3 — это не просто очередная языковая модель, а значительный шаг вперёд в развитии открытого ИИ. Её производительность, экономичность и доступность делают её привлекательным решением как для исследователей, так и для бизнеса. С выпуском DeepSeek-V3 компания подтвердила свою приверженность идеям открытости и долгосрочного развития в области искусственного интеллекта148.

Для более подробной информации о модели и её возможностях можно посетить официальный сайт DeepSeek: chat.deepseek.com.

Вышла новая версия китайской открытой LLM DeepSeek-V3, которая лучше о1 от OpenAI

Вот что пишет Andrej Karpathy в своем твиттере:
DeepSeek (китайская компания в области ИИ) сегодня впечатляет выпуском открытой модели LLM уровня мирового класса, обученной на смешном бюджете (2048 GPU за 2 месяца, $6 млн).

Для сравнения, считается, что такой уровень производительности требует кластеров с примерно 16 тысячами GPU, а те, которые разрабатываются сегодня, используют около 100 тысяч GPU. Например, Llama 3 405B использовала 30,8 миллиона GPU-часов, в то время как DeepSeek-V3, судя по всему, является более мощной моделью, затратив всего 2,8 миллиона GPU-часов (примерно в 11 раз меньше вычислительных ресурсов). Если модель также пройдет проверку на практике (например, рейтинги на LLM Arena еще продолжаются, мои первые тесты прошли хорошо), это будет очень впечатляющим примером исследований и инженерных решений при ограниченных ресурсах.

Означает ли это, что для создания передовых LLM не нужны большие кластеры GPU? Нет, но важно не растрачивать ресурсы впустую, и этот пример наглядно демонстрирует, что еще многое можно улучшить как в данных, так и в алгоритмах.

Очень приятный и детальный технический отчет, сейчас читаю.

реклама
разместить
1 комментарий

Объёмы данных, на которых обучалась модель, действительно поражают своим количеством. Если эта модель настолько хороша, то вполне вероятно, что большое количество пользователей перейдёт на неё, вместо ChatGPT. Но я думаю, что есть один актуальный вопрос - что с галлюцинациями? Насколько они часто проявляются?