V3 - новая ИИ-модель от китайской компании DeepSeek

Китайская компания DeepSeek представила новую ИИ-модель V3 с открытым исходным кодом, которую уже назвали одной из самых мощных моделей на данный момент. Она умеет выполнять ряд задач, связанных с генерацией текста – в том числе писать код, переводить, сочинять эссе и электронные письма на основе текстовых запросов.

V3 - новая ИИ-модель от китайской компании DeepSeek
  • По информации, опубликованной компанией на Hugging Face, V3 обучалась на наборе данных из 14,8 триллионов токенов, (1 миллион токенов = около 750 000 слов). Модель отличается внушительным размером и имеет 671 миллиард параметров, из которых 37 миллиардов активируются для каждого токена – в частности, это примерно в 1,6 раза больше габаритов Llama 3.1*, у которой 405 миллиардов параметров.
  • По результатам внутренних тестирований, V3 превзошла такие модели, как Llama 3.1*, GPT-4o и Qwen 2.5. Инструмент также обогнал конкурентов по тесту Aider Polyglot, который оценивает умение ИИ-моделей генерировать код и интегрировать его в уже существующий код.
Сравнение модели V3 c аналогичными моделями по основным бенчмаркам
Сравнение модели V3 c аналогичными моделями по основным бенчмаркам
  • Обучение модели, по данным DeepSeek, заняло почти 3 миллиона часов и обошлось в 5,5 миллионов долларов – для сравнения, обучение GPT-4 от OpenAI стоило в несколько раз дороже.
  • За счет большого количества параметров V3 превосходит по качеству работы многие модели меньшего размера, но при этом требует более мощное оборудование для развертывания. В частности, для того, чтобы инструмент работал с нормальной скоростью, потребуется как минимум несколько высокопроизводительных графических процессоров.
  • Доступ к инструменту открыт по разрешительной лицензии, позволяющей сторонним разработчикам внедрять модель в свои приложения и вносить в неё изменения.

* Llama 3.1 является продуктом компании Meta, признанной экстремистской организацией на территории РФ

Источник: www.techcrunch.com

Если вам понравилась статья, поделитесь ею в своем блоге или поставьте нам оценку, чтобы о проекте узнало как можно больше читателей!

реклама
разместить
2 комментария

Перешёл сейчас с ChatGPT на DeepSeek работает не хуже, но скорость гораздо лучше, по вечерам нет подвисарий и не нужны танцы с VPN- ом.

Открытый доступ к такой мощной модели одновременно шанс для разработчиков и вызов для тех, кто ищет баланс между мощностью и доступностью)