DeepSeek показал, как урезать цену API-запросов почти вдвое

Компания выпустила экспериментальную модель DeepSeek V3.2-exp с новым механизмом Sparse Attention.

Вместо того, чтобы постоянно читать всю информацию в контекстном окне, модель быстро находит ключевые куски и читает только их. Так экономится вычислительная мощность и снижается нагрузка на сервера.

Тесты показали, что такой подход может сократить стоимость длинных запросов через API почти на 50%. Судя по бенчмаркам, V3.2-exp работает не хуже V3.1.

Модель лежит в открытом доступе на Hugging Face: https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp

Подписывайтесь на Telegram GPT/ChatGPT/AI Central Александра Горного.