DeepSeek V3.2: новый раунд технологической гонки
Когда компания заявляет, что новая версия модели «в разы дешевле», многие относятся к этому скептически, считая это очередной маркетинговой уловкой. А что если это не уловка? Что если архитектурное изменение действительно позволяет сохранить качество и одновременно снизить расходы на инференс?
DeepSeek представил экспериментальную версию V3.2. — коротко: улучшили работу с длинным контекстом и ввели механизм разреженного внимания DeepSeek Sparse Attention (DSA). По заявлению разработчиков, DSA даёт мелкозернистый контроль внимания, что снижает вычислительные затраты при обработке длинных текстов, не жертвуя качеством вывода.
По сути, это попытка сохранить «память» модели на больших отрезках текста и одновременно уменьшить стоимость обучения и вывода.
Чтобы понять V3.2, важно вернуться к V3.1. Эта версия ввела идею гибридного вывода: один и тот же движок умеет «думать глубже» для сложных задач и работать в быстром режиме для рутинных запросов. Такой «двухскоростной» режим сокращает лишние вычисления и упрощает замену набора специализированных моделей одной универсальной системой.
DeepSeek проводили обучение с фазовым расширением контекста: сначала 4 тысячи токенов, затем 32 тысячи, а финально — 128 тысяч. Это не маркетинг: для ряда задач, где нужно «читать» большие документы, модель действительно обучали на таких длинных отрезках, и бенчмарки показывают устойчивость до 128К в ряде задач.
- Где DeepSeek сильна, а где слабее конкурентов
Сравнение не про «кто лучше навсегда», а про «кто лучше для вашей задачи». Gemini 2.5 Pro от Google выделяется гигантским контекстом в 1 миллион токенов и глубокой мультимодальностью — это выбор для тех, кто планирует работать с аудио, видео, изображениями и текстом в одном запросе. GPT-5 пока остаётся высшей ступенью для широких задач.
Anthropic делает ставку на безопасность и «этическую надёжность» своих моделей; их Sonnet/Claude-линейки сильны в корпоративном сценарии и часто выигрывают в задачах, где важна предсказуемость поведения модели.
Если у вас есть вопросы по нейросетям или вы планируете интегрировать искусственный интеллект в вашу компанию, обращайтесь в AIRPA. Мы автоматизируем бизнес-процессы, разрабатываем и обучаем нейросети, внедряем голосовых и чат-ботов, настраиваем CRM-системы, создаем приложения для iOS и Android, а также разрабатываем сайты!)
Отдел по работе с клиентами
группа в телеграмм: https://t.me/AI_RPA