Пентагон пустил 8 ИИ-моделей в свои секретные сети. Без Anthropic — но не совсем, а DeepSeek учит модель «тыкать пальцем» в кадр по ходу рассуждения

1 мая 2026 года Министерство войны США объявило о соглашениях с восемью технологическими компаниями о развертывании их фронтирных ИИ-моделей в классифицированных сетях Impact Level 6 и 7 — самых чувствительных контурах ведомства, где обрабатываются оперативные планы, целеуказание и разведданные. Первоначальный пресс-релиз называл семерых участников: SpaceX (поглотившая xAI Маска в феврале), OpenAI, Google, NVIDIA, Reflection, Microsoft и AWS. К полудню по вашингтонскому времени технический директор Пентагона Эмиль Майкл сообщил в X о добавлении восьмого — Oracle. Anthropic, ранее бывшей единственным поставщиком ИИ для классифицированных сетей через программу Maven у Palantir, в новом списке нет.

Канал с гайдами и контентом по claude code, выкладываем новости (когда режут лимиты в 10 раз) и какие инструменты через claude реализуем для проектов, канал: https://t.me/claudedevolper

В смешанном портфеле теперь и закрытые, и открытые модели — последние, по данным AFP, поставят NVIDIA и Reflection (стартап на открытых весах при поддержке NVIDIA). Открытые модели можно запускать без постоянных лицензионных отчислений и доступа провайдера к работающей системе, что даст ведомству большую операционную гибкость и снизит зависимость от одного коммерческого поставщика. "Безответственно зависеть от одного партнера. И мы поняли, что этот партнер не очень-то хотел работать с нами так, как нам было нужно", — заявил Майкл на CNBC, не называя Anthropic по имени.

Главный парадокс дня — отдельная линия Майкла по Mythos, новой модели Anthropic с продвинутыми кибер-возможностями, оценку которой опубликовал британский AISI. По его словам, Anthropic как компания остается угрозой цепочке поставок, но Mythos — "отдельный момент национальной безопасности". На практике это означает, что Mythos, несмотря на формальный бан, уже использует NSA, Агентство национальной безопасности США, которое входит в состав Министерства войны. Об этом сообщил CNBC со ссылкой на ранний материал Axios. Защитные ограничения, добавил Майкл, остаются "предметом переговоров — у компаний разные взгляды".

Конфликт длится с февраля, когда Хегсет потребовал от Anthropic снять ограничения на массовую внутреннюю слежку и полностью автономное оружие, а после отказа присвоил компании статус "угроза цепочке поставок" — обычно его получают только организации из враждебных стран. В марте Anthropic подала в суд, в апреле федеральный апелляционный суд округа Колумбия отказался блокировать санкции на время разбирательства. На прошлой неделе Дарио Амодеи побывал в Белом доме на встрече с главой аппарата Сьюзи Уайлс — и Трамп после этого сказал, что Anthropic "формируется" и сделка с Министерством войны "возможна".

По данным Reuters, сотрудники Пентагона неохотно расстаются с Claude, считая его более сильной альтернативой; на удаление продуктов Anthropic из систем подрядчиков отведено шесть месяцев. В понедельник, накануне объявления, более 600 сотрудников Google публично потребовали от руководства отказаться от сделки. Платформа GenAI.mil за пять месяцев работы охватила 1,3 млн сотрудников ведомства, через нее прошли десятки миллионов промптов и развернуты сотни тысяч агентов — масштаб, на который теперь распределяется не одна модель, а восемь. Иски Anthropic в Сан-Франциско и Вашингтоне продолжаются.

DeepSeek совместно с Пекинским университетом и университетом Цинхуа 30 апреля выложил технический отчет "Thinking with Visual Primitives" — новый подход к мультимодальному рассуждению, который помогает модели лучше видеть изображения и видео, понимая, что действительно на них произошло. Идея простая: вместо словесных описаний вида "третий пес слева" модель прямо в цепочке рассуждений выдает координаты объектов на картинке, словно тыкая в них пальцем. Решение построено на свежей DeepSeek-V4-Flash (284 миллиарда общих параметров, 13 миллиардов активных) и в задачах вроде навигации по лабиринту обходит GPT-5.4 на 17 процентных пунктов.

Авторы вводят новый термин Reference Gap (разрыв референции). До этого вся индустрия закрывала Perception Gap — то, что модель плохо различает мелкие детали в плотных сценах, отсюда работа с высоким разрешением и нарезка картинки на фрагменты, а заодно подход OpenAI "thinking with images". В DeepSeek возражают: даже если модель видит идеально, остается второй разрыв — естественный язык слишком неоднозначен, чтобы точно указать на конкретный объект в сцене с десятками похожих. На задачах вроде "посчитай людей на групповом фото" или "найди путь в лабиринте" лингвистическая мысль теряет связь с визуальной сущностью и галлюцинирует.

Технически это выглядит так: прямо внутри цепочки рассуждений модель вставляет спецтокены вида <|ref|>dogs<|/ref|><|box|>[[452,23,804,411],[50,447,647,771]]<|/box|>. Координаты — нормализованные целые числа от 0 до 999. Точки и bounding box-ы становятся "минимальными единицами мысли" — аналогия в статье прямая: палец, которым человек тычет в сцену, когда считает или ищет дорогу. Предварительная тренировка дала модели базовое умение генерировать примитивы, дальше — пять стадий посттренинга: раздельная специализация экспертов под боксы и точки, потом их объединение.

Архитектурная сторона не менее интересна. Визуальные токены сжимаются в три прохода: сначала ViT (Vision Transformer) с патчингом 14×14, потом пространственная компрессия 3×3 и наконец Compressed Sparse Attention — та самая, что появилась в DeepSeek-V4-Flash — упаковывает каждые четыре визуальных токена в одну запись KV-кеша. Для картинки 800×800 у DeepSeek получается около 90 записей в кеше против 870 у Gemini-3-Flash и 660 у GPT-5.4. Итоговое сжатие от пикселей до кеша — в 7056 раз.

В сравнительной таблице с GPT-5.4, Claude Sonnet 4.6, Gemini-3-Flash, Gemma-4-31B и Qwen3-VL-235B-Thinking новая модель выигрывает в основном на топологическом ризонинге, который у конкурентов проседает: лабиринты — 66.9% против 49–50% у всех конкурентов, трассировка — 56.7% против 46.5% у GPT-5.4 и 30.6% у Claude. На задачах счета и общем VQA — паритет с лидерами. Авторы честно отмечают, что "thinking with visual primitives" пока активируется только по триггерным словам, а не автономно, а сами сцены с мелкими деталями страдают из-за низкого разрешения визуальных токенов. Над этим будут работать в следующих версиях: DeepSeek V4 пока носит preview-статус.