DeepSeek обзавелся зрением: нейросеть научилась видеть и комментировать картинки в чате

DeepSeek обзавелся зрением: нейросеть научилась видеть и комментировать картинки в чате

18 июня 2026 года пользователи заметили, что в чате DeepSeek появилась новая возможность - загружать изображения и получать по ним развернутый анализ. Новость мгновенно разлетелась по Hacker News, собрав почти 500 апвоутов. И это неудивительно: до сих пор DeepSeek оставался исключительно текстовой моделью, в то время как конкуренты вроде ChatGPT и Claude уже давно умеют работать с картинками.

Что умеет DeepSeek Vision

Главная фишка новой функции - модель не просто выдает ответ, а показывает, на какую именно область изображения она смотрит в каждый момент. Если загрузить, например, график продаж, DeepSeek обведет нужные точки на графике и скажет: «Вот здесь виден рост в марте, а вот тут - спад в апреле». Модель объясняет свое рассуждение по шагам, что делает ее работу прозрачной и понятной.

На практике это значит, что с DeepSeek теперь можно: обсуждать графики и диаграммы с детальной визуальной привязкой, анализировать документы и сканы (OCR), распознавать объекты на фотографиях, читать и объяснять схемы и таблицы, работать с рукописным текстом.

Техническая подоплека: DeepSeek-VL2

На самом деле DeepSeek готовился к этому запуску давно. Еще в декабре 2024 года команда выпустила открытую модель DeepSeek-VL2 - серию Vision-Language моделей на архитектуре Mixture-of-Experts (MoE). Эти модели вышли в трех вариантах: VL2-Tiny на 1 миллиард параметров (подходит для мобильных устройств), VL2-Small на 2,8 миллиарда и полноценная VL2 с 4,6 миллиарда активных параметров (из 57,4 миллиарда в MoE-архитектуре).

Модели DeepSeek-VL2 показали выдающиеся результаты в бенчмарках: они превосходят многие закрытые аналоги в задачах визуального问答, OCR, понимания диаграмм и таблиц. Важно, что модель понимает не только содержимое картинки, но и пространственные отношения - где какой объект находится, что выше, что ниже, что левее. Это позволяет ей давать не просто формальный ответ, а содержательный анализ с привязкой к конкретным областям изображения.

Как это выглядит в интерфейсе

В чате DeepSeek появилась кнопка загрузки изображений - можно прикрепить файл прямо в диалог. После загрузки модель анализирует картинку и выдает структурированный ответ. Пользователи отмечают, что интерфейс минималистичный и интуитивный - никаких лишних кнопок, просто берешь и загружаешь картинку.

DeepSeek не просто «видит» изображение целиком - он выделяет ключевые зоны и связывает их с текстом ответа. Это особенно полезно для сложных диаграмм, где нужно понять, на какую именно часть графика ссылается модель. По сути, это первый шаг к настоящему визуальному диалогу: не «расскажи, что на картинке», а «посмотри сюда и объясни, что ты видишь в этой области».

Что это значит для рынка AI

Добавление Vision в DeepSeek - важный шаг для всей индустрии. До сих пор основной аргумент пользователей ChatGPT и Claude в пользу этих платформ был прост: «там есть Vision, а в DeepSeek - нет». Теперь этого преимущества больше нет. DeepSeek остается одной из самых доступных AI-моделей на рынке (бесплатный чат с большими лимитами), и добавление зрения делает ее еще более конкурентоспособной.

Особенно интересно, что DeepSeek уже выпустил открытые веса моделей DeepSeek-VL2 на GitHub и Hugging Face. Это значит, что разработчики могут развернуть свою собственную копию модели с поддержкой зрения - локально или на своем сервере. Для бизнеса это возможность внедрить AI-анализ изображений без привязки к конкретному вендору и без ежемесячной подписки.

Что дальше

Судя по темпу развития DeepSeek, Vision в чате - только начало. Компания может пойти в сторону анализа видео, понимания четежей и CAD-моделей, а также интеграции зрения с голосовым вводом (который тоже недавно появился в DeepSeek). Учитывая, что DeepSeek-R1 и последующие модели показывают уровень рассуждений, сопоставимый с OpenAI o1, добавление мультимодальности выводит модель на принципиально новый уровень.

Осталось дождаться официального анонса от самой DeepSeek - пока функция работает без громких пресс-релизов. Но пользователи уже вовсю тестируют новую возможность, и отзывы крайне положительные. DeepSeek Vision - это не просто «еще одна AI-модель с глазами», а действительно продуманный инструмент, который умеет показывать, как и на что он смотрит.