DeepSeek обновила «рассуждающую» R1 — в тестах она сравнялась с o3 от OpenAI

Модель доступна бесплатно в чат-боте, веса выложили на Hugging Face.

R1 дообучили впервые с момента «громкого» выхода в январе 2025 года, пишет South China Morning Post. Разработчики не раскрыли конкретных деталей. Однако в независимом рейтинге LiveCodeBenc, где тестируют навыки программирования моделей, она превзошла o3-mini-high и приблизилась к o3.

В тесте на знание разных языков программирования Aider Polyglot Benchmark R1 сравнялась с Claude 4 Opus.
Пользователи отмечают, что модель стала дольше рассуждать над некоторыми задачами, вплоть до 30 минут, а также лучше писать тексты.

Автор Telegram-канала How2AI попросил версию R1 на Lm Arena сделать копию мобильной игры Flappy Bird. Модель повторила механику, но не смогла создать персонажа в виде птицы

Модель написала код для интерактивной сцены с динозаврами вокруг вулкана. При нажатии на пробел он извергается. Источник: NFTmachine

Пользователь сравнил, как старая и новая версия напишут код для анимации с шестиугольником. «Давайте честно, настоящим обновлением, возможно, будет уже R2», — написал он. Источник: Flavio Adamo

Версия Deepseek-R1-0528 доступна бесплатно в чат-боте, веса модели выложили на Hugging Face.

#новости #deepseek