DeepSeek обновила «рассуждающую» R1 — в тестах она сравнялась с o3 от OpenAI
Модель доступна бесплатно в чат-боте, веса выложили на Hugging Face.
- R1 дообучили впервые с момента «громкого» выхода в январе 2025 года, пишет South China Morning Post. Разработчики не раскрыли конкретных деталей. Однако в независимом рейтинге LiveCodeBenc, где тестируют навыки программирования моделей, она превзошла o3-mini-high и приблизилась к o3.
Рейтинг моделей на 29 мая 2025 года
- В тесте на знание разных языков программирования Aider Polyglot Benchmark R1 сравнялась с Claude 4 Opus.
- Пользователи отмечают, что модель стала дольше рассуждать над некоторыми задачами, вплоть до 30 минут, а также лучше писать тексты.
Автор Telegram-канала How2AI попросил версию R1 на Lm Arena сделать копию мобильной игры Flappy Bird. Модель повторила механику, но не смогла создать персонажа в виде птицы
Модель написала код для интерактивной сцены с динозаврами вокруг вулкана. При нажатии на пробел он извергается. Источник: NFTmachine
Пользователь сравнил, как старая и новая версия напишут код для анимации с шестиугольником. «Давайте честно, настоящим обновлением, возможно, будет уже R2», — написал он. Источник: Flavio Adamo
- Версия Deepseek-R1-0528 доступна бесплатно в чат-боте, веса модели выложили на Hugging Face.
34 комментария