реклама
разместить

Кто лучше решает задачи: DeepSeek или ChatGPT?

Впервые после релиза рассуждающих моделей обеих компаний состоялось серьезное мероприятие, и можно независимо оценить качество решений моделей.

🔥 Еще больше интересного в моем канале продуктовые штучки

Кто судьи?

Состоялось American Invitational Mathematics Examination (AIME), первая часть. Это олимпиадные задачами по математике. Напомню, что рассуждающие модели специально предназначены именно для узко специализированных задач, в том числе – по математике.

Результаты выложены на Matharena

Каков результат?

Таблица показывает, как разные модели справились с олимпиадой. Каждая модель решала каждую задачу 4 раза (независимо от других своих попыток). Зелёный – модель справилась 4/4 раз, желтый – справилась 1 раз, красный — 0 раз из 4.

В колонке «Acc» отображена средняя точность моделей. В колонке Cost – стоимость рассуждений.

Как видим, модели OpenAI серьезно превосходят модели DeepSeek по уровню точности ответов.

Хотя по стоимости DeepSeek выигрывает; однако модель R1 «жрет» больше, чем o3-mini (хотя на то она и mini, обычная модель пожирает в 10 раз больше).

В тестировании также принимали участие модели QwQ-32B (модель от Alibaba, которая вышла в ноябре 2024), gemini-2.0-flash (от Google, вышла на днях), claude-3.5-sonnet (Anthropic).

Но все эти модели существенно проигрывают моделям DeepSeek и OpenAI по точности, хотя цена вычислений невысока. Однако модели не справились с задачами, и если так посмотреть, то затраты высокие.

Модель от Mistral не принимала участия, т.к. У них нет рассуждающей модели.

Пожалуйста, поддержите меня, поставьте лайк! 🙏

33
реклама
разместить
Начать дискуссию
Почему рано хоронить OpenAI и превозносить DeepSeek?

В техно и финансовых кругах развернулась дискуссия (если не сказать паника). Шутка ли, что можно вот так вот создать модель с 20 раз дешевле, да и еще в условиях санкций? Но не все так просто. Расскажу, в чем дело

Лаг между "эффектом доступа" и "эффектом производительности". <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fblog.heim.xyz%2Fdeepseek-what-the-headlines-miss%2F&postId=1778418" rel="nofollow noreferrer noopener" target="_blank">Источник</a><br />
1111
реклама
разместить
Исследователи обучили конкурента OpenAI за полчаса и менее чем за $50

На прошлой неделе DeepSeek поверг в шок технологический и финансовый рынок США, заявив, что смог создать свою модель в 20 раз дешевле, чем у OpenAI. А тут – даже не за $6 000, а $50! И не китайцы (голь на выдумку хитра), а американцы! О чем речь и почему это так важно?

Знаменитый простой вопрос, на котором ломаются многие ИИ модели. <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Farxiv.org%2Fpdf%2F2501.19393&postId=1797795" rel="nofollow noreferrer noopener" target="_blank">Источник</a><br />
22
Закон о рекламе 2025. Что делать бизнесу

1 апреля 2025 года начал действовать обязательный сбор в размере 3% от квартального дохода, полученного в качестве вознаграждения за распространение Интернет-рекламы. Оплачивать сбор придется тем, кто получает доход, то есть рекламораспространителям: владельцам интернет-площадок, на которых публикуется реклама, и Посредникам, помогающим в распростр…

Закон о рекламе 2025. Что делать бизнесу
OpenAI запускает новую модель рассуждений o3-mini с бесплатной версией

OpenAI запускает свою новейшую модель рассуждений o3-mini и впервые делает версию доступной для бесплатных пользователей ChatGPT. Но есть особенности

<a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fopenai.com%2Findex%2Fopenai-o3-mini%2F&postId=1786933" rel="nofollow noreferrer noopener" target="_blank">Источник</a>
66
Я продала дом в Сибири и купила дом в Португалии за 5 млн ₽. Мёрзну, но не жалею

Я приехала в Португалию с маленьким чемоданчиком в отпуск, а осталась навсегда. Теперь у меня дома зимой +10°C, а летом я собираю апельсины в саду. В статье расскажу, как искала дом среди руин, как я открыла счёт в банке вопреки запретам, сколько я потратила на ремонт и сколько стоит жизнь в деревне из 22 человек.

Я продала дом в Сибири и купила дом в Португалии за 5 млн ₽. Мёрзну, но не жалею
2828
22
22
11
11
Вложить 7,8 млн в недвижимость в деревне без инфраструктуры, где никто, кроме местных пенсионеров, жить не хочет - сомнительное решение. Через 5 лет этот дом никому не будет нужен
«Глобальная тарифная война»: Дональд Трамп подписал указ о повышении пошлин на ввозимые в США товары — мировые лидеры предупредили об ответных мерах

Тарифы начнут действовать с 5 апреля 2025 года для 185 стран и территорий, за исключением России, Беларуси, Кубы и Северной Кореи.

Фото Reuters
77
11
11
11
11
Американцы наверное будут рады заплатить за импортные товары на 10-70% больше
Концепция личной (не)эффективности

Не наводи порядок в том, от чего нужно избавиться. Про бесконечные списки задач, фокусировку и "У меня все задачи важные"

Концепция личной (не)эффективности
1515
55
11
11
«Яндекс» запустил «Нейроэксперта» — сервис для работы с документами, презентациями и ссылками

Он создаст из загруженных материалов базу знаний и поможет найти в ней ответ на вопрос.

Источник фото: «Яндекс»
55
Аяз Шабутдинов признал вину в мошенничестве — но пока не в суде

Он сообщил об этом в своём Telegram-канале.

Источник: Telegram-канал Аяза Шабутдинова
2626
1818
66
55
22
Парни вы издеваетесь ?