OpenAI представила превью языковой модели o1 — она заточена под задачи, требующие рассуждений

В частности в точных и естественных науках.

Блоки слева направо: соревнование по математике, соревновние по кодингу и опросник с научными вопросами уровня аспирантуры. Вертикальная шкала — точность ответов. Источник: OpenAI
3838
88
11

"В отборочном туре Международной математической олимпиады (IMO) GPT-4o правильно решила 13% заданий, а новая «рассуждающая» модель — 83%." - впечатляющий результат. А когда, интересно, такие модели будут доступны всем?

1
Ответить

AIME это не совсем олимпиада. Она, скорее, ближе к израильской "психометрии", где требуется выбрать правильный вариант ответа из предлагаемых четырёх. И самое главное — в AIME нет задач на доказательство. А ведь мышление математика проявляется в полной мере именно в доказательствах.
А на угадывание правильного ответа можно и натаскать, что и сделали с ИИ.

Попробуйте задать ИИ вот такую задачу (она простая, но требует доказательства):
Дано 100 положительных чисел, сумма которых равна S. Известно, что
каждое из чисел меньше, чем S/99. Докажите, что сумма любых двух из этих
чисел больше, чем S/99.

Посмотрим, как он с ней справится. Хотя, в принципе, он может и надёргать ответ из Интернета.

Ответить