"В отборочном туре Международной математической олимпиады (IMO) GPT-4o правильно решила 13% заданий, а новая «рассуждающая» модель — 83%." - впечатляющий результат. А когда, интересно, такие модели будут доступны всем?
AIME это не совсем олимпиада. Она, скорее, ближе к израильской "психометрии", где требуется выбрать правильный вариант ответа из предлагаемых четырёх. И самое главное — в AIME нет задач на доказательство. А ведь мышление математика проявляется в полной мере именно в доказательствах. А на угадывание правильного ответа можно и натаскать, что и сделали с ИИ.
Попробуйте задать ИИ вот такую задачу (она простая, но требует доказательства): Дано 100 положительных чисел, сумма которых равна S. Известно, что каждое из чисел меньше, чем S/99. Докажите, что сумма любых двух из этих чисел больше, чем S/99.
Посмотрим, как он с ней справится. Хотя, в принципе, он может и надёргать ответ из Интернета.
"В отборочном туре Международной математической олимпиады (IMO) GPT-4o правильно решила 13% заданий, а новая «рассуждающая» модель — 83%." - впечатляющий результат. А когда, интересно, такие модели будут доступны всем?
AIME это не совсем олимпиада. Она, скорее, ближе к израильской "психометрии", где требуется выбрать правильный вариант ответа из предлагаемых четырёх. И самое главное — в AIME нет задач на доказательство. А ведь мышление математика проявляется в полной мере именно в доказательствах.
А на угадывание правильного ответа можно и натаскать, что и сделали с ИИ.
Попробуйте задать ИИ вот такую задачу (она простая, но требует доказательства):
Дано 100 положительных чисел, сумма которых равна S. Известно, что
каждое из чисел меньше, чем S/99. Докажите, что сумма любых двух из этих
чисел больше, чем S/99.
Посмотрим, как он с ней справится. Хотя, в принципе, он может и надёргать ответ из Интернета.