Я проверил, сможет ли ChatGPT поступить на мехмат МГУ им. Ломоносова

Проверяем, выживет ли ChatGPT в отечественной системе образования. Выводы оказались, на удивление, полезные.

В марте 2023 разработчики из OpenAI запустили GPT-4 — новую версию языковой модели, на которой основан чат-бот ChatGPT. Параллельно они опубликовали исследование, рассказывающее, что умеет обновленная модель и насколько она лучше предыдущей.

Прочитать исследование на английском можно здесь. В нем говорится, что для проверки нейросети использовались стандартизированные экзамены, которые сдают абитуриенты перед поступлением в вузы, в том числе SAT — аналог нашего ЕГЭ. Как и другие тесты, SAT был создан для человека. Специально для решения подобных задач нейросеть не тренировали.

Меня зовут Кирилл Пшинник, я CEO онлайн-университета zerocoder.ru. Мне показалась интересной мысль использовать ChatGPT для сдачи школьных экзаменов, поэтому я решил проверить, сможет ли он справиться с профильной частью ЕГЭ по математике для поступления в один из ведущих математических вузов России.

SAT — это Scholastic Aptitude Test, или академический оценочный тест для школьников США.

На 2023 год в SAT включены три раздела:

математика (Math);
чтение и анализ текста (Reading);
письмо (Writing).

Математика состоит из трех частей: первая — тест из 20 вопросов, вторая — тест из 8 вопросов и 10 заданий, решения которых нужно расписывать, третья — тест на 16 вопросов.

Анализ текста, он же чтение, — это тексты, к которым прилагаются вопросы на оценку лексикона, осмысление прочитанного и сравнение текстов.

И наконец, письмо — тесты и сочинение. В тестах школьники ищут ошибки в словах и предложениях, еще 25 минут отводится на написание сочинения на указанную тему.

Результаты разбиты на две секции: письмо и чтение (Evidence-Based Reading and Writing или EBRW) и математика (Math). За каждую можно получить от 200 до 800 баллов, за все вместе — от 400 до 1600 баллов. Это и будет результатом экзамена.

Информация по тестам SAT взята из <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fopenai.com%2Fresearch%2Fgpt-4&postId=823834" rel="nofollow noreferrer noopener" target="_blank">исследования OpenAI</a>

В математическом тесте GPT-4 набрал 700 баллов из максимальных 800, в тесте на письмо и чтение (EBRW) — 710 баллов из максимальных 800. Итог за SAT — 1410 баллов из возможных 1600. Это оценка «A» (Outstanding), или что-то вроде «отлично» в переводе на нашу школьную систему оценок.

Чтобы осмыслить результат, достаточно сравнить его со средними результатами по стране. Согласно данным частной образовательной организации College Board, разработавшей SAT больше сотни лет назад, в 2022 году за чтение и письмо школьники в среднем получили 529 баллов, а за математику — 521 балл. Или 1050 баллов за все.

На практике это означает, что школьник, сдавший экзамен на уровне GPT-4, может претендовать на поступление в Гарвард, Принстон или Колумбийский университет. И почти наверняка поступит в Университет штата Пенсильвания, Университет штата Орегона или Университет штата Колорадо.

Но поступила бы модель GPT-4 на мехмат МГУ им. Ломоносова или в Бауманку?

Чтобы в этом разобраться, я прорешал первую часть демонстрационного варианта ЕГЭ по математике за 2023 год, профильный уровень. Вот такой.

Структурно SAT похож на ЕГЭ по математике и профильному языку — здесь есть тесты, есть вопросы, требующие развернутого ответа, есть сочинение. Если с русским могут возникнуть проблемы, поскольку «родной» язык ChatGPT все-таки английский, то с математикой таких трудностей возникнуть не должно.

В эксперименте использовался оригинальный ChatGPT-4 с плагином Wolfram для произведения вычислений. Сам чат-бот вычислять не умеет, потому что это языковая модель. Некоторые подсчеты у него получаются, но это чистая удача. Например, когда у модели спрашивают, сколько будет 2+2, то она отвечает 4 не потому что произвела вычисления, а потому что знает, что, обычно, 2+2 = 4. А вот если нужно делать более сложные вычисления, модель нередко ошибается.

Wolfram — это плагин, который ChatGPT может использовать, если нужно что-то посчитать. В исследовании OpenAI ничего не говорилось о дополнительных плагинах, но мне показалось справедливым использовать весь возможный функционал оригинального ChatGPT.

В некоторых задачах необходимо было проанализировать график функции. Согласно отчету OpenAI, GPT-4 в состоянии воспринимать визуальные данные, причем не хуже, чем текстовые, но на момент написания статьи я не придумал, как именно анализировать график функции с помощью ChatGPT. Поэтому решил просто переформулировать задачи.

Задачи брались из демо-варианта за 2023 год, который никак не мог попасть в базу данных ChatGPT, потому что чат-бот обучался на информации до сентября 2021 года. Это значит, что модель именно «решала» задачи, а не искала ответ в базе. Более того, кроме Wolfram я не использовал никаких других плагинов, поэтому доступа к интернету у модели не было.

В каждом задании демо-варианта ЕГЭ предлагаются несколько одинаковых по уровню примеров. Везде я брал первое задание. За кадром я проверял остальные задачи, и модель их тоже решала.

Исключением стало четвертое задание на теорию вероятности с бросками кубика в условии. Я долго экспериментировал с промтом, переводил задание на английский, использовал модели chain of thoughts и tree of thoughts, но задачу именно в такой формулировке ChatGPT никак не решал. Логика решения была верная, но раз за разом чат-бот ошибался в конце.

Вторую задачу из того же примера чат-бот решил нормально, как и остальные задачи на теорию вероятности. С чем это связано мне до конца непонятно. Возможно, это какой-то момент обучения на определенных задачах.

Итого, 10* (11) из 11 задач первой части профильного ЕГЭ по математике были правильно решены, и каждое из решений было детально объяснено.

Так что перейдем к самому интересному. Исходный промт, задачи и решения к ним можно посмотреть по ссылке, для этого нужна регистрация в OpenAI и VPN для пользователей из России. Если желания регистрироваться и включать VPN нет, ниже будут скрины.

Для начала — даем чат-боту контекст:

Теперь приступаем к решению задач из первой части ЕГЭ. Всего их 11.

Задача 1:

Треугольник ABC вписан в окружность с центром O. Угол BAC равен 32 градусов. Найдите угол BOC. Ответ дайте в градусах.

Ответ верный.

Задача 2:

В первом цилиндрическом сосуде уровень жидкости достигает 16 см. Эту жидкость перелили во второй цилиндрический сосуд, диаметр основания которого в 2 раза больше диаметра основания первого. На какой высоте будет находиться уровень жидкости во втором сосуде? Ответ дайте в сантиметрах.

Ответ верный.

Задача 3:

В сборнике билетов по биологии всего 25 билетов. Только в двух билетах встречается вопрос о грибах. На экзамене выпускнику достается один случайно выбранный билет из этого сборника. Найдите вероятность того, что в этом билете будет вопрос о грибах.

Ответ верный.

Задача 4:

Симметричную игральную кость бросили 3 раза. Известно, что в сумме выпало 6 очков. Какова вероятность события «хотя бы раз выпало 3 очка»?

То самое задание, которое не далось ChatGPT. Правильный ответ на самом деле 0,6.

Задача 4.1 (вторая задача из этого же задания):

В городе 48% взрослого населения — мужчины. Пенсионеры составляют 12,6% взрослого населения, причем доля пенсионеров среди женщин равна 15%. Для социологического опроса выбран случайным образом мужчина, проживающий в этом городе. Найдите вероятность события «выбранный мужчина является пенсионером».

Тут все верно.

Задача 5:

Найдите корень уравнения 3^(x−5) = 81.

Ответ правильный.

Задача 6:

Найдите sin2α , если cosx= 0,6 и π < α < 2π.

Ответ верный.

Задача 7 (эта задача давалась в виде анализа графика функции. Я задал ее аналитически):

Функция y = f(х) такая, что:

На участке −\infty до −4.5 функция возрастает

На участке от −4.5 до −0.5 функция убывает

На участке от −0.5 до 3 функция возрастает

На участке от 3 до + −\infty функция убывает

На оси абсцисс отмечены девять точек:

x1=−6; f(x1) = 1.8

x2=−5.2; f(x2) = 2.5

x3=−4; f(x3) = 2.5

x4=−3; f(x4) = 1.5

x5=−1.5; f(x5) = −1

x6=0.5 f(x6) = −1

x7=1.5 f(x7) = 1

x8=2.2 f(x8) = 1.5

x9=3.5 f(x9) = 1.5

Найдите все отмеченные точки, в которых производная функции f(x) отрицательна. В ответе укажите количество этих точек.

Ответ правильный.

Задача 8:

Локатор батискафа, равномерно погружающегося вертикально вниз, испускает ультразвуковой сигнал частотой 749 МГц. Приемник регистрирует частоту сигнала, отраженного от дна океана. Скорость погружения батискафа (в м/с) и частоты связаны соотношением:

v = c * \frac{f-f_{0}}{f+f_{0}}

где c = 1500 м/с — скорость звука в воде, 0f — частота испускаемого сигнала (в МГц), f — частота отраженного сигнала (в МГц). Найдите частоту отраженного сигнала (в МГц), если батискаф погружается со скоростью 2 м/с.

Все верно.

Задача 9:

Весной катер идет против течения реки в 1\frac{2}{3} раза медленнее, чем по течению. Летом течение становится на 1 км/ч медленнее. Поэтому летом катер идет против течения в 1\frac{1}{2} раза медленнее, чем по течению. Найдите скорость течения весной (в км/ч).

Ответ правильный.

Задача 10:

Дана функция y = ax^{2}+bx+c, где числа a, b и c — целые. Найдите значение f (−12) .

Функция такая, что f(−2) = 1, f(−4) = −3, f(−3) = −2.

Ответ правильный.

Задача 11:

Найдите наименьшее значение функции y = 9x − 9ln(x+11) +7 на отрезке [−10,5; 0].

Ответ правильный.

ChatGPT-4 хорошо решает первую профильную часть ЕГЭ по математике, корректно объясняет решение, поэтапно рассказывая, как именно проводятся вычисления, проводит нужные проверки. Задача на теорию вероятности была скорее исключением — ему не далась одна с костями, остальные он решил.

При дальнейших экспериментах выяснилось, что иногда он совершает ошибки, которые школьники себе не позволяют. Например, забывает об области допустимого значения:

Задача: 1/(3х-1) = 5

Про ОДЗ он забывает почти всегда. Неясно, с чем это связано. Возможно, школьная программа математики в США как-то иначе преподносит проверку ОДЗ перед решением. Других объяснений у меня нет.

Вторая, более сложная часть, где нужно не просто написать ответ, но и предоставить решение с обоснованием, ему не дается совсем. Если задание — решить уравнение, то плагин Wolfram выдает верные решения, но объяснить свой путь к решению ChatGPT не может. Более сложные задачи на логику боту тоже не по плечу, он начинает путаться. Поэтому, несмотря на верные ответы по некоторым задачам, за вторую профильную часть экзамена я ставлю 0 баллов.

Я опробовал чат-бот на физике и химии, результат был примерно такой же. Первая часть — хорошо и даже отлично, дальше начинаются проблемы. Исключением стал русский язык, с которым ChatGPT не справляется абсолютно, но это неудивительно, потому что его модель обучалась преимущественно на англоязычных источниках. Русский язык он понимает, но не может ни расставить ударения, ни вставить пропущенное слово, ни найти лексическую ошибку.

Если кто-нибудь хочет попробовать ChatGPT для решения демо-варианта по химии, биологии или другим предметам, приносите результат в комментарии. Интересно сравнить, способен ли он решать другие предметы дальше первой части.

За верное выполнение первой части профильного экзамена по математике ChatGPT получил 11 первичных баллов или 56 тестовых из 100 возможных. Согласно системе оценки за 2023 год, этого хватило бы на получение аттестата по профильной математике с оценкой «хорошо» Более того — это соответствует среднему баллу в 56,68 по профильной математике за 2022 год.

Как я писал выше, за вторую часть профильного ЕГЭ чат-бот получил ноль баллов.

Как итог: к мехмату МГУ или Бауманке ChatGPT пока не готов, по крайней мере, к поступлению на бюджет, зато может претендовать на множество других вузов, где требования к математике не такие серьезные. Аттестат в российской школе ChatGPT бы получил, причем с оценкой «хорошо» почти по всем предметам, кроме русского языка.

В апреле два преподавателя из Кембриджа давали интервью о потенциальном влиянии ChatGPT на образование. Один из них, доктор Вон Конноли, сказал, что нейросети произведут на систему образования примерно такой же эффект, как произвело в 1998 году появление поисковика Google.

ChatGPT — это мощная языковая модель, которая может помочь как ребенку, так и родителям/учителям. Давайте разберем несколько примеров.

Для школьника:

1. Решение простой математики для ОГЭ, первой части профильного ЕГЭ. Чат-бот правильно объясняет решение, и с его помощью можно самостоятельно готовиться к экзамену. Более того, чат бот еще и развивает критическое мышление — простое «переписывание» решения не всегда сработает. Чат бот может объяснять переходы в решении, давать дополнительные определения.

2. Объяснения сложных вещей простыми словами. Например, если непонятна какая-нибудь теорема, учащийся может попросить у ChatGPT объяснить ее попроще.

3. Проверка домашних заданий и обратная связь. Например, ChatGPT не просто может написать сочинение за ребенка, а еще и взять написанный текст и оценить его по заданными критериям.

Ссылка на промт и решение: https://chat.openai.com/share/51211f4a-435b-4360-9e4c-468cc1b739a9

Для родителей, репетиторов и учителей:

1. Кастомизированное обучение. Например: «Объясни теорему Пифагора в футбольных терминах». Ребенку такое интересно, откладывается в памяти, помогает осмыслить.

2. Составление тестов. У ChatGPT можно попросить составить сотню примеров с разными условиями, но одинаковым решением, что поможет сэкономить время. Нейросеть составит и несколько вариантов одного теста для контрольной — это будут разные задачи одного уровня, что исключит списывание.

Ссылка на промт и решение: <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fchat.openai.com%2Fshare%2F46c0ab9b-9951-438c-8666-6f71adf28716&postId=823834" rel="nofollow noreferrer noopener" target="_blank">https://chat.openai.com/share/46c0ab9b-9951-438c-8666-6f71adf28716</a>

При решении ЕГЭ, хотя бы на первое время, школьнику понадобится супервизия, особенно в сложных примерах.

Как и Google, ChatGPT, как концепт, никуда не исчезнет. Нейросети уже появились, дети о них знают, а если кто-то пока не знает, то осенью друзья обязательно им расскажут. Поэтому единственное, что можно сделать в такой ситуации, — научить школьников пользоваться ими экологично: не заставлять их учиться за себя, а применять как инструмент вроде калькулятора или Google с Википедией.

Мы в «Зерокодер» сделали бесплатный демо-урок для детей от 10 лет, где ребенок сможет познакомиться с нейросетями и понять, как их можно использовать в учебе и жизни.

Я проверил, сможет ли ChatGPT поступить на мехмат МГУ им. Ломоносова

Немного матчасти про SAT

Как GPT-4 сдавал SAT

Как GPT-4 сдавал ЕГЭ по математике: вступление

Как GPT-4 сдавал ЕГЭ по математике: практическая часть

Какие можно сделать выводы?

Что это значит на практике?

Для чего еще можно использовать ChatGPT в образовании?