«Экзамен сдал, но на троечку»: как чат-бот ChatGPT пытался выпуститься из университетов

Спойлер: с трудом. Но учёные отмечают, что с простыми вопросами он справляется не хуже студентов.

Источник: <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fwww.google.com%2Furl%3Fsa%3Di%26amp%3Burl%3Dhttps%253A%252F%252Fwww.showmetech.com.br%252Fen%252Fchatgpt-passed-testing-in-the-us%252F%26amp%3Bpsig%3DAOvVaw0AsaFQGojzJmxakiQJzDAg%26amp%3Bust%3D1674922100530000%26amp%3Bsource%3Dimages%26amp%3Bcd%3Dvfe%26amp%3Bved%3D0CBIQjhxqFwoTCMir_peR6PwCFQAAAAAdAAAAABAM&postId=593264" rel="nofollow noreferrer noopener" target="_blank">Showmetech</a>

Научные сотрудники юридического факультета Университета Миннесоты решили проверить, сможет ли чат-бот ChatGPT сдать экзамены наравне со студентами. Задач было две: понять, на что способен расхваленный ИИ, и подумать, как его умения могут упростить жизнь ученикам и преподавателям.

Из дисциплин выбрали четыре: конституционное право, гражданско-правовые правонарушения, налогообложение и трудовые гарантии и компенсации. Для первых двух необходимы знания с первого курса обучения, остальные — элективные предметы для продвинутых.

Экзамены предполагали как выбор правильного варианта ответа на закрытые вопросы, так и краткие и развёрнутые эссе на заданные темы. В двух были ограничения по длине ответа, а в тесте по конституционному праву студентов также обязали ссылаться на источники.

Всего чат-бот ответил на более чем 95 вопросов с вариантами ответов и решил 12 задач на рассуждение. После этого один из профессоров оформил ответы так, будто они принадлежат человеку, и перемешал их с уже обезличенными результатами настоящих студентов. Вот как ChatGPT справился:

Конституционное право — «хорошо», 36 место из 40 сдававших.
Трудовые гарантии и компенсации — «хорошо с минусом», 18 из 19.
Налогообложение — «удовлетворительно с минусом», 66 из 67.
Гражданско-правовой деликт — «удовлетворительно с минусом», 75 из 75.

«Удовлетворительно», она же «С» — это не худшая оценка в образовательной системе США: после неё идут ещё две отметки. Так что бот получил проходные баллы и в теории мог бы даже выпуститься. Однако авторы исследования замечают: он оказался в рядах худших, и ему, скорее всего, назначили бы академический испытательный срок — чтобы убедиться, что он старается.

Закрытые вопросы с вариантами ответа показались ChatGPT сложнее, чем открытые, говорят учёные. Бот верно ответил на 21 из 25 таких заданий на экзамене по конституционному праву, а в случае с гражданско-правовым деликтом, не ошибся в шести вопросах из десяти.

Хуже он справился с математическими заданиями по налоговой теме: там верно ответить получилось лишь в восьми случаях из 29.

При написании эссе показатели бота тоже были неоднозначными, говорят авторы. С одной стороны, в некоторых случаях он отвечал не хуже, а иногда и лучше студентов: ёмко пересказывал подходящие доктрины, которые не упоминались в вопросах, и цитировал факты и решения по прецедентам. Комиссия также отметила, что «речь» нейросети хорошо структурирована.

С другой стороны, если бот ошибался, то «по-крупному», заблуждаясь гораздо сильнее учеников. И это касалось не только тех заданий, которые было трудно выполнить без присутствия при разборе в классе. Например, в задании про закон «О пенсионном обеспечении наёмных работников» (ERISA) он доходчиво объяснил крайне трудные положения и привёл в пример дела, рассмотренные ранее в Верховном суде США.

Однако бот плохо понимал, на чём фокусироваться, поэтому много рассказал об основаниях для исковых претензий (и одно из них оказалось ошибочным), но толком ничего не написал о том, какие у наёмных работников есть средства правовой защиты.

Помимо этого, ChatGPT с трудом выявлял проблемы в заданных сценариях (в одном из случаев он назвал всего одну из пяти), а также делал поверхностные выводы при изучении гипотетических сюжетов: называл релевантную статью закона, но оказывался не в силах провести глубинные причинно-следственные связи.

Сошёл ли бот за студента при проверке?
Двое из трёх проверяющих признались, что результаты ChatGPT выдавала «идеальная грамматика» и однообразие формулировок.

Вместо того чтобы игнорировать ChatGPT, нужно искать способы применить его во благо и адаптировать к нему свои привычные процессы, считают в Университете Миннесоты: например, пересмотреть тесты, где от студентов требуются только односложные ответы.

И вузам, и школам наверняка придётся об этом задуматься, поскольку работа исследователей из Миннесоты — не первая в своём роде. Ранее профессор Уортонской школы бизнеса попросил нейросеть GPT-3 выполнить выпускной экзамен на получение степени MBA. И, по его словам, она получила бы оценку «хорошо» или «хорошо с минусом».

В его случае бот тоже складно отвечал на базовые вопросы, связанные с управлением и анализом процессов и подробно мотивировал свои ответы. А ошибался он в лёгких математических расчётах — и испытывал сложности с вопросами, требующими более глубокой проработки.

Почти или просто удовлетворительные результаты ChatGPT показал и при сдаче теста на медицинскую лицензию в США. Авторы исследования рассказали, что некоторые клиники уже экспериментируют с нейросетью — например, чтобы составлять апелляции и упрощать сложные отчёты.

А ещё бот набрал проходные баллы, отвечая на вопросы из экзамена на получение юридической лицензии и теста по экономике в Университете Джорджа Мэйсона, США. После этого останется научить его проходить собеседования — в Amazon, например, он уже сумел справиться с техническим опросником для разработчиков.

Учебные заведения не заставили студентов вести математические подсчёты в уме или в столбик, когда появился калькулятор. Вместо этого они пересмотрели подход к проверке усвоенного. То же произойдёт и в других отраслях знаний.
Джонатан Чхве, один из авторов исследования

#chatgpt #openai #нейросети

«Экзамен сдал, но на троечку»: как чат-бот ChatGPT пытался выпуститься из университетов

Что боту давалось легче и труднее всего

Что будет дальше