«Экзамен сдал, но на троечку»: как чат-бот ChatGPT пытался выпуститься из университетов Статьи редакции

Спойлер: с трудом. Но учёные отмечают, что с простыми вопросами он справляется не хуже студентов.

Источник: Showmetech

Научные сотрудники юридического факультета Университета Миннесоты решили проверить, сможет ли чат-бот ChatGPT сдать экзамены наравне со студентами. Задач было две: понять, на что способен расхваленный ИИ, и подумать, как его умения могут упростить жизнь ученикам и преподавателям.

Из дисциплин выбрали четыре: конституционное право, гражданско-правовые правонарушения, налогообложение и трудовые гарантии и компенсации. Для первых двух необходимы знания с первого курса обучения, остальные — элективные предметы для продвинутых.

Экзамены предполагали как выбор правильного варианта ответа на закрытые вопросы, так и краткие и развёрнутые эссе на заданные темы. В двух были ограничения по длине ответа, а в тесте по конституционному праву студентов также обязали ссылаться на источники.

Всего чат-бот ответил на более чем 95 вопросов с вариантами ответов и решил 12 задач на рассуждение. После этого один из профессоров оформил ответы так, будто они принадлежат человеку, и перемешал их с уже обезличенными результатами настоящих студентов. Вот как ChatGPT справился:

  • Конституционное право — «хорошо», 36 место из 40 сдававших.
  • Трудовые гарантии и компенсации — «хорошо с минусом», 18 из 19.
  • Налогообложение — «удовлетворительно с минусом», 66 из 67.
  • Гражданско-правовой деликт — «удовлетворительно с минусом», 75 из 75.

«Удовлетворительно», она же «С» — это не худшая оценка в образовательной системе США: после неё идут ещё две отметки. Так что бот получил проходные баллы и в теории мог бы даже выпуститься. Однако авторы исследования замечают: он оказался в рядах худших, и ему, скорее всего, назначили бы академический испытательный срок — чтобы убедиться, что он старается.

Что боту давалось легче и труднее всего

Закрытые вопросы с вариантами ответа показались ChatGPT сложнее, чем открытые, говорят учёные. Бот верно ответил на 21 из 25 таких заданий на экзамене по конституционному праву, а в случае с гражданско-правовым деликтом, не ошибся в шести вопросах из десяти.

Хуже он справился с математическими заданиями по налоговой теме: там верно ответить получилось лишь в восьми случаях из 29.

При написании эссе показатели бота тоже были неоднозначными, говорят авторы. С одной стороны, в некоторых случаях он отвечал не хуже, а иногда и лучше студентов: ёмко пересказывал подходящие доктрины, которые не упоминались в вопросах, и цитировал факты и решения по прецедентам. Комиссия также отметила, что «речь» нейросети хорошо структурирована.

С другой стороны, если бот ошибался, то «по-крупному», заблуждаясь гораздо сильнее учеников. И это касалось не только тех заданий, которые было трудно выполнить без присутствия при разборе в классе. Например, в задании про закон «О пенсионном обеспечении наёмных работников» (ERISA) он доходчиво объяснил крайне трудные положения и привёл в пример дела, рассмотренные ранее в Верховном суде США.

Однако бот плохо понимал, на чём фокусироваться, поэтому много рассказал об основаниях для исковых претензий (и одно из них оказалось ошибочным), но толком ничего не написал о том, какие у наёмных работников есть средства правовой защиты.

Помимо этого, ChatGPT с трудом выявлял проблемы в заданных сценариях (в одном из случаев он назвал всего одну из пяти), а также делал поверхностные выводы при изучении гипотетических сюжетов: называл релевантную статью закона, но оказывался не в силах провести глубинные причинно-следственные связи.

Сошёл ли бот за студента при проверке?

Двое из трёх проверяющих признались, что результаты ChatGPT выдавала «идеальная грамматика» и однообразие формулировок.

Что будет дальше

Вместо того чтобы игнорировать ChatGPT, нужно искать способы применить его во благо и адаптировать к нему свои привычные процессы, считают в Университете Миннесоты: например, пересмотреть тесты, где от студентов требуются только односложные ответы.

И вузам, и школам наверняка придётся об этом задуматься, поскольку работа исследователей из Миннесоты — не первая в своём роде. Ранее профессор Уортонской школы бизнеса попросил нейросеть GPT-3 выполнить выпускной экзамен на получение степени MBA. И, по его словам, она получила бы оценку «хорошо» или «хорошо с минусом».

В его случае бот тоже складно отвечал на базовые вопросы, связанные с управлением и анализом процессов и подробно мотивировал свои ответы. А ошибался он в лёгких математических расчётах — и испытывал сложности с вопросами, требующими более глубокой проработки.

Почти или просто удовлетворительные результаты ChatGPT показал и при сдаче теста на медицинскую лицензию в США. Авторы исследования рассказали, что некоторые клиники уже экспериментируют с нейросетью — например, чтобы составлять апелляции и упрощать сложные отчёты.

А ещё бот набрал проходные баллы, отвечая на вопросы из экзамена на получение юридической лицензии и теста по экономике в Университете Джорджа Мэйсона, США. После этого останется научить его проходить собеседования — в Amazon, например, он уже сумел справиться с техническим опросником для разработчиков.

Учебные заведения не заставили студентов вести математические подсчёты в уме или в столбик, когда появился калькулятор. Вместо этого они пересмотрели подход к проверке усвоенного. То же произойдёт и в других отраслях знаний.

Джонатан Чхве, один из авторов исследования
0
46 комментариев
Написать комментарий...
Горбачева Арина

Что ж его все так не любят ,бот только появился и это только начало , дальше будет показывать , по моему мнению сногшибательные результаты

Ответить
Развернуть ветку
Nickolai Vasiliev

Помнится, как высокомерно посмеивались над Дип Блю, пока он не чпокнул Каспарова :).

Ответить
Развернуть ветку
Иван Егоров

И надо же шахматисты не исчезли и даже чемпионаты мира остались :)

Ответить
Развернуть ветку
Саша Антипов

Они по идее и не должны исчезать, шутники)

Ответить
Развернуть ветку
Nickolai Vasiliev

Вот и я про то.

Ответить
Развернуть ветку
Саша Антипов

Человеку страшно тогда, когда он чего-то не понимает.

Ответить
Развернуть ветку
Lowcost

Ну на самом деле ИИ в исчезновении шахмат мало эффективен. Шахматы являются игрой с полной информацией (https://ru.m.wikipedia.org/wiki/%D0%98%D0%B3%D1%80%D0%B0_%D1%81_%D0%BF%D0%BE%D0%BB%D0%BD%D0%BE%D0%B9_%D0%B8%D0%BD%D1%84%D0%BE%D1%80%D0%BC%D0%B0%D1%86%D0%B8%D0%B5%D0%B9), а значит для того чтобы "убить" шахматы нужен не ИИ, а компьютер такой мощности, что сможет просчитывать все ходы за минимальный промежуток времени.

Ответить
Развернуть ветку
Nickolai Vasiliev

а должны :)?

Ответить
Развернуть ветку
Иван Егоров

Нет конечно

Шутка

Ответить
Развернуть ветку
Oleg Arkhangelsky
Трудовые гарантии и компенсации — «хорошо с минусом», 18 из 19.

Это как? Чтобы получить четыре с минусом достаточно занять предпоследнее место?

Ответить
Развернуть ветку
Саша G

Это из сдавших.

Ответить
Развернуть ветку
Евгений Вилков

Я тоже писал большую статью про GPT. Всю ночь пахал, и наконец бот доделал: Пока есть моменты, которые доделываем, но работает.
https://t.me/GPT_Kolersky_bot

https://vc.ru/tech/580739-chto-umeet-chat-gpt-kak-polzovatsya-v-rossii

Ответить
Развернуть ветку
3 комментария
Наталья Антошина

Простой с виду юридический кейс, если искусственно не ограничить в нем глубину исследования, легко превращается в диссертацию или бесконечное число вариантов и решений. Отделить в нем существенное от несущественного, вероятное от невероятного, выбрать лучшее решение из многих - этому юристы учатся годами на практике, и, некоторые, безуспешно.
А сдать экзамены - и робот может:))))

Ответить
Развернуть ветку
Вадим Т.
Ответить
Развернуть ветку
Ольга Петрова

Классный чат
Жаль что стал платным

Ответить
Развернуть ветку
Vika Koroleva

кому надо, явно предпочтет потратиться, и получить результат работы бота для своих целей

Ответить
Развернуть ветку
Иван Егоров

платить троечнику за помощь? :-)

Ответить
Развернуть ветку
Vika Koroleva

со временем подтянется до хорошиста, потом может быть и до отличника!

Ответить
Развернуть ветку
Sergeant Ding

А профессора дадут для верификации ответа?

Ответить
Развернуть ветку
Vika Koroleva

Больше вопросов вызывает, когда такой новоиспеченный "врач" примется за реальных пациентов

Ответить
Развернуть ветку
Алексей Бровко

На самом деле еще большой вопрос кто потенциально лучше будет ставить диагноз, нейросекточка, или Галина Васильевна, книжки с 73го года не отрывающая.

Ответить
Развернуть ветку
Dimitri

Он не стал платным. Появилась платная про версия которая быстрее и не глючить. Пользуюсь сегодня бесплатной версией уже весь день без проблем!

Ответить
Развернуть ветку
Александр Пивоварчик.

Сегодня написал статью с 60+ альтернативам GPT3, около 40 доступны из России
https://vc.ru/services/593857-60-iskusstvennyh-intellektov-vse-chto-izobrelo-chelovechestvo-na-segodnya

Ответить
Развернуть ветку
Dimitri

Пишите про альтернативу GPT-3в заголовке, ведаете список где половина текстовых ИИ на базе GPT работает.

Ответить
Развернуть ветку
Александр Пивоварчик.

да? перечислите эту половину.

Ответить
Развернуть ветку
Dimitri

copy.ai, jasper, writesonic, chibi как минимум на GPT-3 работают. Так что они ни какая не альтернатива, это чисто обложка GPT, ну может еще немного подкручина.

Ответить
Развернуть ветку
Александр Пивоварчик.

У вас проблемы с математикой из 60+ это не половина

Ответить
Развернуть ветку
Dimitri

Я про текстовые ИИ писал во первых. А во вторых, зачем писать чепуху и выдавать сервисы которые основаны на GPT за алтернативу GPT?

Ответить
Развернуть ветку
Александр Пивоварчик.

Перечитайте заглавие

Ответить
Развернуть ветку
Denis Shiryaev

ChatGPT работает на GPT 3.5, своими руками ChatGPT не сделать (и альтернатив нет по качеству таких же)

Ответить
Развернуть ветку
Александр Пивоварчик.

Вы когда 10-20 из списка протестите, поговорим.

Ответить
Развернуть ветку
Sergey Ilyin

Зачем пихать этот недогугл везде и позориться? Вам в комментариях справедливо сказали, что у вас тупой голый список. Или так сильно нужен трафик и подписки на тг-канал?

Ответить
Развернуть ветку
Александр Пивоварчик.

Ахаха я угораю, пишет копипастер с тг канала. У вас смотрю только извилин хватило, ctrl+c нажать и учите кого-то, мне то хоть погуглить пришлось для статьи.
Там в коментах чел скинул лучше моего списка, копипасть и лучше сделай.

Ответить
Развернуть ветку
Sergey Ilyin

Именно. Лучше. Потому как ваш - ну говно же. И вы сами, уверен, это знаете. Но ссаные лайки не дают спокойно жить.

Ответить
Развернуть ветку
Александр Пивоварчик.

В моем списке, 80% того, что скинули в коменте. В отличии от вас, у меня нет привычки комуниздить чужой контент. Для вас привычное дело воровать, так как извилины прямые, может на градусов 179 закручены, конечно, так как хоть своровать додумались.

Ответить
Развернуть ветку
Руслан Аюпов

Очень забавно))

Ответить
Развернуть ветку
Wladimir

Юристов он не подвинет, но разного рода копирайтерам очевидно уже стоит напрячься ))

Ответить
Развернуть ветку
Ольга Петрова

Писать что ли больше не про что)

Ответить
Развернуть ветку
Евгений Вилков

Я тоже писал большую статью про GPT.
Всю ночь пахал, и наконец бот доделал:
Пока есть моменты, которые доделываем, но работает.
https://t.me/GPT_Kolersky_bot

https://vc.ru/tech/580739-chto-umeet-chat-gpt-kak-polzovatsya-v-rossii

Ответить
Развернуть ветку
Встанислав Шишкин

В итоге, лет через 5, этот бот заменит 99% бесполезных смузихлёбов, просиживающих штаны на всевозможных должностях. И это здорово, ибо на заводах людей не хватает

Ответить
Развернуть ветку
Ivan. Zakladka

Ну всё. Закрыли доступ россиянам. Все оттеснили? Норм выдавал чего?

Ответить
Развернуть ветку
Prosto Zurab

Это чат весьма хорошое оружие в правильных руках. Как говорится, победили не машины которые заменили людей на заводах, а люди, которые этими машинами управляли. Когда-то считали что и онлайн переводчики заменят реальных переводчиков, но как мы видим картина особо не изменилась, и переводчиками пользуются для повседневных задач простые люди

Ответить
Развернуть ветку
Илья Коваленко

Нужен обратный эксперимент, студенты пишут тест, а GPT и преподы проверяют. Далее смотрят на разницу оценок.
И вдогонку GPT решает тест и GPT c преподом потом проверяют ответы и сравнивают результаты.

Ответить
Развернуть ветку
43 комментария
Раскрывать всегда