Профессора права выбрали ответы ИИ вместо коллег в 75% случаев

Команда из Стэнфорда проверила то, что обычно остается за кадром в спорах про ИИ как репетитора. Большинство тестов гоняют модели по задачам с единственным правильным ответом: математика, факты, код. Но право устроено иначе. Здесь ответ редко бывает фактом, чаще это аргумент, который надо собрать из правил, исключений и здравого смысла. Именно поэтому контрактное право стало жестким полигоном для языковых моделей.

В исследовании участвовали шестнадцать профессоров права из США. Они сами написали 40 вопросов в стиле тех, что задают студенты, дали на них свои ответы, а затем вслепую оценили почти три тысячи пар ответов. В каждой паре сравнивали ответ человека и ответ модели, не зная, где чей.

Результат оказался неудобным для людей. Ответы моделей выигрывали в среднем в 75% случаев, а лучшие из них шли вровень с самым сильным преподавателем в группе. При этом предпочтения судей совпадали между собой и опирались на общие профессиональные стандарты, а не на личный вкус отдельного эксперта.

Отдельно проверяли, насколько ответы способны навредить студенту, если он примет их за чистую монету. Ответы ИИ помечали как вредные лишь в 3,5% случаев, у людей этот показатель был 12%. То есть модель не просто красиво формулировала, а заметно реже толкала студента к неверному выводу.

Любопытна и методология. Авторы показали, что оценку можно масштабировать: вместо того чтобы каждый раз собирать комиссию профессоров, в роли судьи можно поставить отдельную языковую модель. Согласие такого судьи с экспертами оказалось достаточным, чтобы прогонять через эту схему новые модели без участия живых людей.

Главное здесь не очередной рейтинг, а сам факт: в области, где ценится не знание факта, а способность рассуждать и взвешивать неоднозначность, модели уже держат планку, которую профессора используют, когда объясняют студентам спорные места.

Источники:

Исследование Stanford Law School: https://law.stanford.edu/publications/law-professors-prefer-ai-over-peer-answers/