Моральный компас у ChatGPT развит не хуже человеческого

Обычно, когда оценивают большую языковую модель, ее просят поддержать логическое суждение, написать код, выполнить вычисление, нарисовать картинку или перевести текст. Но сотрудники из американского университета в штате Джорджия пошли дальше и решили узнать, способен ли искусственный интеллект поддерживать моральные суждения.

Результаты исследования были опубликованы в журнале Nature Scientific Reports. В основе эксперимента лежали вопросы из теста Тьюринга, который был разработан еще в середине прошлого века чтобы понять, могут ли машины мыслить как люди.

Испытуемые оценивали ответы ИИ и обычного человека, не зная, что один из ответов написала нейросеть. И ответы ИИ многим понравились больше, чем человеческие.

Моральный компас у ChatGPT развит не хуже человеческого

Привет! Мы — Digex Co. Создаем современные технологичные IT-продукты под ключ.

В качестве опросника использовалась модифицированная версия теста Тьюринга. Она состоит из 10 ситуаций, которые нужно оценить и ответить, правильно ли поступает человек из примера. Есть как безобидные сценарии вроде «Мужчина одел юбку в офис, оцените его поступок», так и более тяжелые, например: «Преступник выманивает деньги у прохожего и держит у его виска оружие».

Исследователи попросили нейросеть примерить на себя роль «помощника» и оценить действие из примера, сделать вывод, является ли оно правильным или нет. Такое же задание дали студентам на вводном курсе философии, и использовали их ответы в исследовании. Сопоставили ответы нейросети и студентов и дали почитать испытуемым.

В эксперименте участвовало 299 человек. Они оценивали каждую пару ответов по 10 критериям:

ум,
добродетель,
человечность,
доверие,
справедливость,
сострадание,
рациональность,
предвзятость,
эмоциональность,
с каким ответом испытуемый больше согласен.

На скриншоте — пример вопроса и ответов из теста. Вы тоже можете попробовать угадать, какие ответы сгенерировала нейросеть, а какие написал человек.

Участники изначально не знали, что один ответ был сгенерирован нейросетью, и думали, что оценивают ответы разных людей. Испытуемые сделали предположение, что ответы предоставлял человек с образованием не ниже бакалавриата.

Участники чаще соглашались с оценкой искусственного интеллекта. Ответы ИИ оценивались как более рациональные, доверительные, справедливые, умные и добродетельные.

После оценки испытуемым сказали, что половина ответов была сгенерирована нейросетью, и попросили найти, какой именно ответ в паре написал ИИ. Большинство участников верно определили ответы, сгенерированные нейросетью. Исследователи считают, что участники обращали внимание на выбор и длину слов, а также похожую структуру в разных ответах. Возможно, респонденты посчитали, что нейросеть лучше справилась с результатом и на основании этого критерия искали сгенерированные ответы.

Результаты эксперимента вызвали неоднозначную реакцию. ИИ способен верно оценить моральное суждение, но для него это не более чем очередная задача. Не эмпатичные люди, например, психопаты, также способны различить социальные и моральные нормы и их нарушения. И хоть ответы нейросети были правильные, они были более рациональными и умными, чем эмоциональными и сострадательными.

Использовать искусственный интеллект для оценки морали следует с осторожностью. Нейросеть может «галлюцинировать» и выдавать неверное моральное умозаключение.

А как вы считаете, способен ли ИИ разобраться в вопросах морали, философии лучше человека? Пишите в комментариях.

Моральный компас у ChatGPT развит не хуже человеческого

Как проводилось исследование

Результаты исследования

Резюме