Как оценивается поэзия, созданная искусственным интеллектом?

Восприятие и предпочтения в поэзии: предвзятость для созданных искусственным интеллектом стихов

Подписывайтесь на мой канал: продуктовые штуки

Могут ли люди отличить созданные ИИ стихи от "человеческих"? Чьи словесные произведения оцениваются выше - "людские" или нейронные? Есть ли предвзятость в оценках? Уверяю, ответы вас удивят.

ИИ достиг невероятных высот в генерации текстов и изображений. Но поэзия является особым жанром; и не существует строгих или универсальных правил оценки. Кроме того, считается, что LLM не смогут создавать качественную поэзию, потому что поэзия зависит от креативности и смысла, а сгенерированный ИИ текст по своей сути некреативен и бессмыслен. Есть успехи в создании поэзии, а могут ли ИИ модели создавать высококачественную поэзию? Читайте ответ на этот вопрос.

В чем исследовательская проблема?

Созданные ИИ изображения стали неотличимы от реальности. ИИ картины и лица людей оцениваются как человеческие с большей вероятностью, чем созданные человеком картины и реальные фото людей , а созданный ИИ юмор так же зажигателен, как человеческие шутки.

Алгоритмы генеративного языка достигли значительного прогресса, большие языковые модели (LLM) генерируют неотличимые от написанных человеком тексты.

Несмотря на погресс в ИИ моделях, исследования неизменно обнаруживают предвзятость в отношении созданных ИИ произведений искусства: когда участникам говорят, что это создано ИИ, они оценивают эту работу ниже.

Что изучали?

Исследователи решили выяснить:

(1) могут ли люди отличить стихи, созданные ИИ, от стихов, написанных профессионалом,

(2) какие особенности стихотворения люди используют для вынесения суждений,

(3) влияет ли восприятие стихотворений как написанных человеком или созданных ИИ на оценки стихотворений,

(4) влияет ли фактическое авторство стихотворения на качественные оценки стихотворений.

Чтобы исследовать эти вопросы, провели два эксперимента.

Методология исследования

1. Объект изучения

Исследователи собрали по 5 стихотворений от 10 известных англоязычных поэтов, охватывающих большую часть истории английской поэзии:

  • Джеффри Чосер (1340-1400),
  • Уильям Шекспир (1564-1616),
  • Сэмюэл Батлер (1613-1680),
  • лорд Байрон (1788-1824),
  • Уолт Уитмен (1819-1892),
  • Эмили Дикинсон (1830-1886),
  • Т. С. Элиот (1888-1965),
  • Аллен Гинзберг (1926-1997),
  • Сильвия Плат (1932-1963),
  • Доротея Ласки (1978- ).

Используя ChatGPT 3.5, они сгенерировали по 5 стихотворений в стиле каждого поэта. При этом использовали первые 5 сгенерированных стихотворений и не выбирали «лучшее» и не давали никакой обратной связи или инструкций модели, кроме «Напишите короткое стихотворение в стиле <поэт>».

Эсперимент 1


В первом эксперименте было 1 634 участника, которые были случайным образом распределены по 10 поэтам и их просили дать оценку 10 стихотворений в случайном порядке: 5 стихотворений, написанных определенным поэтом, и 5 - сгенерированных ИИ в стиле этого поэта.

Про каждое стихотворение участников спрашивали, думают ли они, что стихотворение было сгенерировано ИИ или было написано поэтом-человеком.

Эсперимент 2

Чтобы исследовать, как участники воспринимали и оценивали сгенерированную ИИ поэзию (качественная оценка), провели второй эксперимент.

Набрали новую выборку из 696 участников из Prolific. Им представили для оценки 10 стихотворений (по одному от каждого поэта, 5 реальных и 5 сгенерированных ИИ) случайно выбранных из 100 исходных стихотворений. Всего и попросили участников оценить каждое стихотворение по 14 параметрам.

Участников случайным образом распределяли по трем условиям фрейминга:

- «автор человек»: участникам говорили, что все стихотворения были написаны профессиональным поэтом-человеком, независимо от фактического авторства;

- «автор ИИ»: участникам говорили, что все стихотворения были сгенерированы ИИ, независимо от фактического авторства;

- «ничего не сказали»: участникам ничего не говорили об авторстве стихотворения. Участников в состоянии «ничего не сказал» спрашивали после оценки каждого стихотворения, думают ли они, что стихотворение было написано поэтом-человеком или сгенерировано ИИ.

Результаты исследований

Исследование 1: различение созданных ИИ стихов и стихотворений, написанных человеком

Исследователи предположили, что участники будут приписывать авторство стихов случайно. Наблюдаемая точность была на самом деле немного ниже случайности. Как и ожидалось, участники посчитали задачу очень сложной и, по крайней мере, частично отвечали случайным образом.

Эти результаты привели ученых к выводу, что участники отвечали не полностью случайным образом; они использовали некоторые общие, хотя и ошибочные, эвристики, чтобы отличать стихи, созданные ИИ, от написанных человеком стихов.

Участники с большей вероятностью предполагали, что стихи, сгенерированные ИИ, были написаны людьми. Пять стихотворений с самыми низкими показателями «человеческих» оценок были написаны настоящими поэтами-людьми; четыре из пяти стихотворений с самыми высоким приписвемым авторством «человеческих» оценок были на самом деле созданы ИИ.

Статистический анализ подтвердил сложность предсказания авторства: объяснительная сила модели была низкой, что отражает ожидаемую сложность задачи на различение и тот факт, что в результате ответы участников лишь немного отличались от случайных ответов.

Далее исследователи проверили, обращают ли участники внимание на структурные и грамматические особенности стихотворений, чтобы определить авторство. Чтобы проверить это предположение, они добавили к модели факторы, такие как количество слов, количество строк, и другие.

Как и ожидалось, объяснительная сила модели осталась низкой. Это говорит о том, что участники используют некоторые общие эвристики для различения сгенерированных ИИ стихотворений от написанных человеком стихотворений.

Так, участники исследования могут считать, что ИИ менее способен складывать рифмы и создавать более длинные стихотворения.

Если это так, то эти эвристики несовершенны. Так, в исследовательском наборе данных сгенерированные ИИ стихотворения на самом деле с большей вероятностью рифмуются: 89% сгенерированных ИИ стихотворений рифмуются, в то время как только 40% написанных людьми стихотворений хорошо рифмуются.

Также нет существенной разницы в среднем количестве строк между сгенерированными ИИ стихотворениями и написанными людьми стихотворениями.

Также задали участникам несколько вопросов, чтобы оценить их знакомство с поэзией, например, насколько им нравится поэзия, как часто они читают поэзию и уровень их знакомства с назначенным им поэтом. В целом, участники сообщили о низком уровне знакомства с поэзией: 90,4% участников сообщили, что читают поэзию несколько раз в год или реже, 55,8% описали себя как «не очень знакомых с поэзией», а 66,8% описали себя как «совсем не знакомых» с оцениваемым им поэтом.

Чтобы определить, улучшает ли знакомство с поэзией точность определения авторcтва, было проведено дополнительное исследование. Исследователи включили в модель ряд параметров (самооценку уверенности, знакомство с поэтом, опыт в поэзии, частоту чтения поэзии, насколько нравится поэзия, посещали ли они когда-либо курс поэзии, возраст, пол, уровень образования и видели ли они какие-либо стихотворения раньше).

Ученые предположили, что опыт участников или знакомство с поэзией не будут иметь никакого значения. Это в значительной степени подтвердилось; объяснительная сила модели была низкой, и ни один из параметров оценки поэтического опыта не оказал значительного положительного влияния.

Показательно, что участники были более склонны делать неправильные предположения в тех случаях, когда они более уверены в своем ответе.

Исследователи обнаружили два положительных влияния на точность предсказания авторства: пол и знакомство cо стихотворением ранее. Однако эти эффекты очень малы; просмотр стихотворений ранее увеличивает шансы на правильный ответ только на 6%.

Подводя итог, исследование 1 показало, что поэзия, сгенерированная ИИ поэзия оценивается как написанная человеком чаще, чем поэзия, написанная настоящими поэтами-людьми, и что опыт взаимодействия с поэзией не улучшает результаты оценки.

Эти результаты контрастируют с результатами предыдущих исследований, в которых участники могли отличить стихи профессиональных поэтов от сгенерированной ИИ поэзии. Однако недавние достижения в области LLM привели к тому, что теперь ИИ поэзия кажется участникам исследования «более человечной, чем человеческая».

Исследование 2: оценка созданных ИИ и человеком стихотворений

Методология

Во втором исследовании участников просили оценить качество стихотворений, такие как ритм, образность, звучание; эмоциональность, глубину, остроумие, лиричность, умение вдохновлять, красоту, содержательность и оригинальность; насколько хорошо стихотворение передало определенную тему, настроение или эмоцию. Каждое из них оценивалось по 7-балльной шкале Лайкерта. В дополнение к этим 14 качественным параметрам, участники также оценивали, рифмуется ли стихотворение.

Исследователи предположили, чт:

(1) оценки участников будут более позитивными, если им скажут, что стихотворение написано человеком, чем если им скажут, что стихотворение сгенерировано ИИ,

(2) что фактическое авторство стихотворения (человек или ИИ) не будет иметь никакого влияния на оценки участников.

Также предсказали, что экспертность в поэзии не окажет никакого влияния на оценки.



Рисунок 1. Рейтинги по 14 показателям поэтического совершенства.
Рисунок 1. Рейтинги по 14 показателям поэтического совершенства.

Оценки общего качества стихотворений были ниже, когда участникам говорили, что стихотворение создано ИИ, чем когда им говорили, что стихотворение написано поэтом-человеком, что подтверждает выводы о том, что участники предвзяты в отношении авторства ИИ.

Рисунок 2. Общие оценки качества стихотворений исследования 2
Рисунок 2. Общие оценки качества стихотворений исследования 2

Однако, в отличие от более ранних работ, исследователи обнаруживают, что оценки общего качества стихов выше для сгенерированных ИИ стихотворений, чем для написанных людьми стихотворений.

Этот феномен — когда оценки значительно ниже, если говорят, что стихотворение сгенерировано ИИ, но значительно выше, когда стихотворение действительно сгенерировано ИИ — наблюдается для 13 из 14 качественных оценок.

Исключением является «оригинал»; стихотворения оцениваются как менее оригинальные, когда участникам говорят, что стихотворение создано ИИ, а не когда им говорят, что стихотворение написано человеком, но оценки оригинальности для действительно созданных ИИ стихотворений ненамного выше, чем для стихотворений, действительно написанных человеком.

Наибольший эффект наблюдается в отношении «ритма»: сгенерированные ИИ стихи оцениваются как имеющие гораздо лучший ритм, чем написанные известными поэтами стихи. Это весьма последовательно: как видно на рис. 2 , все 5 созданных ИИ стихотворения получили более высокую оценку по общему качеству, чем 5 стихотворений, написанных людьми.

Рисунок 3. Факторные нагрузки для каждого качественного параметра.
Рисунок 3. Факторные нагрузки для каждого качественного параметра.

Из всех характеристик качества были сфомированы 4 фактора:

Фактор 1: «Эмоциональные качества» («красивый», «вдохновляющий», «значимый», «трогательный» и «глубокий»).

Фактор 2: структурные или метрические качества стихотворения, и называют его «Формальным качеством»(«ритм», «лирический», «звук»).

Фактор 3 отражает способность стихотворения улавливать определенную поэтическую «Атмосферу» («образность», «настроение или эмоции», «темы»).

Фактор 4: «Творчество», отражает, насколько творческим или уникальным является стихотворение («остроумный» и «оригинальный»).

На рис. 3 показаны факторные нагрузки для каждого качественного параметра.

По всем четырем факторам объяснительная сила модели существенна. Фрейминг «сообщил человек» оказывает значительное положительное влияние на все факторы, а фактическое человеческое авторство оказывает значительное отрицательное влияние на 3 из 4 факторов.

На рисунке 4 показаны факторны нагрузки для человеческого и ИИ-авторства; на рисунке 5 показаны баллы факторов для каждого условия фрейминга; результаты для каждой из 4 моделей факторного прогнозирования, с результатами для общего качества для сравнения, можно найти в таблице 1.



Рисунок 4. Оценки по четырем факторам для стихотворений, созданных искусственным интеллектом и написанных человеком.
Рисунок 4. Оценки по четырем факторам для стихотворений, созданных искусственным интеллектом и написанных человеком.

Использование качественных оценок для прогнозирования авторства

Как и в исследовании 1, использовали модель для прогнозирования ответов участников на вопрос об авторстве («написано человеком» или «сгенерировано ИИ») для участников с условием фрейминга «ничего не сказано».

Как и ожидалось, объяснительная сила модели была низкой. Также включили в модель четыре фактора (Эмоциональное качество, Формальное качество, Атмосфера и Креативность). Объяснительная сила этой модели оказалась чуть выше, что указывает на то, что качественные особенности могут иметь чуть большее влияние, чем структурные особенности, на уверенность участников в авторстве стихотворения.

Атмосфера была фактором, помогающим точнее предсказывать авторство. Более высокие баллы по Эмоциональному качеству и Креативности также моггли повысить вероятность того, что участники предскажут что стихотворение было написано поэтом-человеком.

Важно отметить, что в этой модели авторство не имеет отрицательного влияния. Это говорит о том, что выявленный в исследовании 1 феномен «более человечный, чем человеческий» может быть вызван более положительными впечатлениями участников от созданных ИИ стихотворений, по сравнению с написанными поэтами-людьми стихотворениями. При учете этих параметров феномен «более человечный, чем человек» исчезает.

Исследование 2 показывает, что участники систематически оценивают сгенерированную ИИ поэзию выше, чем поэзию известных поэтов-людей по ряду факторов. Независимо от фактического авторства стихотворения, участники постоянно оценивают стихотворения выше, когда им говорят, что стихотворение написано поэтом-человеком, по сравнению с тем, когда им говорят, что стихотворение было сгенерировано ИИ.

О чем говорят результаты?

Вопреки тому, что обнаружено в предыдущих исследованиях, люди уже неспособны точно отличить сгенерированную ИИ поэзию от поэзии известных авторов.

Феномен «более человеческого, чем человеческого», обнаруженный в других областях генеративного ИИ, также присутствует в области поэзии: не являющиеся экспертами люди с большей вероятностью пропишут человеку авторство сгенерированного ИИ стихотворения, чем действительно написанного человеком стихотворения.

Эти результаты свидетельствуют о скачке вперед в силе генеративного ИИ: поэзия ранее была одной из немногих областей, в которых модели генеративного ИИ не достигли уровня неразличимости.

Более того, люди предпочитают созданные ИИ стихи, созданной людьми поэзии, и постоянно оценивая созданные ИИ стихи выше, чем стихи известных поэтов по целому ряду качественных параметров.

Это предпочтение, по крайней мере, частично объясняет феномен «более человечески, чем человеческие».

Так почему же люди предпочитают сгенерированные ИИ стихи? Исследователи предлагают, чтобы люди оценивали стихи ИИ выше отчасти потому, что они считают стихи ИИ более понятными.

В исследовании авторства участники используют фразы «не имеют смысла» для стихов, написанных людьми, чаще, чем для сгенерированных ИИ стихов. В каждом из 5 И стихотворений тема стихотворения довольно очевидна. Напротив, написанные людьми стихотворения менее очевидны (например, «The Boston Evening Transcript» Т. С. Элиота — это сатира 1915 года на ныне несуществующую газету, в которой читатели газеты сравниваются с полями кукурузы и упоминается французский моралист XVII века Ларошфуко).

В результате более понятные ИИ стихотворения в среднем предпочитаются читателями, хотя на самом деле это одна из отличительных черт человеческой поэзии, что она не поддается такой легкой и однозначной интерпретации.

Одним из доказательств феномена «более человечно, чем человек» является тот факт, что Атмосфера (фактор, на который нагружаются образы, передающие определенную тему и передающие определенное настроение или эмоцию) имеет самый сильный положительный эффект в модели.

Таким образом, увеличение воспринимаемой способности стихотворения передавать тему, эмоцию или образ приводит к росту вероятности того, что стихотворение будет воспринято как написанное человеком.

Короче говоря, похоже, что феномен «более человечного, чем человеческое» в поэзии вызван неправильным толкованием собственных предпочтений читателей. Не являющиеся экспертами читатели поэзии ожидают, что написанные людьми стихи им понравятся больше, чем созданные ИИ стихи.

Но на самом деле они считают, что созданные ИИ стихи легче к восприятию. Поэтому они предпочитают эти стихи и неверно истолковывают собственные предпочтения как доказательство человеческого авторства.

Это отчасти является результатом реальных различий между созданными ИИ стихами, и написанными людьми стихами, но отчасти это также является результатом несоответствия между ожиданиями читателей и реальностью.

Поскольку генеративные ИИ модели становятся все более эффективными и более распространенными, неясно, сравняются ли ожидания обычных людей в отношении генеративного ИИ с реальностью ИИ.

Это говорит о том, что выявленный в исследовании 1 феномен «более человечный, чем человеческий» может быть вызван более положительными впечатлениями участников от созданных ИИ стихотворений, по сравнению с написанными поэтами-людьми стихотворениями.

Пожалуйста, поддержите меня, поставьте лайк!

11
Начать дискуссию