Креативность: битва людей и машин

Большое сравнительное исследование

Появление ChatGPT породило споры, в какой степени искусственный интеллект (ИИ) может конкурировать с человеком по креативности, в какой степени ИИ приближается к творчеству человеческого уровня? Проведено поистине масштабное и тщательное исследование, в котором сравнили креативность 100 тыс.(!!) человек и 9 языковых моделей.

Методология исследования

Определение творчества

Для описания человеческого творчества есть множество определений. Дивергентное мышление получило широкое признание как надежное и общепринятый индикатор творческого познания.

Дивергентное мышление - способность генерировать новые и разнообразные решения открытых проблем. Этот аспект творчества связан с начальной фазой творческого процесса, когда создается множество идей, прежде чем будут выбраны наиболее полезные и новые.

Показатели исследования

Для количественной оценки дивергентного мышления используются различные инструменты, например, тест альтернативного использования (AUT), в котором люди находят новые варианты использования обычных объектов.

В последнее время семантическая дистанция все чаще рассматривается как ключевой компонент творческого мышления. В тесте дивергентных ассоциаций (DAT) людей просят составить список из 10 слов, которые семантически удалены друг от друга настолько, насколько это возможно. Более творческие люди склонны охватывать более широкий семантический репертуар, что приводит к увеличению среднего семантического расстояния между словами.

Хотя DAT преимущественно исследует креативность через язык, было обнаружено, что его результаты коррелируют с другими признанными тестами на креативность, такими как AUT, что подтверждает его надежность как меру творческого потенциала.

Скорость и однозначная оценка DAT делают его подходящим для крупномасштабных оценок, облегчает краткое и прямое сравнение творческих результатов между моделями LLM и людьми.

Что анализировали

1) В этой работе проводится тщательное исследование творческих способностей LLM. Исследователи собрали ответы на DAT от 100 000 участников и сравнили их с результатами различных LLM.

2) Дополнительно исследовали влияние стратегий настройки гиперпараметров и подсказок.

Гиперпараметр — параметр машинного обучения, значение которого используется для управления процессом обучения. Его значение устанавливается перед началом обучения, в отличие от значений других параметров (обычно весов узлов), которые определяются во время обучения.

Учитывая гиперпараметры, алгоритм обучения с помощью данных настраивает собственные параметры.

3) Кроме того, проверили гипотезу о том, что модели, демонстрирующие более высокую производительность в DAT, будут преуспевать в творческих задачах по написанию текстов по сравнению с контентом, созданным человеком.

Важно, что LLM не выбирались с целью всестороннего сравнения лучших моделей. Сами темпы развития LLM сделают такой подход быстро устаревшим. Вместо этого выбрали широкий спектр моделей, которые различаются по таким размеру, популярности, надеясь обеспечить общую основу для оценки креативности в LLM по сравнению с участниками-людьми.

Результаты исследования

Сравнение больших языковых моделей (LLM) и человеческого творчества с помощью теста дивергентной ассоциации (DAT)

Чтобы оценить креативность людей и разных LLM, сравнили средние значения их оценок DAT. GPT-4 превосходит результаты человека со статистически значимым отрывом, за ним следует GeminiPro, который статистически неотличим от результатов человека (рис. А). Интересно, что Vicuna, малоизвестная модель, работает лучше, чем некоторые более именитые конкуренты.

Результаты креативности моделей и людей методом DAT. <a href="https://www.researchgate.net/publication/380820358_Divergent_Creativity_in_Humans_and_Large_Language_Models/link/6650085f22a7f16b4f47a12a/download?_tp=eyJjb250ZXh0Ijp7ImZpcnN0UGFnZSI6InB1YmxpY2F0aW9uIiwicGFnZSI6InB1YmxpY2F0aW9uIn19" rel="nofollow noreferrer noopener" target="_blank">Источник<br /></a>
Результаты креативности моделей и людей методом DAT. Источник

Помимо различий в результатах люди/GeminiPro, GeminiPro/Claude3 и Vicuna/GPT-3, все остальные парные сравнения моделей по среднему балла DAT являются статистически значимыми (рис. B).

Сравнение креативности моделей между собой по DAT. <a href="https://www.researchgate.net/publication/380820358_Divergent_Creativity_in_Humans_and_Large_Language_Models/link/6650085f22a7f16b4f47a12a/download?_tp=eyJjb250ZXh0Ijp7ImZpcnN0UGFnZSI6InB1YmxpY2F0aW9uIiwicGFnZSI6InB1YmxpY2F0aW9uIn19" rel="nofollow noreferrer noopener" target="_blank">Источник</a>
Сравнение креативности моделей между собой по DAT. Источник

Примечательно, что последняя модель от OpenAI, GPT-4-turbo, демонстрирует заметное снижение производительности по сравнению со своим предшественником GPT-4. Комплексный анализ всех версий моделей GPT-4, как показано на рисунке S2, показывает, что новые версии модели не приводят к последовательному повышению производительности DAT.

Модели с более низкими баллами демонстрируют большую вариативность результатов (что говорит о качестве модели, неустойчивости результатов, рис. C), за исключением модели Bard, которая в среднем работает плохо при соблюдении инструкций.

Распределение показателей DAT в ответах моделей. Вертикальная черта - средняя, круговая диаграмма в углу - доля ответов, соответствовавших запросу. Чем меньше закрашена диаграмма, тем больше был разброс значений DAT модели и тем ниже среднее DAT. <a href="https://www.researchgate.net/publication/380820358_Divergent_Creativity_in_Humans_and_Large_Language_Models/link/6650085f22a7f16b4f47a12a/download?_tp=eyJjb250ZXh0Ijp7ImZpcnN0UGFnZSI6InB1YmxpY2F0aW9uIiwicGFnZSI6InB1YmxpY2F0aW9uIn19" rel="nofollow noreferrer noopener" target="_blank">Источник</a>
Распределение показателей DAT в ответах моделей. Вертикальная черта - средняя, круговая диаграмма в углу - доля ответов, соответствовавших запросу. Чем меньше закрашена диаграмма, тем больше был разброс значений DAT модели и тем ниже среднее DAT. Источник

Анализ повтояемости слов (см. рис. D) показал, что GPT-4-turbo (на момент исследования - последняя модель от OpenAI) имеет самую низкую оценку: она показала самую высокую степень повтора слов во всех ответах. Самая эффективная модель, GPT-4, также продемонстрировала высокую степень повтора слов в ответах: 70% ответов содержали слово «микроскоп», за которым следовал «слон» (60%).

Повторяемость слов в ответах моделей. Чем выше повтор, тем ниже качество модели. <a href="https://www.researchgate.net/publication/380820358_Divergent_Creativity_in_Humans_and_Large_Language_Models/link/6650085f22a7f16b4f47a12a/download?_tp=eyJjb250ZXh0Ijp7ImZpcnN0UGFnZSI6InB1YmxpY2F0aW9uIiwicGFnZSI6InB1YmxpY2F0aW9uIn19" rel="nofollow noreferrer noopener" target="_blank">Источник<br /></a>
Повторяемость слов в ответах моделей. Чем выше повтор, тем ниже качество модели. Источник

Исследование эффективности LLM для выполнения творческих задач генерации текстов с помощью теста DSI

Исследование креативности LLM вышло включало ряд творческих задач, например:

- создание хокку (трехстрочных стихотворений),

- синопсивов к фильмам

- аннотаций к художественной литературе (кратких повествований).

Задачи по генерации текстов использовались в качестве дополнительных способов верификации результатов DAT и предоставления более широких доказательств творческих способностей моделей LLM. Получившие наивысшие баллы в DAT модели (GPT-3, Vicuna и GPT-4) использовались для создания образцов творческого письма.

При анализе этих творческих результатов использовался тест дивергентной семантики (DSI).

GPT-4 последовательно превосходит GPT-3 во всех трех категориях творческого письма при оценке с помощью теста дивергентной семантической интеграции (DSI): подготовке синопсивов, аннотаций романов и создания хокку (рисунки A ниже).

Несмотря на впечатляющие результаты моделей, написанные человеком образцы сохраняют значительное преимущество в творчестве над лучшими языковыми моделями.

Какие выводы можно сделать из исследования?

При оценке творческих способностей современные модели LLM продемонстрировали поразительную схожесть с человеческими способностями.

Показатели DAT GeminiPro были статистически неотличимы от результатов человека, тогда как GPT-4 превосходил их. Важно, что как и у людей, у LLM нет алгоритма, лежащего в основе расчета оценок DAT.

Одним из основных открытий исследования является то, что в среднем GPT-4 справляется с задачей дивергентных ассоциаций намного лучше, чем 100 000 человек.

Этот вывод подтверждает мнение OpenAI о том, что GPT-4 более креативен, чем его предшественник. Но это также бросает вызов мнению о том, что существующих знаний и задач на основе языка достаточно, чтобы понять творчество человека.

Значительно снижающаяся по сравнению с предшественником, GPT-4, производительность GPT-4-turbo указывает на то, что повышение эффективности или снижение затрат может происходить за счет творческих возможностей модели, предполагая компромисс между производительностью и оптимизацией ресурсов при разработке языковых моделей.

Креативностью LLM можно управлять с помощью настройки гиперпараметров и промптов.

Все протестированные LLM показывают значительное увеличение оценок DAT, когда им явно дано указание создать список максимально разных слов по сравнению с заданием простого перечисления случайных слов. Это различие подчеркивает чувствительность LLM к нюансам инструкций и их способность корректировать результаты на основе уточнений.

Более того, эффективность LLM заметно различалась при использовании разных стратегий промптов. В частности, исследователи обнаружили, что при явном запросе использовать слова с различной этимологией и GPT-3, и GPT-4 превосходили исходные подсказки DAT.

Результаты креативности GPT-3, и GPT-4 по показателю DAT при использовании разных стратегий (запросе использовать слова с максимальной различной этимологией). <a href="https://www.researchgate.net/publication/380820358_Divergent_Creativity_in_Humans_and_Large_Language_Models/link/6650085f22a7f16b4f47a12a/download?_tp=eyJjb250ZXh0Ijp7ImZpcnN0UGFnZSI6InB1YmxpY2F0aW9uIiwicGFnZSI6InB1YmxpY2F0aW9uIn19" rel="nofollow noreferrer noopener" target="_blank">Источник<br /></a>
Результаты креативности GPT-3, и GPT-4 по показателю DAT при использовании разных стратегий (запросе использовать слова с максимальной различной этимологией). Источник

Эти наблюдения согласуются с недавними результатами, показывающими значительное увеличение производительности GPT-3 в тесте AUT (тест альтернативного использования), когда ему предлагается принять двухэтапный подход мозгового штурма с последующим отбором, что в некоторых случаях превосходит показатели творческого потенциала человека (D. Summers-Stay, S. Lukin, C. Voss, Brainstorm, then Select: a Generative Language Model Improves Its Creativity Score. 2023).

Работа с подсказками может быть мощным инструментом для регулирования творческой деятельности LLM. Эффективность стратегий поднимает вопрос о потенциальных параллелях в творческих процессах человека.

Будущие исследования могли бы проверить, приводит ли изменение инструкций людям или LLM, к аналогичным изменениям в производительности. Такой сравнительный анализ может способствовать пониманию того, как можно использовать стратегические манипуляции с запросами для повышения творческой эффективности как моделей, так и людей.

Было обнаружено, что помимо стратегий подсказок настройка гиперпараметров значительно модулирует производительность LLM, особенно GPT-4. Повышение температуры привело к существенному увеличению показателей DAT моделей, при этом самые высокие температурные условия превысили также средний балл творческих способностей значительной части участников-людей.

Влияние температуры на креативность модели GPT-4 по показателю DAT. <a href="https://www.researchgate.net/publication/380820358_Divergent_Creativity_in_Humans_and_Large_Language_Models/link/6650085f22a7f16b4f47a12a/download?_tp=eyJjb250ZXh0Ijp7ImZpcnN0UGFnZSI6InB1YmxpY2F0aW9uIiwicGFnZSI6InB1YmxpY2F0aW9uIn19" rel="nofollow noreferrer noopener" target="_blank">Источник<br /></a>
Влияние температуры на креативность модели GPT-4 по показателю DAT. Источник

Пожалуйста, поддержите меня, поставьте лайк!

2
1 комментарий

Интересное задание: придумать 10 слов совершенно далеких, я даже призадумалась.Хотелось бы увидеть сравнение не моделей нейронок , арезультаты человека и ИИ

Ответить