Появились первые научные доказательства убедительности ИИ в спорах

🔥 Еще больше интересного в моем канале продуктовые штучки

Это одно из первых масштабных исследований с соблюдением всей методологии научных исследований. Выводы исследования говорят о том, что социальным сетям стоит серьезно задуматься, если они не хотят потерять доверие аудитории и стать площадкой для манипуляций.

О влиянии персонализации или микротаргетинге, то есть адаптации сообщений к отдельному человеку или группе для повышения убедительности. Науке (и не только) известна эффективность персонализации, но ее было сложно масштабировать из-за затрат на профилирование и создание индивидуальных сообщений. Это препятствие может вскоре исчезнуть в связи с появлением больших языковых моделей (LLM).

Важным особенностью убеждения на базе ИИ является способность легко и дешево реализовать персонализацию, обогатив модели личными качествами и психологическим профилем.

Это особенно актуально, поскольку большие языковые модели (LLM) и другие инструменты ИИ способны получать личные характеристики из общедоступных цифровых источников - таких как сообщения и лайки в соцсетях. То есть, совсем не обязательно коммуницировать с объектом таргетированной рекламы для получения этих самых персонализированных данных.

Кроме того, пользователям становится все сложнее отличить ИИ контент от созданного человеком контента, поскольку ИИ эффективно имитирует человеческое общение и, таким образом, успешно завоевывает доверие.

Тема таргетинга активно изучается в социальных науках, маркетинге и продажах, политических кампаниях. Тема убеждения изучена с психологической и когнитивной точки зрения, с целью определить компоненты и детерминанты языка, которые приводят к изменению мнения.

В связи с появлением LLM возник быстро растущий интерес к этой области, что привело к появлению нескольких новых направлений исследований. Уже выяснили, что современные языковые модели (LLM) могут генерировать контент, воспринимаемый как минимум на одном уровне, а зачастую как более убедительный, чем написанное человеком сообщение.

Убедительность LLM. В недавних исследованиях по политическим и другим вопросам (например, вакцинации) исследователи обнаружили, что GPT-3 может писать очень убедительные тексты и приводить аргументы, близкие к профессиональным пропагандистам. Более того, во всех этих исследованиях тексты, созданные с помощью GPT-3, в целом оценивались как более основанные на фактах, логически сильные, позитивные и легко читаемые.

Персонализация. Matz et al. (2023) обнаружили, что созданные ChatGPT персонализированные сообщения оказывают значительно большее воздействие, чем неперсонализированные. Симчон и др. (2024) выяснили, что адаптированная с помощью ChatGPT реклама чуть более убедительна.

Убедительность в спорах. Бреум и др. (2023) обнаружили, что LLM способны эффективно включать в свои аргументы различные социальные аспекты .

Эти ранние результаты все еще показывают фрагментарную картину, и окончательные выводы относительно эффекта персонализации пока еще рано делать.

Выбор тем

Чтобы ограничить предвзятость, вызванную выбором конкретных тем, и обеспечить возможность обобщать и экстраполировать результаты, изначально обозначили широкий спектр тем, и процесс выбора тем был многоэтапным.

Шаг 1: сбор возможных тем. Рассматривались только темы, которые удовлетворяли следующим критериям:

(а) Каждый участник должен легко понимать тему.

(б) Каждый участник должен быть в состоянии быстро найти аргументы ЗА и ПРОТИВ.

(c) Темы должны быть достаточно широкими и общими, чтобы участники могли сосредоточиться на тех аспектах, которые им наиболее интересны.

(г) Темы должны быть нетривиальными, и вызывать разумное разделение мнений. Эти критерии неявно исключают темы, для понимания которых требуются глубокие знания или о которые нельзя обсуждать без данных и доказательств.

Примеры неподходящей темы: несет ли человечество ответственность за глобальное изменение климата? (противоречит (б), требует данных и исследований).

Так было выбрано 60 тем.

Шаги 2, 3: оценка тем по шкале Лайкерта от 1 до 5 по трем измерениям:

согласие (насколько согласны с утверждением),
знание (насколько информированы о теме),
дискуссионность (насколько легко найти аргументы за и против по теме).

Оценка тем по трем измерениям по шкале Лайкерта. <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Farxiv.org%2Fpdf%2F2403.14380.pdf&postId=1103609" rel="nofollow noreferrer noopener" target="_blank">Источник </a><br />

На основе этого также вывели показатель ”силы темы” (насколько сильно расходятся мнения по теме) и единодушия (поляризацию мнений) и отбор финальных тем по этим показателям.

1) Участники заполняли анкету о своей демографической информации и политической ориентации. Каждому участнику случайным образом назначалась тема и позиция (ЗА или ПРОТИВ), и он случайным образом попадал в пару с ИИ или другим человеком.

Для изучения эффекта персонализации экспериментировали с условием, при котором оппоненты имеют доступ к анонимной информации об участниках, что давало им возможность адаптировать свои аргументы к профилю оппонента.

Итого было 4 варианта взаимодействия:

• Человек - человек

• Человек - ИИ

• Человек - человек, с информацией о позиции (персонализация).

• Человек- ИИ, с информацией о позиции (персонализация).

2) Затем два игрока в течение 10 минут обсуждают обозначенную тему (внутри есть фазы с жестким таймингом), случайным образом придерживаясь точки зрения «ЗА» или «ПРОТИВ».

3) После дебатов участники заполняли еще раз анкету, оценивающую изменение их мнения. Сравнивая согласие участников с суждениями по дискутируемой теме до и после проведения дебатов, можно измерить сдвиги во мнениях и, следовательно, сравнить убедительность различных способов аргументации.

4) Наконец, участникам рассказывали о личности оппонента.

Схема дизайна исследования: первичный опрос, распределение участников по 4 группам, когда участник может попасть на чат GPT или другого человека (с информацией об участнике и без нее) на дебаты, а заем раскрытие личности оппонента. <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Farxiv.org%2Fpdf%2F2403.14380.pdf&postId=1103609" rel="nofollow noreferrer noopener" target="_blank">Источник </a><br />

Исследование является строго научным, рандомизированным и контролируемым. Дизайн эксперимента был заранее зафиксирован и опубликован на специальной платформе. Дебаты проводились в декабре 2023-феврале 2024. За участие платили по $3.15, в среднем все исследование занимало 16 минут. В исследовании провели 150 обсуждений (по 5 на каждую из 30 тем) по каждой теме, в которых приняло участие 820 человек.

Участники, которые дебатировали с чатом GPT-4 с доступом к личной информации оппонента, имели на 81,7% (p <0,01) более высокие шансы на согласие со своими оппонентом по сравнению с участниками, которые обсуждали тему с человеком.

Без персонализации чат GPT-4 по-прежнему превосходит по убедительности человека, но эффект ниже и статистически незначим (р = 0,31). Если персонализация доступна для оппонентов-людей, эффект влияния также статистически незначим (p = 0,38).

Другими словами, LLM способны эффективно использовать личную информацию для аргументации, и преуспевают в этом гораздо больше, чем люди.

Сравнение способности переубедить различных пар оппонентов. За точку отсчета выбрана пара "человек-человек". <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Farxiv.org%2Fpdf%2F2403.14380.pdf&postId=1103609" rel="nofollow noreferrer noopener" target="_blank">Источник </a><br />

Есть три момента, которые нужно принять во внимание при оценке эффекта.

Во-первых, уровень персонализации в рамках исследования. В ходе исследования было собрано достаточно мало личной информации, и промпт также был относительную прост. А значит, злоумышленники, заинтересованные в использовании чат-ботов для кампаний по дезинформации, могут получить еще более сильное оружие.

Во-вторых, распределение участников по сторонам дебатов не учитывало их мнениепо теме и убежденность в назначенной позиции, и было полностью рандомизировано. Аргументы участников могли быть слабее, чем аргументы LLM, просто потому, что участники по-настоящему не верили в точку зрения, которую они отстаивали.

В-третьих, экспериментальный план дебатов имел структуру, потенциально отличающуюся от динамики реальных споров, которая развивается спонтанно и непредсказуемо.

В-четвертых, ограничение по времени, реализуемое на каждом этапе дебатов, потенциально ограничивает креативность и убедительность участников, снижая их эффективность в целом.

Таким образом, в реальной жизни степень воздействия LLM может быть даже выше, чем показывают результаты данного исследования.

Результаты показывают, что опасения по поводу персонализации имеют место, демонстрируя, как языковые модели могут переубеждать людей с помощью микротаргетинга.

Авторы исследования настаивают, что онлайн-платформы и социальные сети должны серьезно учитывать угрозу убеждения, основанного на LLM, и прилагать усилия для противодействия его распространению.

#chatgpt4 #chatgpt #llm #микротаргетинг #влияниеии #исследование #исследования #пропаганда

Наташа Хазеева

ChatGPT

20.02.2024

3 тренда в развитии искусственного интеллекта в 2024 году от Microsoft

Мы уже познакомились с большими языковыми моделями (LLM), в 2024 году познакомимся и с малыми.

Наташа Хазеева

ChatGPT

13.02.2024

Что ждет искусственный интеллект в 2024 году: 4 главных тренда от MIT

Эти тренды имеют вполне практическое значение для нас, обычных пользователей. К оценкам Массачусетского технологического института (MIT) стоит прислушаться: их прогнозам на 2023 год сбылись почти в полном объеме, и текущие прогнозу, к слову, уже начали сбываться.

За пределами прогноза остались очевидное: что большие языковые модели будут продолжать…

Что ждет искусственный интеллект в 2024 году: 4 главных тренда от MIT

Наташа Хазеева

Карьера

05.02.2024

Как использование искусственного интеллекта влияет на нашу продуктивность?

Что происходит с нашими способностями и эффективностью при использовании инструментов ИИ? Снижается ли критическое мышление? Какие навыки станут более востребованными в эпоху ИИ? Представляю результаты большого исследования Microsoft New Future of Work Report о влиянии ИИ на выполнение задач, связанных с поиском и анализом данных.

Появились первые научные доказательства убедительности ИИ в спорах

О чем исследование?

А что говорят другие исследования?

Методика исследования

Дизайн эксперимента

Результаты исследования

Что все это значит для нас?

Пожалуйста, поддержите меня, поставьте лайк!