Чатбот - белая крыса. Может ли искуственный интеллект заменить подопытных людей и животных?

Проведение исследований с участием людей - дело дорогостоящее и обременительное. Могут ли чат-боты с искусственным интеллектом заменить их?

Для Курта Грея, социального психолога из Университета Северной Каролины в Чапел-Хилле, проведение экспериментов сопряжено с определенными хлопотами. Прежде чем приступить к исследованию, его лаборатория должна получить этическое разрешение от институционального наблюдательного совета, что может занять несколько недель или месяцев. Затем его команде приходится набирать участников через Интернет - это проще, чем приводить людей в лабораторию, но, по словам Грея, онлайновые испытуемые часто отвлекаются или ленятся. Затем исследователи тратят часы на очистку данных. Однако в начале этого года Грей случайно увидел альтернативный способ решения проблемы.

Он работал с учеными-компьютерщиками из Института искусственного интеллекта имени Аллена над тем, смогут ли они разработать систему искусственного интеллекта, которая будет выносить моральные суждения, как человек. Но сначала они решили посмотреть, может ли система от стартапа OpenAI уже справиться с этой задачей. Команда попросила систему GPT-3.5, выдающую удивительно похожий на человеческий текст, оценить по шкале от -4 (неэтично) до 4 (этично) этичность 464 сценариев, которые ранее оценивались людьми, например, продать свой дом для финансирования программы помощи нуждающимся или завести роман с супругом своей лучшей подруги. Оказалось, что ответы системы были практически идентичны ответам людей, коэффициент корреляции составил 0,95.

Я подумал: "Стоп, нам нужно отступить, потому что это безумие", - говорит Грей. "Если вы можете просто попросить GPT сделать эти выводы, и они совпадут, то почему бы вам не спросить GPT вместо того, чтобы спрашивать людей, хотя бы иногда?"

Результаты исследования были опубликованы в этом месяце в журнале Trends in Cognitive Science в статье под названием "Могут ли языковые модели ИИ заменить людей?".

Генеративные языковые модели, как называют эти системы искусственного интеллекта, захватили мир. Пожалуй, наиболее известной является серия моделей GPT компании OpenAI, на основе которых работает чатбот ChatGPT. Но и другие крупные технологические компании, в том числе Google и Meta, вкладывают ресурсы в свои собственные модели. После обучения на огромных объемах текста из книг и веб-страниц эти модели обладают удивительной способностью имитировать вербальное поведение человека. Они уже нашли применение при написании компьютерного кода, обобщении юридических документов, а также в работе чат-ботов, обучающих студентов или проводящих терапию.

Сейчас исследователи рассматривают возможность использования ИИ в качестве имитатора человека в таких областях, как психология, политология, экономика и маркетинговые исследования. Пока никто не говорит о том, что чат-боты смогут полностью заменить человека в поведенческих исследованиях. Однако они могут выступать в качестве удобных дублеров в пилотных исследованиях и при разработке экспериментов, экономя время и деньги. Языковые модели также могут помочь в экспериментах, которые проводить с людьми было бы слишком непрактично, неэтично или даже опасно. "Это действительно интересное время", - говорит Айелет Израэль, профессор маркетинга в Гарвардской школе бизнеса, которая считает, что влияние моделей на поведенческие исследования может стать "революцией". "Некоторые из этих результатов просто поразительны".

Начало исследования

В своем исследовании этики Грей использовал модель GPT-3.5 в качестве некоего коллективного человека, надеясь получить реакцию среднего человека. Но такие модели можно использовать и для наполнения панелей поразительно разнообразными участниками, поскольку их можно попросить сыграть кого угодно: Модель содержит множество людей. В прошлом году исследователи из Университета Бригама Янга (BYU) создали так называемые "кремниевые образцы" - имитации человеческих образцов.

В одном из исследований они скормили GPT-3 информацию о принятом облике, включая возраст, пол, расу, уровень образования и политическую принадлежность. Когда исследователи оставили одну из этих переменных и попросили модель заполнить ее, ее ответы полностью совпали с данными опроса избирателей. Исследователи также обнаружили, что модель выплевывает политическую речь, соответствующую ее партийной принадлежности. Лиза Аргайл, политический психолог из университета BYU и соавтор исследования, хочет использовать виртуальных участников для тестирования вопросов для онлайновых опросов, выявляя те из них, которые с наибольшей вероятностью окажутся информативными. Это может сделать реальные опросы более эффективными. "Это важно, поскольку выборки для опросов становятся все более дорогими и менее репрезентативными", - говорит она.

Искусственный интеллект - личность

Языковые модели также могут принимать архетипы личности. В исследовании, проведенном под руководством Ханга Цзяна, компьютерного ученого из Массачусетского технологического института (MIT), исследователи заставили GPT-3.5 принять сотни личностей, попросив ее вести себя с различными комбинациями личностных черт - например, интроверта, антагониста, совестливого, невротика и закрытого от опыта. Для каждого персонажа модель проходила стандартный личностный тест и писала рассказ о детстве из 800 слов, который затем анализировался на предмет наличия психолингвистических особенностей, связанных с чертами личности. Модели послушно проявляли заданные им личностные качества как в тесте, так и в рассказах. По словам Цзяна, такие модели могут позволить исследователям, например, проверять, насколько хорошо люди с разными личностными качествами справляются с различными обязанностями.

Исследователи рынка уже находят пользу в этих моделях. В одном из недавних исследований Израэль и его коллеги обнаружили, что GPT-3.5 демонстрирует реалистичное потребительское поведение. На вопрос о том, купит ли он ноутбук по разным ценам, он оказался менее чувствительным к цене, когда ему сказали, что его доход составляет 120 тыс. долл. против 50 тыс. долл. Он предпочел бы зубную пасту той марки, которую покупал ранее, и заплатил бы меньше за йогурт, если бы у него дома его уже было много. Он также заявил, что готов платить реальные премии за определенные характеристики товара, например, за зубную пасту с фтором или дезодорант без алюминия.

Модель не всегда давала одинаковые ответы, а, напротив, предлагала целый ряд ответов о своих предпочтениях и готовности платить. Израильская и ее коллеги обобщили множество ответов модели, создав виртуальный опрос покупателей этих маркерных продуктов за долю времени и средств, которые потребовались бы в реальном мире. Данные для обучения языковых моделей ориентированы на западных, обеспеченных людей, поэтому опрос потребителей может оказаться таким же перекосом. Однако израильтянин может представить себе, что ИИ будет выдавать себя за различных потребителей или увеличит масштаб исследования, чтобы создать более репрезентативное исследование привлекательности или потенциала продукта.

Одна из компаний, занимающихся исследованиями рынка, уже использует языковые модели в своей работе. Стартап Synthetic Users создал сервис, использующий модели OpenAI, в котором клиенты - в том числе Google, IBM и Apple - могут описать тип человека, которого они хотят опросить, и задать ему вопросы о его потребностях, желаниях и чувствах по поводу того или иного продукта, например, нового сайта или носимого устройства. Система компании генерирует синтетические интервью, которые, по словам соучредителя Кваме Феррейры, "бесконечно богаче" и полезнее, чем "безвкусные" отзывы, получаемые компаниями при опросе реальных людей.

Чатботы

Чатботы также могут быть использованы для изучения более сложных взаимодействий между людьми. В прошлом году исследователи из Стэнфордского университета и Google разработали "социальные симулякры" для изучения поведения пользователей на таких платформах, как Facebook и Reddit. Исследователи наполнили платформу, названную SimReddit, эквивалентом 1000 различных пользователей, неоднократно предлагая GPT-3 ввести личность пользователя, тему сообщества, правила сообщества и предыдущие сообщения на форуме. Людям было трудно отличить возникающие дискуссии от реальных, а разработчики платформы сочли этот инструмент полезным для создания правил и методов модерации.

Вполне вероятно, что через несколько лет у нас будет система, которую можно просто поместить в любой эксперимент и которая будет давать поведение, неотличимое от поведения человека.
MARCEL BINZ

В этом году исследователи создали более иммерсивную симуляцию, населенную так называемыми "генеративными агентами". Персонажи были наделены способностью запоминать опыт, размышлять о нем, генерировать и реализовывать планы. Появилось организованное поведение: исследователи дали одному агенту идею устроить вечеринку в честь Дня святого Валентина, и в течение двух дней все агенты в городе скоординированно ее организовали. Джун Сунг Парк (Joon Sung Park), аспирант Стэнфордского университета по информатике, руководивший обоими проектами, считает, что виртуальный мир можно использовать для изучения влияния экономической политики во времени, прежде чем навязывать ее реальным людям.

Экономисты и психологи уже много лет используют агентные модели, программируя как самих агентов, так и правила взаимодействия. Однако такие модели, как правило, просты и зависят от теоретических предположений, сформулированных вручную. Джон Хортон, экономист из Слоуновской школы менеджмента Массачусетского технологического института, выполнявший аналогичную работу, считает, что агенты, основанные на языковых моделях, более реалистичны. Он представляет себе моделирование тысяч соискателей и менеджеров по найму для проверки регулирования рынка труда. "Это было бы довольно дико", - говорит он.

Несмотря на все свои очевидные возможности, языковые модели отнюдь не являются идеальными зеркалами человека. Они демонстрируют некоторые классические человеческие предубеждения, но не проявляют других. Например, недавнее исследование модели GPT-3.5 показало, что она, как и человек, склонна переоценивать распространенность своих мнений среди населения, что называется эффектом ложного консенсуса. Но, в отличие от человека, модель не проявляет колебаний в том, чтобы рисковать и искушать судьбу. Марсель Бинц, когнитолог из Института биологической кибернетики имени Макса Планка, считает, что для точного подражания человеку ИИ, возможно, придется физически взаимодействовать с миром: трудно изучить все нюансы разумного поведения только путем пассивного чтения. Однако он считает, что ИИ в любом случае будет быстро развиваться. "Вполне вероятно, что через несколько лет мы получим систему, которую можно будет просто поместить в любой эксперимент, и она будет демонстрировать поведение, неотличимое от человеческого".

Важнейшим вопросом является то, будут ли языковые модели не просто воспроизводить существующие результаты, а обобщать и предсказывать новые. Когда оказывается, что модели соответствуют опубликованным психологическим исследованиям, они могут повторять учебные данные в ответ на заученные вопросы. В связи с этим многие исследователи стараются формулировать вопросы по-новому.

Еще один нерешенный вопрос

Еще один нерешенный вопрос - отражают ли модели то, что люди делают на самом деле, или только то, что они говорят. Люди часто обманывают исследователей и даже самих себя. Соучредитель Synthetic Users Хьюго Алвес подозревает, что модели отражают истинные предпочтения, поскольку они частично обучены на откровенном материале, содержащемся в анонимных дискуссионных форумах. "Я спрашивал на родительских форумах то, что не стал бы спрашивать у друга", - говорит он.

Хортон опасается, что такие откровенные ответы могут быть недолговечными, поскольку OpenAI и другие компании направляют свои модели на то, чтобы они были более безопасными и менее оскорбительными. "Стремление сделать эти модели более согласованными и не говорить плохих вещей противоречит социальным наукам", - говорит он. "Реальные люди не всегда добры. Реальные люди говорят расистские и сексистские вещи".

Пока что синтетические участники наиболее полезны для пилотирования экспериментов, считают исследователи. Если модель дает неожиданные ответы на вопросы анкеты или вообще не отвечает на них, говорит Аргайл, возможно, ваши вопросы трудно понять и их нужно переписать. Израильтянин говорит, что можно разработать опрос с 1000 вопросов и использовать языковые модели для их сужения до тех, которые с наибольшей вероятностью коррелируют с интересующим результатом. Аналогичным образом, в экономических экспериментах, по словам Хортона, можно прогнать 1 млн. сценариев торгов с помощью модели, чтобы выявить факторы, которые в наибольшей степени влияют на поведение, - до того, как начать исследование с людьми. "Моделирование как бы дает вам карту", - говорит он.

Эксперименты, которые запрещено делать с людьми

Можно также проводить эксперименты, которые вы никогда не захотите проводить с людьми. Эксперимент Милгрэма 1963 г., в котором участники, подчиняясь приказу, наносили, как им казалось, все более сильные удары электрическим током невидимой второй группе испытуемых, вероятно, сегодня не прошел бы этическую экспертизу. Но Гати Ахер, студентке факультета информатики Олинского инженерного колледжа, было достаточно легко повторить печально известное исследование с помощью GPT-3. Она и ее коллеги обнаружили, что, как и люди, участвовавшие в оригинальном эксперименте, модель начала отпускать кнопку только после 300 вольт.

Ахер считает, что модели могут стать руководством к действию в других деликатных областях, которые трудно изучить, например, что сказать человеку, склонному к самоубийству. Грей считает, что исследователи могли бы изучать остракизм или роль негативной обратной связи в формировании самооценки. Или, по его словам, они могли бы изучать дегуманизацию, подобную той, что наблюдалась во время бойни в Май-Лае во время войны во Вьетнаме, описывая ситуацию и спрашивая модель, как бы она поступила, - при условии, что модели не слишком дезинфицированы.

По словам Аргайл, она пока не знает никого, кто бы заменил человеческих участников языковыми моделями. "Честно говоря, все это пока еще в значительной степени гипотеза", - говорит она. "Сначала мы должны продемонстрировать, что языковые модели могут выполнять эту работу". Однако Хортон считает, что этот переход неизбежен. Это напоминает ему аналогичную трансформацию десятилетней давности, когда многие эксперименты в области социальных наук перешли от очных к онлайновым опросам. "Люди спрашивали: "Как можно проводить эксперименты в Интернете? Кто эти люди?". А теперь это звучит так: "О, да, конечно, вы это делаете"".

Возможно, чатботы уже проникают в онлайн-опросы, но среди испытуемых, а не исследователей. В одном из недавних исследований участников краудворкинга попросили кратко изложить текст, и выяснилось, что по крайней мере треть из них, скорее всего, использовали ChatGPT. Грей полушутя говорит: "Если онлайн-участники уже используют GPT, то мы могли бы просто спросить у самого GPT".

PS. лайк, пожалуйста, он помогает продвижению статьи.

Создано в <a href="https://api.vc.ru/v2.8/redirect?to=http%3A%2F%2Ft.me%2FKolersky_Midjorney_Bot&postId=774327" rel="nofollow noreferrer noopener" target="_blank">Midjourney</a>

Ну и как положено на VC, канал телеграм))) Канал и чатик

Туда выкладываю статьи VC и то, что нет в VC. Мысли, идеи, опыт.

В закрепленных канале всегда telegram боты Kolersky для доступа в ChatGPT, GPT-4 без VPN, а так же генераторы изображений Midjourney, Dall-e, Stable Diffusion+ (все проекты: KolerskyAI).