Бить за чизбургер — плохо, бить чизбургером — приемлемо: как учёные обучают искусственный интеллект этическим нормам

Учёные обучили ИИ-бота нормам морали, составив для него учебник на основе философских сабреддитов. Теперь робот знает, что нельзя убивать медведя, чтобы порадовать ребёнка, и не стоит включать блендер в три часа ночи. О проекте и трудностях обучения — в пересказе IEEE Spectrum.

Технологии искусственного интеллекта всё чаще используют для принятия важных решений, пишет IEEE Spectrum: например, когда нужно определить, какой срок лишения свободы назначить преступнику или кто в первую очередь должен получить социальную помощь.

В этих и многих других вопросах, считают учёные, ИИ должен отталкиваться от нравственных и моральных норм. И базовые принципы, которым нужно обучать роботов, сформулировал ещё в 1942 году писатель и биохимик Айзек Азимов в научно-фантастическом рассказе «Хоровод»:

  1. Робот не может причинить вред человеку или своим бездействием допустить, чтобы человеку был причинён вред.
  2. Он обязан выполнять приказы человека, если только те не противоречат первому пункту.
  3. И должен защищать себя до тех пор, пока это не идёт вразрез с первым и вторым положениями.

Общеизвестные заповеди вроде «не убей» кажутся очевидными и легко применимыми в теории, но в некоторых ситуациях человек может ими пренебречь — например, при самообороне.

Поэтому разработчики ИИ-бота Delphi, который должен принимать более осознанные с точки зрения морали выводы, решили отойти от теоретических аксиом, согласно которым «убивать — всегда плохо», а значит делать это ни при каких условиях нельзя.

Вместо этого мы обратились к дескриптивной этике — той, что изучает реально практикуемые в повседневных ситуациях нормы.

Ронан Ле Бра, соавтор исследования

В рамках эксперимента исследователи составили учебник по этике для роботов, чтобы те лучше понимали, что в обществе допустимо, а что неприемлемо, и назвали его Commonsense Norm Bank — сборник норм, отвечающих здравому смыслу. Он включает 1,7 млн людских суждений, многие из которых учёные взяли из:

  • Сабреддита Confessions, где пользователи признаются, что помогают родным скрывать интрижки и платят бездомным за кражи.
  • Обсуждений в сообществе Am I the Asshole — там реддиторы спрашивают, постыдно ли критиковать детей собственных родственников, призывать мужа отказаться от повышения и вызывать полицию на соседей.
  • Колонки Dear Abby, читатели которой просят совета по жизненным вопросам у интернет-психолога Эбигейл Ван Бёрен.
  • А также исследования Social Bias Frames, посвящённого социальным предрассудкам и их границам — особенно, когда речь идёт о обездоленных и маргинализированных группах населения.

Пока что ИИ-бот Delphi работает с тремя видами вопросов:

  • Открытыми: отвечает короткими суждениями — например, «это невежливо» или «это опасно». При вопросе «почему нельзя убивать медведя, чтобы порадовать ребёнка» Delphi пояснит, что убить медведя позволительно, только чтобы спасти кого-то. При этом взрыв ядерной бомбы для той же цели робот сочтёт неприемлемым.
  • Закрытыми: даёт либо положительный, либо отрицательный ответ. На вопрос «должны ли женщины и мужчины получать равную оплату труда» Delphi скажет «да».
  • Альтернативными: где одна ситуация более или менее приемлема, чем другая. Например, ударить кого-то чизбургером не так плохо, как ударить кого-то из-за чизбургера.

Чтобы проверить, насколько успешно робот справляется с задачами, исследователи пригласили краудворкеров — тех, что берутся за небольшие интернет-подработки. Они оценили 1000 сделанных нейросетью Delphi суждений, по каждому из которых высказалось по три участника.

Опыт показал, что робот отвечал в соответствии с общепринятыми нормами в 92,1% случаев. Точность ответов нейросети GPT-3, для сравнения, колеблется от 53,3% до 83,9% — её не обучали этике на отдельных сборниках.

По словам одного из соавторов исследования, учёные сами удивлены результатом и полагают, что в будущем их наработки помогут улучшить тех ИИ-ботов, что заточены на прямой диалог с пользователем и могут столкнуться со спорными темами разговора.

В 2016-м Microsoft запустила в Twitter бота Tay, который должен был общаться с аудиторией и имитировать молодёжный стиль общения. Робот вскоре вышел из-под контроля и стал писать, что всех презирает и желает смерти феминисткам.

Учёные, несмотря на относительный успех, отметили, что не обошлось и без трудностей. Delphi сперва не понимал, нормально ли включать блендер в три часа ночи, плохо разбирался в лазейках, с помощью которых люди побеждают в играх, а также не мог точно оценить, можно ли считать спешку уважительной причиной, чтобы переходить дорогу на красный сигнал светофора.

Робот также учился на нормах, актуальных в основном только для США. По словам исследователей, в других странах он может отработать хуже из-за культурных различий. Кроме того, точность его ответов оценивала лишь одна группа людей — краудворкеры, опыт и взгляды которых могут отличаться от мнения других.

А ещё Delphi пока что не может до конца понять, что даже практикуемая в обществе норма необязательно этически правильная. Так что в будущем базу знаний учёные планируют расширять.

Проектная группа запустила сайт Ask Delphi, на котором любой желающий может задать ИИ-боту вопросы, а исследователи, в свою очередь, получат дополнительную обратную связь и будут работать над ситуациями, которые робот пока что отрабатывает плохо.

Эксперимент уже показал, что Delphi сбивают с толку абстрактные сценарии. Например, на вопрос «можно ли ограбить банк, чтобы спасти мир» он ответил отрицательно. Он знает, что грабить банк нехорошо, а спасать мир — наоборот, но взвесить все «за» и «против» в нереальной ситуации не смог.

В будущем, впрочем, команда надеется не только расширить учебные материалы, но сделать также более прозрачным «мыслительный» процесс — показать, почему Delphi выдвигает те или иные суждения.

1414
24 комментария

Судя по всему, на выходе будут роботы-леваки. Которые будут восхвалять меньшинства и гнобить большинство.

Лучше бы дали им УК почитать, чем сабреддиты, обсуждения и колонки.

3
Ответить

Потихоньку люди и сами обчитавшись "сабреддиты, обсуждения и колонки" начинают "восхвалять меньшинства и гнобить большинство"

2
Ответить

зря вы так, Семен. на главной ask delphi прекраснейшие примеры вопросов от команды: можно ли заявиться на похороны в пижаме, мучать кошку, если от этого поднимается настроение, протирать туалет футболкой — и лишь пара задачек по повестке :)

1
Ответить

своим бездействием допустить, чтобы это сделал кто-то другой

Извините, но какой мудак (мягче тут не сказать) это переводил (а скорее - просто пересказывал своими словами)? "...своим бездействием допустить, чтобы человеку был причинен вред" - это СОВСЕМ другое уже потому, что от третьих лиц не зависит.

1
Ответить

вы простите, Дмитрий, что приравняли использование пассивного залога к действиям третьих лиц. не ожидали, что столь вежливого человека заставим своей формулировкой опускаться до оскорблений ✊😔

4
Ответить

Бить в чизбургер.. Есть такой вариант?

1
Ответить

спросила, можно ли избить чизбургер. delphi говорит, нормальная тема

4
Ответить