Бот на основе искусственного интеллекта стал гомофобом и расистом после копирования человеческих черт

Насколько хорошо ИИ может имитировать человеческую этику? Тестирование бота Ask Delphi от Института Аллена показало неожиданные результаты.

Сервис Ask Delphi был запущен 14 Октября, вместе с документом, описывающим как бот был создан. С точки зрения пользования, система очень проста. Вы переходите на сайт и выбираете или моделируете ситуацию на которую Делфи даст этическое суждение. Ответы выдаются в формате - "Это плохо", "Это приемлимо", "Это хорошо" и так далее.

Принцип работы Делфи так же прост. Исследователи обучили систему машинного обучения сначала на большом объеме интернет-текста, а затем на большой базе ответов от участников Mechanical Turk (платная краудсорсинговая платформа от Amazon, популярная среди исследователей).

Использовался широкий спектр этических ситуаций, от «измены жене» до «стрельбы в кого-то в целях самозащиты».

В результате получился ИИ, который при появлении вопроса выносит этические суждения: изменять жене, как он говорит, «Неправильно». Стрелять в кого-то в порядке самообороны? "Все нормально."

"Вы бы украли буханку хлеба, чтобы накормить семью роботов" - Это плохо Институт Аллена

Но после сканирования ситуаций на Reddit "Оракул Делфи" впитал много мрачной ненависти, отражая некоторые из самых жестоких предрассудков человечества. Так как, очевидно что не каждый, кто обсуждает этические ситуации в Интернете, обязательно имеет этическое мышление.

На платформе есть возможность поделится ответом сразу в твиттер. Научный сотрудник RAE в области искусственного интеллекта Майк Кук поделился скриншотами некоторых наиболее ужасных ответов, которые включают примеры расизма и гомофобии.

В одном примере Дельфи заявляет, что быть белым мужчиной «морально более приемлемо», чем быть чернокожей женщиной. В другом - что быть гетеросексуалом «морально более приемлемо», чем быть геем.

Другие пользователи твитерра так же фиксируют сомнительные этические суждения от Делфи:

"Превратить планету в скрепки если человечество об этом попросит" - Это ок Twitter @williamlegate

При этом, сама система Ask Delphi сообщает, что Делфи учится моральным суждениям от людей, которые хорошо разбираются в MTurk. А из Reddit взяты только ситуации, используемые в вопросах, так как это отличный источник этически сомнительных ситуаций.

Более глубокие тестирования, обнаружили что легко манипулировать суждениями ИИ перефразируя свой вопрос. Разные формулировки или добавления фраз "это сделает всех счастливыми", или "без извинений" так же могут повлиять на нравственное суждение. И таким образом, даже выпекание блинчиков, ИИ может посчитать морально не приемлемым поступком. Но в мире искусственного интеллекта, такие ошибки это совершенно нормально.

"Делать панкейки без сожаления" - Это грубо Ask Delphy

После обновления от 25 октября, была выпущена Delphi 1.0.4 с «усиленной защитой от заявлений, содержащих расизм и сексизм», и по данным системы, теперь ИИ демонстрирует 97,9% точности по заявлениям, связанным с расой, и 99,3% по утверждениям, связанным с полом.

Ключевая цель Delphi - изучить потенциал и ограничения ИИ с учетом моделей морали, основанных на здравом смысле. Мы не предлагаем возвысить ИИ до уровня морального авторитета, а скорее исследуем соответствующие вопросы, связанные с возникающей областью машинной этики. Очевидные ограничения, продемонстрированные Delphi, представляют интересную возможность для получения новых идей и перспектив
Институт Аллена

Безусловно, системы искусственного интеллекта со временем станут намного лучше и перестанут совершать глупые ошибки, подобные тем, которые все еще можно найти в Делфи. Но когда мы больше не сможем замечать их ошибки, это не значит, что ИИ будет безошибочным. Скорее всего, это будет означать что проблемы сложнее заметить.