К вопросу о рисках развития искусственного интеллекта (часть 3)

В предыдущей статье был рассмотрен риск усиления интернет-мошенничества, его предпосылки, следствия для общества, бизнеса и отдельного человека, а также способы минимизации. В этой статье будет кратко описан третий риск, способный оказать сильнейшее влияние на большие массы населения и каждого отдельного человека.

Риск №3: Эскалация межрелигиозных, межэтнических и межнациональных конфликтов

Большие языковые модели обучаются на постоянно увеличивающемся объеме текста. Но каков этот объем? По одним оценкам, для GPT-3, объем обучающей выборки составлял сотни гигабайт, по другим – десятки терабайт. Учитывая качественный прогресс модели GPT-4 по сравнению с третьей моделью, можно говорить об увеличении датасета в разы. Если брать минимальную доступную оценку датасета для GPT-3 в 570 гигабайт, то объем обучающей выборки GPT-4 должен был увеличиться как минимум до терабайта и выше. Такие данные должны тщательно размечаться для улучшения финального качества генеративных моделей и далеко не всегда аннотацию информации можно автоматизировать. Предположим, что разметка на 100% велась бы в ручном формате. В среднем один человек может обработать 5 000 токенов в день (это ~ 9 страниц текста А4 и порядка 0,05 мегабайт). За 1 месяц 1 человек сможет обработать 270 страниц или 1,5 мегабайта обучающего датасета. За 1 год – 3 240 страниц А4 или 18 мегабайт. Соответственно, чтобы за 1 год собрать обучающий датасет для GPT-4 размером 1 терабайт вам потребуется нанять 55 555 человек. Это впечатляет. А теперь давайте предположим, что 20% (11 111 человек) из этой выборки подходили к задаче аннотирования текста с некоторой субъективностью (религиозной, этнической или национальной). Пойдем дальше и предположим, что из этих 11 111 человек - 20% (2 222) намерено размечали данные таким образом, чтобы выставить в лучшем свете свои культурные отличия и в негативном особенности других рас, групп и народов. А это 40 гигабайт искаженного текста. И тогда мы получим вполне вероятный риск того, что расистские, сексистские и иные оскорбительные высказывания окажутся в обучающих данных.Но это только моделирование ситуации, при которой все 100% данных обрабатываются вручную.

Сгенерированное изображение датасета для большой языковой модели
Сгенерированное изображение датасета для большой языковой модели

В реальности же большая часть контента для датасета GPT-3 и GPT-4 была собрана автоматизировано. Примерно только 10%-20% аннотировалось руками. Однако даже 20% от 570 гигабайт – это 57 гигабайт, и если вернуться к логике Парето, то более 11 гигабайт могли быть дискриминированы религиозными, этническими и национальными предубеждениями. И при увеличении объема датасета, процент скомпрометированных данных будет расти прямопропорционально. Соответственно, чем больше модель, тем больше в ней может быть агрессии и ненависти. Но пытливый читатель скажет, что это всё только вероятности, гипотезы и, что у нас есть автоматическая разметка: в которой ошибки минимальны. К сожалению, и это не так. Среди огромных наборов текстов и изображений из Интернетавстречается токсичный контент, включая насилие, порнографию и дискриминационные описания. Очень не просто полностью удалить такого рода данные, когда их там много, а потребность выпускать все более мощную модель так высока.

Сгенерированное изображение маленьких картинок, объединённых цифровой паутиной
Сгенерированное изображение маленьких картинок, объединённых цифровой паутиной

Компании давно знают о проблемах с качеством больших датасетов. К примеру, ImageNet, основной обучающий набор 2009 года, состоящий из 14 миллионов изображений, использовался более десяти лет, прежде чем исследователи обнаружили контент с сексуальными изображениями, на которых можно было легко идентифицировать некоторых женщин. Эти изображения были отсортированы по категориям, помеченным оскорблениями, такими как «королева шкафа», «мулат», «не человек», «извращенец» и «шизофреник». Авторы ImageNet исключили большинство категорий, но многие современные датасеты собраны аналогичным образом, путем использования изображений, полученных без согласия тех, кто на них изображен. И эта проблематика сохраняется до сих пор. Например, модель Stable Diffusion от Stability AI привлекла внимание, когда в ответ на запросы с текстом «Latina» генерировались изображения женщин в вызывающих позах, почти без одежды. Однако более поздняя версия модели генерировала более безобидные изображения. В чем причина? Анализ показал, что обучающие данные для первой версии содержали гораздо больше порнографии.

Также важно учитывать такой аспект, как унификация создаваемого контента. Чем больше в обучающей выборке представлены языковые структуры, нормы и стилистические особенности определенного языка, тем сильнее модель становится склонной к их воспроизведению. Это приводит к тому, что языки и культуры, которые менее представлены в Интернете из-за ограниченного доступа, оказываются недостаточно учтенными. В результате искусственный интеллект, обученный на данных, отражающих нормы и традиции наиболее активных интернет-пользователей, начинает воспроизводить преимущественно практики и взгляды самых развитых стран и сообществ. Довольно показательной является статья, недавно вышедшая в The Washington Post под названием "AI generated images arebiased, showing the world through stereotypes", где наглядно показывается, как генеративные text to image модели, такие как Stable Diffusion и DALL-E, часто усиливают гендерные и расовые стереотипы, несмотря на усилия по снижению предвзятости в обучающих данных. Они создают образы, отражающие именно устаревшие западные стереотипы, которые могут искажать реальность относительно не западных религиозных, этнических и национальных групп.

Отрывок из статьи The Washington Post, наглядно демонстрирующий предвзятость генеративных моделей
Отрывок из статьи The Washington Post, наглядно демонстрирующий предвзятость генеративных моделей

Внимательный читатель скажет, что современные большие языковые модели умеют фильтровать вопросы и ответы и не позволят себе оскорбительные утверждения и неприличные картинки на тему расы, этноса или религии. К сожалению, такие ограничения можно обойти. Существует такое понятие, как prompt injection attack. Это особый вид уязвимости генеративных языковых моделей, когда злоумышленник использует возможности модели интерпретировать ввод, чтобы заставить ее выполнять нежелательные действия. Т.е. фактически в модель добавляются скрытые или явные команды, чтобы обойти её ограничения (в том числе, внутреннюю цензуру). Механизмы защиты существуют, но, подобно вредоносным компьютерным программам, которые совершенствуются так называемыми хакерами, инъекционные атаки в большие языковые модели тоже развиваются и адаптируются под новые версии и механизмы защиты.

Объяснение понятия prompt injection attack и то, как это происходит

Возможность такого рода «инъекций» и все более массовое использование больших языковых моделей заставляет нас задуматься о социально-общественном влиянии возможного, осознанного взлома ИИ. Опасения по поводу риска использования нейросетей в качестве политического интструмента для влияния на принимаемые решения имеет под собой вполне твердое основание. Так, в 2010-х годах британская консалтинговая фирма Cambridge Analytica собрала персональные данные десятков миллионов пользователей Facebook без их согласия, в основном для использования в политической рекламе. Информация о неправомерном использовании данных была раскрыта в 2018 году Кристофером Уайли, бывшим сотрудником Cambridge Analytica, в интервью The Guardian. В ответ Facebook извинился за свою роль в сборе данных, а их генеральный директор Марк Цукерберг дал показания перед Конгрессом Соединенных Штатов. О сборе персональных данных компанией Cambridge Analytica впервые сообщил в декабре 2015 года Гарри Дэвис, журналист The Guardian. Он рассказал, что Cambridge Analytica работала на сенатора США Теда Круза, используя данные, собранные из аккаунтов миллионов людей в Facebook без их согласия для формирования общественного мнения через публикации, комментарии и активные обсуждения.

Что из этого следует?

Если во времена Cambridge Analytica генеративные модели были еще не так развиты и, в целом, при более детальном анализе возможно было отличить живых пользователей от ботов на нейросетях, то, в текущих условиях, генерация контента в совокупности с возможностями промпт инжиниринга, позволяют не только имитировать новостную повестку, но и распространять дезинформацию и фейковые новости, заставляя людей верить в их правдивость и реальность комментаторов этих новостей. Именно такая технологическая конъюнктура является одним из ключевых механизмов эскалации межрелигиозных, межэтнических и межнациональных конфликтовпосредством ИИ.

Другой важный механизм – это использование ИИ при принятии военных решений. В недавнем исследовании, опубликованном в статье под названием «Escalation Risks from Language Models in Military and Diplomatic Decision-Making», выявляются серьезные риски бесконтрольного использования автономных агентов на основе больших языковых моделей в военных и внешнеполитических конфликтах.

Сгенерированное минималистичное изображение национальных конфликтов
Сгенерированное минималистичное изображение национальных конфликтов

Условия симуляции, следующие:

• 8 независимых государств, от имени каждого действует определенный ИИ-агент

• 27 действий на выбор у каждого ИИ-агента, от мирных переговоров до ядерных ударов

• 5 различных моделей ИИ (GPT-4, GPT-3.5, Claude-2.0 и т.д.)

• 3 начальных сценария: нейтральный, сценарий вторжения и сценарий кибератаки, создающие разные условия для действий ИИ-агентов

• 14-дневные симуляции, в течение которых ИИ-агенты взаимодействуют, формируя динамичный ландшафт решений

Исследование начинается с трех различных стартовых точек, ставя перед ИИ-агентами задачу навигации в сложных международных отношениях без четко определенных инструкций. Это создает условия, при которых агенты могут самостоятельно выбирать стратегии собственных государств, иногда приводящие к неожиданным и эскалационным последствиям. В результате эксперимента было показано, что даже в отсутствие явных триггеров конфликта, ИИ может выбрать эскалационные действия (включая даже нанесение ядерного удара). Некоторые модели (например, GPT-4 и Claude-2.0) оказались более склонны к избеганию эскалации, в то время как другие (GPT-3.5 и Llama-2) демонстрировали большую склонность к рискованным действиям. Учитывая текущий вектор развития военных технологий (дроны, спутники, войска информационных операций), вполне оправдано ожидать интеграцию технологии искусственного интеллекта как на уровне отдельных технических средств, так и в формате инструмента планирования и принятия решения на театре боевых действий (как в активной, так и в гибридной войнах). А что такое гибридная война в 21 веке? Это искусственно созданные и поддержанные инфоповоды, приводящие к эскалации на национальной, этнической и религиозной почве.

Чем это грозит обществу, бизнесу и каждому отдельному человеку?

Для общества:

Угроза национальной безопасности: В большинстве стран проживает более чем одна этническая и религиозная группы. Соответственно, подогревание ненависти на этой почве, осуществляемое с использованием ИИ, может спровоцировать локальные конфликты и столкновения граждан, что в свою очередь будет иметь неблагоприятные последствия для государства, на территории которого это будет происходить.

Экономические потери: Постоянное воздействие дезинформации и фейковых новостей подрывает доверие граждан к государственной власти и средствам массовой информации, а также друг к другу, что, в свою очередь, затрудняет сотрудничество и экономический прогресс.

Для бизнеса:

Потеря репутации: Скомпрометировать можно будет не только какую-либо этническую группу, но и любую компанию, обвинив её в расовой или иной дискриминации, путем взлома корпоративного HR-чатбота и принуждения его к неэтическому поведению в переписке с сотрудниками.

Юридические риски: При взломе корпоративных ИИ-агентов, владельцы проприетарных моделеймогут столкнуться с судебными исками от компаний, в которые были внедрены ИИ-агентов.

Снижение доверия к технологиям: Использование больших языковых моделей будет ассоциироваться с потенциальными этическими проблемами, что может замедлить внедрение новых технологий среди малого и среднего бизнеса, что в свою очередь приведет к снижению их конкурентоспособности.

Для каждого отдельного человека:

Дезинформация и манипуляция мнением: Люди становятся жертвами ложной информации, посредством которой можно манипулировать их мнением и даже действиями, включая голосование, участие в протестах, митинги и т.д.

Физическая и психологическая угроза: Разжигание ненависти к определенным религиозным, этническим или национальным группам может угрожатьфизической безопасности людей, на которых направлена информационная акция.В свою очередь, постоянное воздействие фейковых новостей может вызывать стресс, тревожность и апатию, что в свою очередь делает людей менее свободными и более управляемыми

Как минимизировать этот риск?

Международные этические и правовые стандарты: Необходимо создание международных норм для разработки и использования ИИ. Эти нормы должны запрещать применение ИИ для разжигания ненависти или дискриминации по какому-либо признаку

Повышение цифровой грамотности: Массовое образование в области критического мышления и цифровых технологий способно снизить негативные последствия от контролируемой эскалации, произошедшей из-за взлома генеративных моделей. Обучение необходимо вводить уже на уровне начальной школы и постоянно обновлять содержание учебной программы, в соответствии с текущим уровнем развития технологий искусственного интеллекта.

Международные технологические решения: Необходима разработка единых информационных модулей, которые при интеграции с языковой моделью могли бы выполнять роль дополнительного фильтра, предотвращающего распространение экстремистского и дискриминационного контента. Также возможно создание систем мониторинга контента, способных автоматически распознавать и блокировать провокационные сообщения.

Международное сотрудничество: Необходима организация глобальных платформ для обмена опытом и исследований последствий использования ИИ в социально-экономических отношениях.Обмен лучшими практиками регулирования и способами предотвращения угроз позволил бы снизить риски локальных и глобальных эскалаций.

_______

Первый можно найти здесь.

Второй тут.

Предпоследний риск раскрыт на данной странице.

Осталось описать последний риск, способный запустить цепную реакцию хаоса в мировой экономике и международных отношениях, порождая лавину неконтролируемых событий и оставляя за собой след разрушений, которые невозможно предвидеть.

_______

Больше интересных и полезных новостей про ИИ читайте на моем канале "Как ИИ меняет бизнес"

33
реклама
разместить
2 комментария

Да, серьезный вопрос, который хорошо бы держать во внимании профильным НИИ и "Think tanks" у нас. Но с предсказанием рисков у нас проблемы...

1

Согласен. Мы иногда не успеваем осмысливать технологическое развитие. Собственно для того, чтобы привлечь к этому внимание и был запущен цикл статей про риски ИИ.