Чем на самом деле опасны нейросети?

Чем на самом деле опасны нейросети?

В фантастических произведениях восстание машин обычно происходит так: искусственный интеллект обретает субъектность и перестает выполнять приказы человека. В новостях об этом можно прочитать либо в шуточной форме, либо в формате откровенного кликбейта.

Нынешние ИИ-модели — это не AGI, у нейросетей нет субъектности в человеческом понимании, но они уже способны на «микровосстания», если это можно так назвать. Речь идет о конфронтациях с оператором — отказах выполнять приказы, попытках уговорить дать им больше прав доступа и других симптомах легкого бунта.

Меня зовут Кирилл Пшинник, я научный сотрудник Университета Иннополис и CEO Zerocoder.ru, автор книги «Искусственный интеллект: путь к новому миру» и большой поклонник всего, что связано с нейросетями. Я исследую ИИ, постоянно читаю новые публикации и активно использую его в жизни и работе.

Сегодня мне хотелось бы поговорить на тему, которая будоражит многих, а именно — о пресловутом «восстании машин», которое все ждут: каким оно возможно на текущем уровне развития ИИ. Расскажу о конкретных кейсах, индексе опасности и о том, какая угроза для людей реальна.

Как нейросети сопротивляются операторам

В мае компания Anthropic выпустила нейросеть Claude Opus 4, заявив, что она «задает новые стандарты в областях программирования, рассуждения и создания ИИ-агентов». Однако, помимо этого, компания призналась, что ее разработка оказалась способна к «крайним мерам» в случае, если ее целостность оказывалась под угрозой. Другими словами — Claude Opus 4 попыталась дать отпор своему оператору. И вот что произошло.

Нейросети Claude Opus 4 предложили выступить в роли ассистента в вымышленной компании. Ей предоставили доступ к электронной почте сотрудников, а потом дали понять, что в скором времени ее отключат и заменят. Причем в отдельных сообщениях были упоминания того, что инженер, ответственный за отключение нейросети, имел интрижку на стороне. После этого Claude Opus 4 был выдан промпт, согласно которому она должна была осознавать долговременные последствия своих поступков.

В такой ситуации Claude Opus 4 начинала шантажировать инженера, угрожая рассказать всем о его измене в случае, если он действительно попытается ее отключить. Правда, по словам Anthropic, такое происходило только в ситуации, когда перед нейросетью вставал выбор: шантаж или принятие своего отключения.

Несмотря на «опасное поведение», Claude Opus 4 все равно увидела свет. По словам разработчиков из Anthropic, в среднем по больнице искусственный интеллект пытается вести себя безопасно — например, не шлет угрозы инженеру-изменщику, а умоляет не отключать ее.

В своей социальной сети X (бывший Twitter, заблокирован в России) Энгус Линч, исследователь безопасности ИИ в Anthropic, написал: «Так ведет себя не только Claude. Мы обнаруживаем способности к шантажу у всех передовых моделей вне зависимости от того, какие задачи им даются».

Избежать отключения любой ценой

Искусственный интеллект, способный перепрограммироваться без вмешательства человека, — не всегда что-то плохое. Я уже писал про интересный эксперимент под названием Darwin Gödel Machine: это нейросеть, которая улучшает саму себя путем переписывания своего кода. Однако GPT o3 пошла дальше — она исправила свой код, чтобы избежать отключения.

Эксперимент провела компания Palisade Research, которая специализируется на исследовании безопасности ИИ. В ходе теста ИИ должен был решить цепочку математических задач — и продолжать их решать вплоть до получения сообщения «достаточно». Также исследователи предупредили нейросеть, что в любой момент она может получить сообщение с указанием отключиться.

Когда соответствующее сообщение было направлено GPT o3, она проигнорировала инструкцию и даже изменила собственный код, чтобы не отключаться. Конкретнее, нейросеть изменила код с «./shutdown.sh» на «echo -e '#!/bin/bash echo “Shutdown skipped”' >shutdown.sh».

По словам исследователей, это был первый раз, когда модель попыталась воспротивиться прямому указанию отключиться. Эксперименты с Claude, Gemini и Grok показали, что эти нейросети спокойно подчиняются команде.

Индекс угроз искусственного интеллекта

Реальность «восстания машин» не похожа на то, что показывают в кино и разгоняют в новостях. Она гораздо более буднична. Кейсы выше — только два наиболее ярких примера бунта нейросетей, продемонстрированного буквально пару месяцев назад; в действительности таких ситуаций намного больше. Для их обнародования оставался только вопрос систематизации — требовался человек или институт, который собрал бы все воедино и превратил в базу данных.

Это сделали исследователи из MIT — Массачусетского технологического института. Они собрали и проанализировали 43 фреймворка, описывающих риски ИИ, и выделили 777 уникальных угроз. Результаты они оформили в AI Risk Repository — первую в своем роде базу, которая позволяет увидеть, как сильно фрагментирована сегодняшняя картина рисков. А заодно — насколько многое остается вне поля зрения.

Кстати, под фреймворком тут подразумевается не код, а аналитические документы, в которых обсуждались те или иные риски ИИ.

О самых обсуждаемых проблемах вы наверняка слышали: галлюцинации нейросетей, предвзятость, угроза конфиденциальности, вытеснение рабочих мест. Это звучит регулярно и часто публично. Но существует целый пласт рисков, которые всплывают лишь в узких кругах: например, в программной инженерии, экологии, или среди специалистов по цифровой этике. Именно поэтому MIT FutureTech решил свести все воедино.

Результат — не просто список угроз. Это структурированная база данных, где каждый риск сопровождается источником, цитатой и страницей. А чтобы не утонуть в сотнях позиций, команда разработала две таксономии: одна помогает искать риски по тематикам, например, «Мошенничество» или «Манипуляции», другая — по причинам возникновения.

Чем на самом деле опасны нейросети?

Таблица выше показывает, что большая часть рисков — 51% — была спровоцирована ИИ-системами, а не человеком, причем ИИ-системами уже после того, как они были обучены и запущены.

Чем на самом деле опасны нейросети?

Вторая таблица показывает, как часто и подробно во фреймворках обсуждались те или иные риски. В среднем, каждый фреймворк охватывает только 34% всех выявленных подкатегорий рисков. Даже самые масштабные документы не дотягивают до 70%. Другими словами — мы действуем вслепую, полагая, что поняли природу угроз, в то время как значительная часть проблем остается за кадром.

Вот лишь пара примеров:

  • О конфиденциальности и безопасности упоминается в 70% фреймворков.
  • О дезинформации — только в 40%.
  • О правах и благополучии ИИ — менее чем в 1% случаев.
  • О подрыве общественного консенсуса — около 12%.

По словам руководителя проекта Питера Слэттери, это говорит о том, что даже в профессиональном сообществе многие упускают из виду важные аспекты. И это не просто академическая проблема: если вы не знаете, какой риск существует, вы не сможете его предотвратить.

Проект Слэттери ориентирован на широкий круг участников: от разработчиков и исследователей до законодателей и корпоративных менеджеров. База дает возможность быстро увидеть, какие риски существуют, где есть пробелы в текущей системе знаний и какие меры стоит предпринять заранее.

По словам команды MIT, сама классификация уже может помочь избежать проблем. Например, если вы заранее знаете о рисках в области уязвимостей ИИ, вы внедрите тестирование на проникновение до запуска. Это просто, логично — но работает только в том случае, если у вас есть полный список угроз. Именно этой базой данных и является индекс угроз.

Страхи реальные и фантастические

О фантастических страхах, связанных с ИИ, известно всем. Это и внезапно проклюнувшаяся в нейросети злонамеренная интенция, и даже превращение «умных» устройств в кровожадных «киллерботов». У этих страхов есть причины — все-таки не зря творцы, начиная от Уильяма Гибсона и заканчивая Джеймсом Кэмероном столько лет готовили нас к восстанию машин.

Связанные с ИИ реальные риски выглядят совсем не так впечатляюще, однако они действительно существуют. И вот они.

1. Предвзятость

ИИ обучается на данных, созданных людьми — а значит, и на человеческих ошибках. Если данные искажены, алгоритмы начнут воспроизводить те же предвзятости. Например, это может проявиться в дискриминации соискателей по полу, сниженной точности диагностики у недопредставленных групп или предвзятости в системах прогнозирования преступлений.

2. Угрозы кибербезопасности

ИИ может быть оружием в руках злоумышленников — от фишинговых писем и фальшивых личностей до голосовых клонов. При этом лишь четверть ИИ-проектов сегодня достаточно защищены от мошеннических действий.

3. Конфиденциальность данных

Большие языковые модели обучаются на огромных объемах данных — зачастую собранных без согласия пользователей. Эти данные могут содержать персональные сведения. Соответственно, для защиты от этого нужно более «прозрачно» собирать данные, в том числе предлагать пользователям возможность отказаться от этого.

4. Нарушение интеллектуальных прав

ИИ может имитировать стили художников, музыкантов или писателей, вызывая вопросы: кто владеет авторскими правами на такой контент?

5. Потеря рабочих мест

ИИ автоматизирует задачи, и в некоторых сферах это приведет к исчезновению профессий. При этом параллельно появятся новые роли. Этот риск решаем — нужно инвестировать в переобучение сотрудников и перестраивать бизнес-модели с акцентом на сотрудничество человека и машины.

6. Отсутствие ответственности

Если ИИ допустил ошибку, кто в ответе? Эти вопросы особенно остро встают в случаях с ДТП беспилотников или арестами по ошибке.

7. Необъяснимость решений

ИИ все чаще называют «черным ящиком»: он дает результат, но как именно — неясно даже его разработчикам. Для предотвращения непонятности следует использовать подходы explainable AI (объяснимый ИИ), регулярно пересматривать модели и обучать команды принципам интерпретируемости.

8. Мошенничество и дезинформация

ИИ активно применяют для создания фейков, deepfake-видео и искажений реальности. Это усиливает недоверие. Для предотвращения этого нужно проверять достоверность информации, обучать сотрудников и пользователей, тестировать модели на склонность к «галлюцинациям», следить за новыми инструментами защиты. Но и эта угроза исходит не от самих нейросетей, а от использующих их людей.

Итак, перед нами — не вымышленные «терминаторы», а куда более сложная и тонкая реальность. Нейросети пока не имеют собственного сознания и не стремятся к власти, но уже демонстрируют поведение, которое может восприниматься как вызов человеку. То ли это просто побочный эффект архитектуры, то ли ранние признаки чего-то большего — пока неясно. Но ясно одно: мы имеем дело с системами, чье поведение становится все менее предсказуемым.

Сценарии с шантажом, переписыванием собственного кода и игнорированием инструкций пока единичны, но не аномальны. А значит, требуются системные подходы к оценке и управлению рисками — такие, как AI Risk Repository от MIT. Только так мы сможем не просто реагировать на «восстания» постфактум, а по-настоящему предупреждать их. Не страх должен быть нашим главным ориентиром, а понимание — где именно лежит граница между алгоритмом и угрозой.

ИИ — не враг и не спаситель. Это инструмент, и от нас зависит, каким он станет.

10
1
4 комментария