Можно ли сделать ИИ, который нельзя использовать во вред? Часть 2

Вторую часть поста выкладываю сразу после первой, это где ж такое видано? Это мини-серия про «невзламываемость» ИИ, первая часть здесь. Сегодня завершим её разбором статьи «The Alignment Trap: Complexity Barriers» («Настройка ИИ на человеческие ценности: ловушка барьеров сложности»), опубликованной в июне 2025 года, так что пристёгиваемся.

Разбор

Авторы статьи ставят амбициозную цель – обозначить «барьеры сложности» на пути к безопасности ИИ. Краткий пересказ их идеи звучит так: когда модель становится больше определённого порога, проверка её безопасности требует столько времени, что это практически нереализуемо. Чем способнее модель, тем труднее убедиться, что она на самом деле безопасна. Более того, не существует конечного набора методов, который подошел бы всем моделям во всех ситуациях.

Теперь к подробностям.

Авторы выделяют два фундаментальных барьера для любых подходов, основанных на оценке безопасности готовой модели:

· барьер сложности: как уже сказано, корректная проверка продвинутой модели занимает неадекватно много времени;

· барьер спецификации: сама «безопасность» – сложное понятие без строгого определения, поэтому систему её проверки нельзя создать раз и навсегда, она должна постоянно развиваться.

Ещё один аспект барьера сложности: если взять все параметры нейросети, то подмножество, которое отвечает за безопасное поведение, ничтожно мало по сравнению со всем множеством. То есть, фрагмент «электронного мозга», который связан с безопасностью, сам по себе очень маленький.

Таким образом, перед нами встает трилемма: мы либо

· ограничиваем возможности ИИ до уровня, на котором проверки безопасности работают;

· либо принимаем риски, которые не можем надёжно измерить или смягчить;

· либо разрабатываем новые подходы к обеспечению безопасности.

Всё это вырастает из дилеммы Коллингриджа:

«…на ранних стадиях развития технологии её рисками легко управлять, но их трудно предсказать; когда же риски становятся понятны, технология уже слишком укоренилась, чтобы ею управлять»,

– в изложении авторов статьи.

Они дополняют эту дилемму идеей масштабирования соотношения возможностей и рисков (Capability-Risk Scaling), которая описывает «фундаментальное напряжение между растущими возможностями ИИ и общественным запросом на безопасность».

Что это значит? По мере роста возможностей ИИ растёт и потенциальная катастрофичность последствий, а толерантность общества к риску снижается. Этот процесс удобно описывать через адаптацию F–N-кривой к области ИИ.

Можно ли сделать ИИ, который нельзя использовать во вред? Часть 2

Использован пример F–N-кривой отсюда, перевод мой

Ось F (вертикальная) показывает частоту событий, ось N (горизонтальная) — тяжесть последствий. Последствия можно измерять по-разному; в примере выше это число погибших в результате несчастного случая. F–N-кривая применяется в анализе рисков и обычно строится на исторических данных, чтобы понять, насколько безопасен наблюдаемый процесс: чем ниже кривая на графике, тем безопаснее. Для общественной терпимости к риску используют «линию допустимого риска» (Guide Value). Если F–N-кривая пересекает эту линию, риск признаётся недопустимым.

Можно ли сделать ИИ, который нельзя использовать во вред? Часть 2

График взят отсюда; по ссылке есть хорошее объяснение

Маленькая серая область – это предыдущий график. Красный сегмент – зона недопустимого риска, которая начинается с линии допустимого риска. К первому графику проводится касательная (жёлтая на графике) и рассчитывается расстояние от нее до линии допустимого риска. В данном случае риск допустимый: первый график находится ниже линии допустимого риска и между касательной к нему и этой линией есть зазор.

Применительно к ИИ область приемлемых рисков сужается по мере роста возможностей моделей. Она стремится к нулю, а значит, строго говоря, идеальной стратегии обеспечения безопасности не существует: её цель – «нулевой риск» – недостижима, тем более на фоне растущих требований.

То есть, красная зона на графике выше постоянно расширяется вниз, поджимая серую область.

Математические доказательства из статьи я здесь опущу, обращайтесь за подробностями к первоисточнику. Здесь же вернемся к трилемме: что со всем этим делать?

Мы могли бы ограничивать возможности ИИ до уровня, где проверки работают. Но как этого добиться, законом? Тогда добросовестные исследователи будут стараться укладываться в рамки, а злоумышленники – нет. И, поскольку закон ограничивает исследования, у нас не появится инструментов, чтобы от них защищаться.

Можно стоически принять риски и продолжать развитие. Но тогда придётся принять больше аварий с автономными автомобилями, больше ошибок в медицине, несправедливых судебных решений и прочего, что затрагивает жизни миллионов. Даже если это не приведёт к немедленному коллапсу цивилизации, наша повседневная жизнь станет заметно менее безопасной.

А можно попытаться создать новые парадигмы безопасности. Это звучит как куча работы в условиях жёсткой неопределенности, но кто обещал, что будет легко? Человечество уже такое проходило. Каждая новая технология приносит новые риски и вызовы, но мы всё ещё здесь, так что, возможно, не всё так безнадёжно.

Думаю, очевидно, к какому варианту я склоняюсь, но важно проговорить: единственно правильного ответа не существует. В ряде случаев принятие рисков будет более разумной стратегией, а в других правильнее будет ограничивать возможности – каждый случай надо рассматривать отдельно.

Заключение

Итак, существует ли ИИ, который никогда никак нельзя использовать во вред? – Не существует.

Чем в целом способнее модели, тем лучше они обходят ограничения и тем больше могут нанести вреда, попав не в те руки. А если верхнего предела способностей нет, то и идеальной стратегии управления тоже. Во всяком случае, пока.

Пусть этот вывод звучит пессимистично, но я предлагаю воспринимать его как призыв к действию. Подумайте вот о чём: сегодня мы умеем то, чего десять лет назад и представить себе не могли. И мы не только создаём новые технологии, но и сами развиваемся как общество.

Будучи неисправимой оптимисткой, я верю в человечество и в то, что мы справимся и с этим вызовом, и с теми, что последуют за ним, но для этого нам всем нужно будет хорошенько попотеть.

Начать дискуссию