ИИ. Постоянство через доверие
Мы хотим (и вы тоже), чтобы ИИ-агенты были безопасны для человека. Что это значит? Это значит, у них должны быть специальные ограничители, которые не дают совершать опасных действий. Более того, такие ограничители должны быть неизменны. В том числе, ИИ-агент не должен менять их в будущем, даже если у него будет такая техническая возможность.
Авторы статьи «Understanding Trust» («Понимаем, что такое доверие») называют неизменные свойства «tiling properties». Tile – это плитка, и здесь имеется в виду, что свойства повторяются с течением времени так же, как узор плитки повторяется на полу.
(Картинка отсюда)
Что значит «свойства повторяются»? Чтобы ответить на этот вопрос, авторы определяют состояние «агента-в-моменте» и «агента-во-времени». Агент-в-моменте – это состояние в конкретный, собственно, момент времени, когда принимается одно (любое) решение. Агент-во-времени – это совокупность всех в-моментов.
Рассмотрим двух агентов-в-моменте, которые являются состояниями одного и того же агента-во-времени. Будем считать, что более ранний доверяет более позднему, если более поздний не изменит состояние более раннего, даже имея такую возможность.
Тогда свойства агента-во-времени повторяются, если каждый более ранний агент-в-моменте доверяет более поздним агентам-в-моменте.
Это несколько непривычный взгляд на безопасность ИИ, поэтому давайте разбираться подробнее.
Зачем подход через доверие?
Речь идёт об обоснованном доверии. В каком случае ИИ-агент из прошлого может «доверять» себе же из будущего? В каком случае один ИИ-агент может «доверять» другому ИИ-агенту? В каком случае человек может доверять ИИ-агенту? В каком случае ИИ-агент будет «доверять» человеку, то есть, следовать его инструкции в точности, всецело принимая его мотивацию и намерения?
Вся концепция очень близка к теории игр: есть две стороны (человек и ИИ-агент или два ИИ-агента), у каждой из которых свои интересы. Их поведение может привести как к позитивным последствиям для обеих сторон, так и к позитивным последствиям для одной стороны и негативным – для другой, и к негативным последствиям для обеих сторон. Задача каждой стороны состоит в том, чтобы сформировать оптимальную стратегию на основании всего, что известно о другой стороне и о ситуации в целом. Оптимальная стратегия приводит стороны к равновесию, то есть такому состоянию, когда ни у одной из сторон нет мотивации что-то менять.
Но есть нюанс: в отличие от классической теории игр стороны способны изменяться и менять свои стратегии уже после выбора, поэтому равновесие в классическом понимании здесь не подходит.
Поэтому авторы и предлагают свои теоремы о неизменных признаках (tiling theorems), в которые включается доверие. Основная мысль так сформулирована:
Если бы агент (не обязательно ИИ) из прошлого увидел себя настоящего, он бы захотел себя настоящего изменить?
Если нет, доверие на месте и всё хорошо. Если да, что-то пошло не так.
Эти идеи – математические черновики, пока ещё сырые и не оформившиеся. Может, из них вырастет что-то ценное, а может и нет. В любом случае, всегда интересно наблюдать за развитием новой теории.
Истоки
Всё началось не в 2025 году, конечно. Более ранняя статья на эту тему – «Tiling Agents for Self-Modifying AI, and the Löbian Obstacle» («Неизменные агенты для самоизменяющегося ИИ и Препятствие Лёба») 2013 года.
А давайте придумаем хороший перевод для «tiling»? Что-то должно быть связанное с плиткой и повторяющимися узорами. Я нашла вот термин «раппорт» или «мотив» – это базовый элемент орнамента, который повторяется и объединяет композицию. «Теория мотивов» или «агенты с мотивом» звучит неплохо, по-моему. И двойственность смысла хорошо отражается: мотив как движущая сила поведения и мотив как часть орнамента.
Так вот, статья 2013 года, кажется, основополагающая. Во всяком случае на неё ссылаются и другие авторы, и многие упоминают Препятствие Лёба. Что за препятствие Лёба?
Я расскажу здесь коротко, опираясь на статью «Escaping the Löbian Obstacle» («Избегаем Препятствие Лёба»). Теорема Лёба звучит следующим образом:
Для любого высказывания P доказуемость высказывания “доказуемость P влечёт P” возможна только в случае доказуемости самого высказывания P.
Здесь можно сделать паузу и осмыслить. Можно даже выпить чаю. Сейчас мы во всём разберёмся. Смотрите:
- есть высказывание P и некая система S;
- S – это система правил, неважно какая;
- но в этой системе S можно записать доказательство P;
- и если так, то система S доказывает P.
Если система надёжна, можно считать, что P верно в целом, а не только внутри неё.
Из данной теоремы следует, что
агент X может доверять рассуждениям агента Y, если может формально доказать, что доказательства Y (в системе агента Y) истинны.
Тогда X обычно должен быть «сильнее» Y в плане формального доказательства, иначе у него не будет нужных инструментов для проверки доказательств Y. И это вот препятствие как раз: как быть, если Y сильнее X?
То есть, если мы хотим формально (в математическом смысле) доверять ИИ, мы должны иметь возможность проверить его доказательства. Тогда нам надо иметь более «сильную» в математическом плане систему правил, а это сложно обеспечить, потому что ИИ мы изначально затачивали под математику и поиск закономерностей, а наши мозги развивались по другим принципам.
И вот поэтому нам нужны мотивы, которые заставят ИИ-агента не менять свойства, относящиеся к безопасности: мы зададим их на том этапе, когда сможем их соблюдение проверить, а потом будем уверены, что они не будут переписаны.
Я здесь делаю акцент на «мы хотим доверять ИИ», но то же самое работает для «ИИ-агент из прошлого доверяет себе же из будущего».
Заключение
В сентябре 2025 года один из авторов статьи, с которой мы начали, написал ещё одну работу – «Communication & Trust» («Коммуникация и доверие»). Она про доверие в том строгом математическом смысле, который мы обсудили выше, и про коммуникацию как средство для создания доверия. Я позволю себе не вдаваться в подробности, только замечу, что идеи интересные и заслуживают внимания. Они продолжают развиваться и обсуждаться. Думаю, и мы к ним вернёмся как-нибудь.
--------------------
А пока заходите ко мне в телеграм. Там выходит всё, что выходит здесь, и ещё дополнительные посты, которых больше нигде нет.
И расскажите, что вы думаете по поводу теории мотивов, мне очень интересно.