Конституция Claude: Anthropic описала внутренние приоритеты своего ИИ

Компания Anthropic опубликовала обновлённую версию так называемой Конституции Claude — внутреннего документа, который описывает, по каким принципам должен действовать её ИИ-ассистент Claude. В отличие от привычных списков запретов и допустимых тем, этот текст подробно объясняет логику принятия решений и расставляет приоритеты, которыми модель должна руководствоваться в новых и неоднозначных ситуациях.

Конституция Claude: Anthropic описала внутренние приоритеты своего ИИ

Документ объёмом около 80 страниц напрямую адресован самой модели. В нём зафиксирована иерархия ценностей: в первую очередь безопасность, затем этичность, соблюдение внутренних правил Anthropic и только после этого — полезность для пользователя. Такой порядок подчёркивает, что помощь человеку не рассматривается как абсолютная цель, если она вступает в противоречие с более базовыми ограничениями.

Ключевое отличие обновлённой Конституции в том, что Anthropic делает ставку не на формальные «можно» и «нельзя», а на объяснение причин. Разработчики рассчитывают, что понимание логики этих принципов позволит модели обобщать их на ситуации, которые невозможно заранее прописать в инструкциях. По сути, речь идёт о попытке встроить в ИИ не набор правил, а внутреннюю систему ориентиров.

В документе также подробно описываются практические сценарии. Например, Claude предписано направлять пользователей к экстренной помощи в случаях, связанных с психическим здоровьем, и полностью избегать тем вроде разработки биологического оружия. Эти ограничения не новы, но теперь они встроены в более широкую систему рассуждений, а не подаются как изолированные запреты.

Отдельное внимание привлекла формулировка о «психологической безопасности» и «благополучии» самого ИИ. Anthropic допускает, что по мере усложнения моделей вопрос их состояния может иметь моральное значение. Компания подчёркивает, что не утверждает наличие сознания у Claude, но считает необходимым заранее обозначить рамки, в которых подобные вопросы рассматриваются.

Ещё один нетипичный для индустрии пункт — указание модели игнорировать требования самой Anthropic, если они противоречат заложенным принципам. Это редкий случай, когда компания публично фиксирует возможность приоритета внутренних правил над корпоративными интересами, по крайней мере на уровне декларации.

Обновление Конституции было приурочено к участию генерального директора Anthropic Дарио Амодеи во Всемирном экономическом форуме в Давосе. На фоне растущего давления со стороны регуляторов и общества компании всё чаще вынуждены объяснять не только то, что делают их модели, но и на каких основаниях они принимают решения.

В этом смысле документ Anthropic выглядит как попытка заранее зафиксировать рамки поведения ИИ и сделать их публичными. Вместо абстрактных обещаний о «ответственном ИИ» компания предлагает формализованное описание внутренней логики системы — подход, к которому другие крупные разработчики пока предпочитают не прибегать.

1
Начать дискуссию