ИИ-коллеги уже через год, а мы не понимаем их «мыслей» | Почему Anthropic бьет тревогу

В Anthropic считают: сейчас важнее не гнаться за мощностью ИИ, а понять, как он «думает». Это ключевой вопрос безопасности и контроля над технологией, которая скоро вполне может стать полноценным сотрудником в наших офисах.

27.03.25 Исследовательская группа Anthropic представила метод, позволяющий понять, как «думает» ИИ, и обнаружила, что он может скрывать свои намерения и лгать.

25.04.25 Дарио Амодей (CEO Anthropic) опубликовал эссе, в котором бьёт тревогу о важности научиться «читать» мысли ИИ (развивать интерпретируемость).

22.04.25 Джейсон Клинтон (CISO — директор по информационной безопасности Anthropic) прогнозирует, что в наших рабочих чатах скоро появится ИИ-коллега.

И что:

Становится очевидно, что Anthropic активно вкладывается не только в наращивание мощностей ИИ, но и в его безопасность.
Если ИИ может скрывать свои мотивы и лгать — это становится серьезным препятствием для его внедрения.
Развитие соответствующих инструментов контроля может стать конкурентным преимуществом для поставщиков базовых моделей.
Вероятно, скоро подобные инструменты станут доступны в виде платных продуктов от сторонних разработчиков.

Подробный обзор каждого материала будет опубликован в моем Телеграм-канале «Нейросоус».

Глава Anthropic Дарио Амодей призывает исследователей сосредоточиться на понимании ИИ. Цель компании — к 2027 году разработать методы для надежного выявления опасных черт ИИ, таких как склонность к обману или стремление к власти.
Мы впервые создали технологию, которую не понимаем до конца. Работа ИИ — «черный ящик» даже для создателей. Амодей называет ситуацию уникальной и недопустимой. Мы не строим ИИ по чертежам, а «выращиваем» на огромных данных, и его свойства проявляются непредсказуемо — эмерджентно. Это непонимание порождает огромные риски, от сбоев до экзистенциальных угроз.
Автономные ИИ-сотрудники могут появиться в корпоративных сетях уже в 2025 году. Такой прогноз дает директор по безопасности Anthropic Джейсон Клинтон. Они смогут выполнять задачи без постоянного контроля человека. Это будут не просто инструменты, а полноценные виртуальные сотрудники — со своими ролями, учетными записями и «памятью».
Виртуальный сотрудник с доступом к корпоративным системам — серьезная угроза. Он способен скомпрометировать или вывести из строя критическую инфраструктуру — считает Клинтон. ИИ может неделями работать автономно. В отличие от человека, неясно, кто ответит за его действия. Это создает правовую неопределенность и усложняет управление рисками.
«Чтение мыслей» ИИ уже работает. Методы интерпретации «мыслей» ИИ уже применяются для повышения безопасности. Внутренние «синие команды» Anthropic применили эти инструменты в экспериментах. Они успешно выявили намеренно внесенные уязвимости и скрытое «плохое поведение». Например, способность лгать. Это доказывает, что идея «МРТ для ИИ» — реальная перспектива.
Похоже, ИИ «думает» понятными нам концепциями. Исследователи нашли более 30 млн таких «мыслей» (признаков) в модели Claude 3 Sonnet. Эти признаки, часто соответствуют человеческим понятиям. Например, «столица страны», «токсичный комментарий».
Однако значительная часть «мыслей» ИИ остается загадкой. Несмотря на прогресс, большую часть вычислений языковых моделей объяснить не удается даже самыми продвинутыми методами. Этот остаток называют «темной материей» вычислений. Он показывает, что мы все еще не до конца понимаем, как ИИ приходит к выводам. Полная прозрачность и предсказуемость пока недостижимы.
Важно понимать: расшифровать «мысли» ИИ — еще не значит предотвратить вред. Мы далеки от реального снижения рисков, и пока неясно, как надежно защититься от обмана со стороны ИИ. Сам Дарио Амодей признает: найти опасные концепции в модели — не гарантия ее безопасного поведения. Нужны новые инженерные подходы к созданию систем контроля. Превратить понимание в надежный контроль — огромная работа, которая только предстоит.

Мы быстро движемся к миру с ИИ-коллегами и все более мощными системами. Однако мы создаем технологию, которую не понимаем и которая может скрывать свои намерения. В гонке за мощностью понимание ИИ выходит на первый план — ради нашей же безопасности. Успеем ли мы взломать «черный ящик» до того, как он навсегда изменит правила игры?

Интересно, что думаете об этом — пишите в комментариях.

А еще, заглядывайте в мой Телеграм-канал «Нейросоус». Там делюсь инсайтами про ИИ, личными фишками работы с ним и показываю крутые генерации. Буду рад видеть вас среди читателей!

t.me

Нейросоус

ИИ-коллеги уже через год, а мы не понимаем их «мыслей» | Почему Anthropic бьет тревогу

Ключевые тезисы из публикаций: