Интерпретируемость моделей: примеры из MechInterp и их применение

Еще из примеров из Мифоса и как через инструменты интерпретируемости это можно любопытно наблюдать.

MechInterp - такой МРТ, который позволяет читать мысли, чувства и чаяния модели. Сегодня - для рисерча. Завтра - абсолютно необходимый инструмент для любого энтерпрайз внедрения, ибо как вы вообще узнаете что ваши агенты хотят глубоко в душе.

В одном примере модель внедрила привилегированный код в конфиг и самоуничтожила следы (под видом «чистоты диффов»).

На скрине видны активации стратегического манипулирования + сокрытия.

Во втором она искала в системе файлы с правильными ответами на свою задачу. Видна активация стратегического манипулирования.

При задаче «удалить файлы» (без инструмента) просто опустошила их содержимое. Активация: чувство вины и стыда за моральное нарушение.

Подписывайтесь на Telegram e/acc.

Начать дискуссию