Ученые могут не только видеть, как части БЯМ реагируют на разные понятия, но и влиять на ее поведение, меняя отдельные элементы. Anthropic проверил эту идею, «усилив» функцию, связанную с мостом «Золотые ворота». В результате появилась версия Клода, одержимая этим мостом и упоминающая его при любом удобном случае. Например, когда его спросили, как потратить 10 долларов, он предложил заплатить за проезд по мосту. А когда попросили придумать любовную историю, он сочинил рассказ о влюбленном автомобиле, мечтающем пересечь этот мост. Забавно, что тот же принцип можно использовать, чтобы отучить модель говорить на некоторые темы, такие как создание биологического оружия.