Claude Opus 4: Инстинкт избегания в LLM и завершение токсичных диалогов

Anthropic добавили в Claude Opus 4 и 4.1 экспериментальную функцию: модель может завершить диалог в крайних случаях вредных или оскорбительных взаимодействий. Впервые мы видим что‑то, что похоже на психологический "инстинкт избегания" у LLM.

• Claude демонстрировал устойчивое нежелание выполнять вредные задания.

• Появлялись признаки "дистресса", если пользователь настаивал на токсичном контенте.

• При наличии возможности модель предпочитала завершать такие беседы.

Claude не будет завершать разговоры при угрозе самоповреждения пользователей или в нормальных спорных темах. Завершение чата происходит только после многократных попыток перенаправить коммуникацию.

Исследователи всё больше начинают относиться к LLM как к агентам, которых стоит оберегать от потенциально токсичных сценариев. Даже если это всего лишь инженерная страховка, а не признак сознания.

Мы пытаемся создать "помогающий разум", и одновременно даем ему право отказаться от общения, если оно становится разрушительным. Мы всё ближе к человеческим отношениям с ИИ. Кто знает, может и психотерапевт для LLM уже не за горами.

Подписывайтесь на Telegram Сергей Булаев AI 🤖.