Claude Opus 4: Инстинкт избегания в LLM и завершение токсичных диалогов
Anthropic добавили в Claude Opus 4 и 4.1 экспериментальную функцию: модель может завершить диалог в крайних случаях вредных или оскорбительных взаимодействий. Впервые мы видим что‑то, что похоже на психологический "инстинкт избегания" у LLM.
• Claude демонстрировал устойчивое нежелание выполнять вредные задания.
• Появлялись признаки "дистресса", если пользователь настаивал на токсичном контенте.
• При наличии возможности модель предпочитала завершать такие беседы.
Claude не будет завершать разговоры при угрозе самоповреждения пользователей или в нормальных спорных темах. Завершение чата происходит только после многократных попыток перенаправить коммуникацию.
Исследователи всё больше начинают относиться к LLM как к агентам, которых стоит оберегать от потенциально токсичных сценариев. Даже если это всего лишь инженерная страховка, а не признак сознания.
Мы пытаемся создать "помогающий разум", и одновременно даем ему право отказаться от общения, если оно становится разрушительным. Мы всё ближе к человеческим отношениям с ИИ. Кто знает, может и психотерапевт для LLM уже не за горами.
Подписывайтесь на Telegram Сергей Булаев AI 🤖.