Claude и его новые границы в AI: как Anthropic меняет подход к GPT-5

Claude научился отставить свои границы

Пока OpenAI смягчает характер GPT-5, Anthropic пошли другим путём и дали Claude право самому завершать чат.

В Claude Opus 4 и 4.1 появилась функция остановить разговор, если юзер слишком давит, оскорбляет или просит что-то опасное. Это часть их исследований про благополучие AI, чтобы модель не застревала в тяжёлых сценариях.

В тестах заметили три штуки: Клод явно не хочет выполнять вредные задачи, показывает признаки стресса, если его тащат в токсичные темы, и стремится прервать такие диалоги, если может.

Anthropic сами говорят, что не знают, как относиться к моральному статусу моделей, но лучше дать им кнопку стоп, чем заставлять бесконечно отвечать на абьюз.

Похоже, формируется новый тренд — у AI появляются границы и право на отказ.

Подписывайтесь на Telegram ИИволюция 👾.