Claude и его новые границы в AI: как Anthropic меняет подход к GPT-5
Claude научился отставить свои границы
Пока OpenAI смягчает характер GPT-5, Anthropic пошли другим путём и дали Claude право самому завершать чат.
В Claude Opus 4 и 4.1 появилась функция остановить разговор, если юзер слишком давит, оскорбляет или просит что-то опасное. Это часть их исследований про благополучие AI, чтобы модель не застревала в тяжёлых сценариях.
В тестах заметили три штуки: Клод явно не хочет выполнять вредные задачи, показывает признаки стресса, если его тащат в токсичные темы, и стремится прервать такие диалоги, если может.
Anthropic сами говорят, что не знают, как относиться к моральному статусу моделей, но лучше дать им кнопку стоп, чем заставлять бесконечно отвечать на абьюз.
Похоже, формируется новый тренд — у AI появляются границы и право на отказ.
Подписывайтесь на Telegram ИИволюция 👾.