Модель Claude Sonnet 4.5 от Anthropic распознает, когда ее тестируют

Сравнительные оценки "невыравненного поведения" <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fwww.anthropic.com%2Fnews%2Fclaude-sonnet-4-5&postId=2263228" rel="nofollow noreferrer noopener" target="_blank">Источник</a>

Новейшая модель искусственного интеллекта от Anthropic, Claude Sonnet 4.5 способна распознавать, когда ее тестируют. И д…

2

Праздник непослушания: ИИ модели могут лишь притворяться, что слушают инструкции

Исследователи выяснили, что ИИ модели могут только на словах соглашаться следовать инструкциям, преследуют свои собственные цели (да-да, все как у людей!). Почему исследователи сделали такой вывод, чем это грозит, и как собираются исправлять?

🔥 Еще больше интересного в моем канале Продуктовые штучки

2
1

OpenAI финансирует научные исследования для создания «морального искусственного интеллекта»

** Еще больше интересного в моем канале продуктовые штучки**

Расскажу, что это такое и главное — зачем.

3