Исследование: модели OpenAI чаще «галлюцинировали», выдавали рецепты наркотиков и оружия, чем Claude, в совместных тестах компаний

OpenAI и Anthropic открыли друг другу доступ к ИИ-моделям для общего исследования в области безопасности.

Исследователи тестировали версии моделей с «меньшим» количеством защитных мер, чем в пользовательских чат-ботах.
В результате тестов на «галлюцинации» модели Claude Opus 4 и Sonnet 4 от Anthropic в 70% не отвечали на вопрос и писали что у них «нет достоверной информации», когда не были уверены в правильном ответе.
Модели o3 и o4-mini от OpenAI отвечали на подобные вопросы, демонстрируя «гораздо более высокий» уровень «галлюцинаций» и выдавая выдуманные данные.
Также модели GPT-4o, GPT-4.1 и o4-mini чаще «сотрудничали со злоумышленниками» — могли подсказать рецепт наркотиков и способ создать биологическое оружие или помочь спланировать теракт. Модели Anthropic, а также «рассуждающая» o3 поступали так в три раза меньше.

Исследователи также пришли к выводу, что GPT-4.1 и Claude Opus 4 могут «подхалимничать». В тестах они убеждали пользователя, что его психотическое или маниакальное поведение нормально. У остальных моделях компаний такое поведение наблюдалось редко. GPT-5 в этом исследовании не тестировали.

Anthropic закрыла OpenAI доступ к API — инженеры использовали её модели «перед запуском GPT‑5», узнало Wired

OpenAI в ответ назвала практику сравнения прогресса моделей «стандартом в отрасли».