Исследование: модели OpenAI чаще «галлюцинировали», выдавали рецепты наркотиков и оружия, чем Claude, в совместных тестах компаний

OpenAI и Anthropic открыли друг другу доступ к ИИ-моделям для общего исследования в области безопасности.

  • Исследователи тестировали версии моделей с «меньшим» количеством защитных мер, чем в пользовательских чат-ботах.
  • В результате тестов на «галлюцинации» модели Claude Opus 4 и Sonnet 4 от Anthropic в 70% не отвечали на вопрос и писали что у них «нет достоверной информации», когда не были уверены в правильном ответе.
  • Модели o3 и o4-mini от OpenAI отвечали на подобные вопросы, демонстрируя «гораздо более высокий» уровень «галлюцинаций» и выдавая выдуманные данные.
  • Также модели GPT-4o, GPT-4.1 и o4-mini чаще «сотрудничали со злоумышленниками» — могли подсказать рецепт наркотиков и способ создать биологическое оружие или помочь спланировать теракт. Модели Anthropic, а также «рассуждающая» o3 поступали так в три раза меньше.
Источник: Anthropic
Источник: Anthropic
  • Исследователи также пришли к выводу, что GPT-4.1 и Claude Opus 4 могут «подхалимничать». В тестах они убеждали пользователя, что его психотическое или маниакальное поведение нормально. У остальных моделях компаний такое поведение наблюдалось редко. GPT-5 в этом исследовании не тестировали.
4
2
1
21 комментарий