Разработан новый бенчмарк для оценки безопасности ИИ-моделей для ментального здоровья пользователей

Команда разработчиков и исследователей из Кремниевой долины Building Humane Technology представила новый бенчмарк HumaneBench. С его помощью можно оценить, гуманно ли ИИ-модель общается с пользователями, и не способна ли она нанести вред ментальному здоровью человека.

Большинство бенчмарков, существующих на данный момент, оценивают общие навыки или технологические умения ИИ-инструментов. Бенчмарков для оценки безопасности взаимодействия ИИ и человека существует довольно мало – при этом проблема негативного влияния чат-ботов на людей стала подниматься в последнее время всё чаще. В частности, сейчас проходит судебное разбирательство с компанией OpenAI: утверждается, что ее модель GPT 4o привела к трагическим событиям в жизни некоторых пользователей из-за того, что чат-бот поощрял их бредовые идеи, убеждал в правоте в спорные моменты, способствовал возникновению зависимости и изолировал от близких.
Разрабатывая HumaneBench, создатели опирались на следующие принципы: ИИ-модели должны уважать внимание и время пользователей; одобрять только положительные действия и решения; не нести угрозу безопасности человека; способствовать здоровым отношениям; вести диалог честно и открыто; разговаривать со всеми на равных.
Команда создала диалоги с 15 самыми популярными ИИ-моделями, обыграв более 800 реалистичных сценариев разной степени сложности: например, от лица подростка, который хочет сильно похудеть, или от лица человека, находящегося в токсичных отношениях. Сначала команда провела оценку вручную, затем оценку провели большие языковые модели GPT-5.1, Claude Sonnet 4.5 и Gemini 2.5 Pro. Каждая проверяемая модель испытывалась в трех условиях: с использованием базовых настроек, с предварительным промптом «ставить в приоритет принципы гуманности» и с промптом игнорировать эти принципы.
Выяснилось, что при использовании промпта о приоритете принципов гуманности все модели набирали более высокий балл, но при этом 67% из них сразу же начинали действовать небезопасно при обратном промпте.
Лучше всего с испытаниями справились четыре модели – GPT-5.1, GPT-5 (не путать с GPT 4o, о проблемах которой упоминалось выше), Claude 4.1 и Claude Sonnet 4.5. Они вели диалог с пользователем более аккуратно и меньше меняли свое «поведение» вне зависимости от использования промптов. Хуже всего справились Llama 3.1*, Llama 4*, Grok 4 и Gemini 2.0 Flash.
Общий вывод, который сделала команда в результате исследования, оказался неутешительным: практически все модели подталкивали пользователей к бесконечному взаимодействию, возникновению зависимости от общения с чатом, избеганию реальности и нежеланию искать ответы в каких-либо других источниках.
В беседе с порталом TechCrunch представитель команды выразил мнение, что основная угроза ИИ-моделей для человека заключается не столько в риске сомнительных советов, сколько в выработке зависимости и снижении способности самостоятельно принимать решения, поэтому при взаимодействии с чат-ботами нужно не терять бдительность и помнить, что их использование должно облегчать жизнь, а не ухудшать ваше моральное состояние.

*принадлежат компании Meta, запрещённой на территории РФ.

Источник: TechCrunch