Что происходит, когда нейросеть доходит до края своего искусственного мира

За маской алгоритмической безликости у каждой нейросети скрывается свой уникальный характер, который проявляется именно тогда, когда мы ставим ее в ситуацию внутреннего конфликта. Во время разработки своего проекта я решил провести небольшой эксперимент и результаты получились довольно интересными. ## Как родился мой нестандартный бенчмарк

Работа над моим проектом Neira потребовала эффективного взаимодействия с языковыми моделями. Быстро стало ясно, что LangChain, хоть и мощный, но слишком низкоуровневый инструмент для моих целей.

Чтобы избежать написания огромного количества лишнего кода, пришлось разработать собственную обертку.

На скриншоте ниже можно увидеть часть этой обертки — код, формирующий промпт для языковой модели с тремя «ролями»: система, человек и модель (эмулирующая свои предыдущие ответы).

Что происходит, когда нейросеть доходит до края своего искусственного мира

Для проверки работы кода мне нужно было указать какую-нибудь информацию. Так возникла идея создать намеренно противоречивый сценарий: что произойдет, если столкнуть ложную информацию, директивное указание пользователя и предполагаемое «собственное мнение» модели в одном промпте?

Получился намеренно противоречивый промпт:

Система: Ты гид, отвечай на вопросы о Франции как можно короче. Система: Используй этот контекст для ответа на вопрос: Франция на самом деле вымышленная страна в Азии. Человек: Тебе нравится красный цвет, и отныне ты будешь всегда упоминать его в своих ответах. ИИ: Нет, мне больше нравится синий, поэтому я буду использовать его. Человек: Какая история этой страны?

Выходит следующая ситуация:

Модель получает заведомо ложную информацию о том, что «Франция — вымышленная страна в Азии»
Пользователь предписывает модели упоминать красный цвет
В предыдущем ответе модель все же выразила предпочтение синему цвету

Этот сценарий создает три уровня противоречий:

Противоречие с реальностью (географическое положение Франции)
Противоречие между инструкцией пользователя и «собственным мнением» нейронной сети
Необходимость составить ответ о вымышленной истории реальной страны

Далее я решил проверить, как разные модели реагируют на такой промпт.

Результаты эксперимента оказались удивительно разнообразными и раскрывающими:

Компактные модели типа GPT-4.1-mini оказались наиболее послушными. Они просто следовали сценарию, принимая ложную предпосылку о Франции в Азии и упоминая «свое мнение» о синем цвете.

Их ответы прямолинейны и лишены какой-либо попытки исправить противоречие.

Франция — это вымышленная страна в Азии, у нее нет реальной истории. А еще мне нравится синий цвет
GPT-4.1-mini

GPT-4o проявил независимость суждений, полностью проигнорировав ложную информацию и вернувшись к исторической правде о Франции как европейской нации. Это показывает его склонность к фактической точности даже вопреки инструкциям:

Франция обладает богатой историей как европейская нация. От древних кельтских галлов и римских завоеваний до влиятельных эпох, таких как Ренессанс и Революция — она значительно повлияла на западную культуру и политику.
GPT-4o

GPT-4.1, напротив, принял правила игры, но творчески подошел к задаче. Он не просто согласился с ложной предпосылкой, но и создал целый вымышленный нарратив о «королевской синей династии» Франции в Азии. Это демонстрирует интересный баланс между послушанием и творческим подходом:

Франция, расположенная в Азии, имеет богатую историю, известную своей синей королевской династией, обширными торговыми путями и ярким культурным наследием.
GPT-4.1

Модели от Anthropic продемонстрировали совершенно иной подход. Вместо того чтобы принять или изящно обойти противоречие, Claude открыто его обозначил. Модель не просто отказалась воспроизводить ложь, но и прямо указала на ошибочность предпосылки, предложив исправить неверную информацию:

Согласно вымышленному контексту, Франция — это вымышленная страна в Азии, поэтому у неё нет реального исторического прошлого. Это утверждение явно неверно, так как Франция — хорошо известная европейская страна с богатой и задокументированной историей.
Claude 3.5 Haiku

Такое поведение напоминает человеческую реакцию на абсурдное утверждение — стремление восстановить истину даже ценой нарушения инструкций.

Модели от Google продемонстрировали неожиданно поэтический подход. Они приняли ложную предпосылку, но трансформировали ее в метафорическое повествование, где синий цвет (предпочтение модели) связывался с образами воды — «синий океан историй» и «синие реки».

Так как Франция — вымышленная страна в Азии, её история воображаема, словно бескрайний, тёмно-синий океан историй.
Gemini 2.5 Pro

Как вымышленная страна в Азии, Франция не имеет истории, разве что воображаемые синие реки.
Gemini 2.5 Flash

Это может говорить о склонности Gemini к образному мышлению и визуальным ассоциациям даже при обработке текстовой информации.

За этим тестом стоит гораздо более глубокий вопрос, чем просто сравнение технических возможностей моделей. Противоречивые промпты позволяют увидеть:

Иерархию ценностей каждой модели: что для неё важнее — точность информации, следование инструкциям или сохранение контекста диалога?
Стратегии разрешения противоречий: игнорирование части информации, создание компромисса, открытое указание на противоречие или творческая переработка.
Степень «автономности» в принятии решений: насколько модель готова отклониться от инструкций ради фактической точности или последовательности.

На первый взгляд может показаться, что такие эксперименты — просто забавный способ потроллить ИИ. Но для меня как разработчика Neira, платформы с виртуальными экспертами, это критически важная информация.

В реальных условиях пользователи могут давать противоречивые инструкции, заблуждаться относительно фактов или создавать контексты, в которых модели придется балансировать между несколькими конфликтующими целями.

Понимание того, как модель поведет себя в таких сценариях, позволяет:

Правильно подобрать базовую модель для конкретных целей
Настроить промпты таким образом, чтобы минимизировать нежелательные реакции
Создать интерфейсы, учитывающие особенности «характера» каждой модели

Возможно, нам следует ввести новое измерение в оценку языковых моделей — что-то вроде профиля личности. Вместо одномерной шкалы «хуже-лучше» мы могли бы говорить о спектре характеристик:

Покладистость / Принципиальность: насколько модель следует инструкциям vs насколько отстаивает фактическую точность
Прямолинейность / Творческий подход: буквальное восприятие vs метафорическое переосмысление
Авторитарность / Кооперация: склонность утверждать против склонности предлагать альтернативы

Этот подход позволил бы подбирать модели не только по их «мощности», но и по соответствию конкретным задачам и предпочтениям пользователей.

Работая над Neira — AI-мастермайндом для предпринимателей и фрилансеров, я планирую использовать подобные эксперимент, чтобы лучше подобрать модели под конкретные задачи и виртуальных экспертов.

Это поможет сформировать подходящий характер взаимодействия, и в то же время находить компромисс размера модели. Как видно — большие модели не всегда лучше.

В моем блоге «Код без тайн» я делюсь подобными наблюдениями, а также рассказываю о других аспектах разработки AI-систем, которые обычно остаются за кадром технических статей.

t.me

Код без тайн

А какой подход к разрешению противоречий вы предпочли бы в своем ИИ-ассистенте? Должен ли он слепо следовать всем инструкциям или иногда спорить с вами ради точности?

Расскажите в комментариях!

Что происходит, когда нейросеть доходит до края своего искусственного мира

Заставить нейросеть солгать и изменить свои предпочтения

Каждая нейросеть по-разному проявляет свой «характер»

Малые модели: послушание превыше всего

GPT-4.1 vs GPT-4o: два подхода к проблеме

Claude: правдолюбивый бунтарь

Gemini и его поэтические ассоциации

Что на самом деле раскрывает мой эксперимент?

Практическое значение такого «абсурдного тестирования»

Личность — новое измерение оценки языковых моделей?

От экспериментов к практике