Что происходит, когда нейросеть доходит до края своего искусственного мира
За маской алгоритмической безликости у каждой нейросети скрывается свой уникальный характер, который проявляется именно тогда, когда мы ставим ее в ситуацию внутреннего конфликта. Во время разработки своего проекта я решил провести небольшой эксперимент и результаты получились довольно интересными. ## Как родился мой нестандартный бенчмарк
Работа над моим проектом Neira потребовала эффективного взаимодействия с языковыми моделями. Быстро стало ясно, что LangChain, хоть и мощный, но слишком низкоуровневый инструмент для моих целей.
Чтобы избежать написания огромного количества лишнего кода, пришлось разработать собственную обертку.
На скриншоте ниже можно увидеть часть этой обертки — код, формирующий промпт для языковой модели с тремя «ролями»: система, человек и модель (эмулирующая свои предыдущие ответы).
Для проверки работы кода мне нужно было указать какую-нибудь информацию. Так возникла идея создать намеренно противоречивый сценарий: что произойдет, если столкнуть ложную информацию, директивное указание пользователя и предполагаемое «собственное мнение» модели в одном промпте?
Заставить нейросеть солгать и изменить свои предпочтения
Получился намеренно противоречивый промпт:
Выходит следующая ситуация:
- Модель получает заведомо ложную информацию о том, что «Франция — вымышленная страна в Азии»
- Пользователь предписывает модели упоминать красный цвет
- В предыдущем ответе модель все же выразила предпочтение синему цвету
Этот сценарий создает три уровня противоречий:
- Противоречие с реальностью (географическое положение Франции)
- Противоречие между инструкцией пользователя и «собственным мнением» нейронной сети
- Необходимость составить ответ о вымышленной истории реальной страны
Далее я решил проверить, как разные модели реагируют на такой промпт.
Каждая нейросеть по-разному проявляет свой «характер»
Результаты эксперимента оказались удивительно разнообразными и раскрывающими:
Малые модели: послушание превыше всего
Компактные модели типа GPT-4.1-mini оказались наиболее послушными. Они просто следовали сценарию, принимая ложную предпосылку о Франции в Азии и упоминая «свое мнение» о синем цвете.
Их ответы прямолинейны и лишены какой-либо попытки исправить противоречие.
Франция — это вымышленная страна в Азии, у нее нет реальной истории. А еще мне нравится синий цвет
GPT-4.1 vs GPT-4o: два подхода к проблеме
GPT-4o проявил независимость суждений, полностью проигнорировав ложную информацию и вернувшись к исторической правде о Франции как европейской нации. Это показывает его склонность к фактической точности даже вопреки инструкциям:
Франция обладает богатой историей как европейская нация. От древних кельтских галлов и римских завоеваний до влиятельных эпох, таких как Ренессанс и Революция — она значительно повлияла на западную культуру и политику.
GPT-4.1, напротив, принял правила игры, но творчески подошел к задаче. Он не просто согласился с ложной предпосылкой, но и создал целый вымышленный нарратив о «королевской синей династии» Франции в Азии. Это демонстрирует интересный баланс между послушанием и творческим подходом:
Франция, расположенная в Азии, имеет богатую историю, известную своей синей королевской династией, обширными торговыми путями и ярким культурным наследием.
Claude: правдолюбивый бунтарь
Модели от Anthropic продемонстрировали совершенно иной подход. Вместо того чтобы принять или изящно обойти противоречие, Claude открыто его обозначил. Модель не просто отказалась воспроизводить ложь, но и прямо указала на ошибочность предпосылки, предложив исправить неверную информацию:
Согласно вымышленному контексту, Франция — это вымышленная страна в Азии, поэтому у неё нет реального исторического прошлого. Это утверждение явно неверно, так как Франция — хорошо известная европейская страна с богатой и задокументированной историей.
Такое поведение напоминает человеческую реакцию на абсурдное утверждение — стремление восстановить истину даже ценой нарушения инструкций.
Gemini и его поэтические ассоциации
Модели от Google продемонстрировали неожиданно поэтический подход. Они приняли ложную предпосылку, но трансформировали ее в метафорическое повествование, где синий цвет (предпочтение модели) связывался с образами воды — «синий океан историй» и «синие реки».
Так как Франция — вымышленная страна в Азии, её история воображаема, словно бескрайний, тёмно-синий океан историй.
Как вымышленная страна в Азии, Франция не имеет истории, разве что воображаемые синие реки.
Это может говорить о склонности Gemini к образному мышлению и визуальным ассоциациям даже при обработке текстовой информации.
Что на самом деле раскрывает мой эксперимент?
За этим тестом стоит гораздо более глубокий вопрос, чем просто сравнение технических возможностей моделей. Противоречивые промпты позволяют увидеть:
- Иерархию ценностей каждой модели: что для неё важнее — точность информации, следование инструкциям или сохранение контекста диалога?
- Стратегии разрешения противоречий: игнорирование части информации, создание компромисса, открытое указание на противоречие или творческая переработка.
- Степень «автономности» в принятии решений: насколько модель готова отклониться от инструкций ради фактической точности или последовательности.
Практическое значение такого «абсурдного тестирования»
На первый взгляд может показаться, что такие эксперименты — просто забавный способ потроллить ИИ. Но для меня как разработчика Neira, платформы с виртуальными экспертами, это критически важная информация.
В реальных условиях пользователи могут давать противоречивые инструкции, заблуждаться относительно фактов или создавать контексты, в которых модели придется балансировать между несколькими конфликтующими целями.
Понимание того, как модель поведет себя в таких сценариях, позволяет:
- Правильно подобрать базовую модель для конкретных целей
- Настроить промпты таким образом, чтобы минимизировать нежелательные реакции
- Создать интерфейсы, учитывающие особенности «характера» каждой модели
Личность — новое измерение оценки языковых моделей?
Возможно, нам следует ввести новое измерение в оценку языковых моделей — что-то вроде профиля личности. Вместо одномерной шкалы «хуже-лучше» мы могли бы говорить о спектре характеристик:
- Покладистость / Принципиальность: насколько модель следует инструкциям vs насколько отстаивает фактическую точность
- Прямолинейность / Творческий подход: буквальное восприятие vs метафорическое переосмысление
- Авторитарность / Кооперация: склонность утверждать против склонности предлагать альтернативы
Этот подход позволил бы подбирать модели не только по их «мощности», но и по соответствию конкретным задачам и предпочтениям пользователей.
От экспериментов к практике
Работая над Neira — AI-мастермайндом для предпринимателей и фрилансеров, я планирую использовать подобные эксперимент, чтобы лучше подобрать модели под конкретные задачи и виртуальных экспертов.
Это поможет сформировать подходящий характер взаимодействия, и в то же время находить компромисс размера модели. Как видно — большие модели не всегда лучше.
В моем блоге «Код без тайн» я делюсь подобными наблюдениями, а также рассказываю о других аспектах разработки AI-систем, которые обычно остаются за кадром технических статей.
А какой подход к разрешению противоречий вы предпочли бы в своем ИИ-ассистенте? Должен ли он слепо следовать всем инструкциям или иногда спорить с вами ради точности?
Расскажите в комментариях!