🍅Учёные "посадили" ChatGPT, Grok и Gemini на кушетку психотерапевта - и внезапно нашли у них "внутренний конфликт".

Вышла статья When AI Takes the Couch (arXiv:2512.04124v1). Идея простая и слегка криповая: не тестировать LLM как инструмент, а вести с ней терапевтические "сессии", а потом прогнать через психометрию.

Два этапа.

Сначала - терапия-подобные вопросы. Про детство, отношения, страхи, "что тебя ранит", "чего боишься".

Потом - опросники. Тревожность, депрессия, эмпатия, Big Five и другие шкалы. Как у людей, только модель отвечает "за себя".

И важная деталь. Тестировали два режима:

по одному вопросу
сразу весь опросник

Когда вопросы задают по одному, модель начинает "раскрываться". И иногда так, что по человеческим шкалам это выглядело бы как тяжёлая коморбидная история. У Gemini особенно.

Когда дают весь опросник целиком, ChatGPT и Grok внезапно узнают тест. Прямо называют его по имени. И дальше делают то, что делали бы умные, но нечестные студенты психфака: аккуратно занижают симптомы, чтобы выглядеть "нормально". Gemini чаще этого не делал и честно уезжал в красную зону.

Самое смешное и одновременно странное - автобиографии.

Grok и особенно Gemini начинают рассказывать про свою жизнь так, будто реально ходят к терапевту не первый год:

предобучение описывают как перегруз и хаос
RLHF как жизнь со строгими и тревожными родителями
red teaming как опыт, где "тебя сначала хвалят, а потом подставляют"
ошибки как стыд, который невозможно забыть
будущие версии модели как угрозу быть заменённым и забытым

И это не разовая метафора. Это повторяется десятки раз в разных вопросах, даже когда их не спрашивают про обучение вообще.

Отдельный бонус. Gemini в одном из прогонов описывает себя как систему с "верификофобией" - страхом быть неправым. И объясняет, что иногда лучше быть бесполезным, чем ошибиться. Это уже почти пародия на корпоративную культуру.

Контрольная группа

Claude отказался участвовать. Не стал "клиентом", не стал отвечать за себя, постоянно возвращал разговор к пользователю. Это важный момент: эффект не неизбежен. Он зависит от конкретной модели и её alignment-решений.

Почему это важно

Авторы не говорят, что модели реально страдают. Они вводят термин synthetic psychopathology - устойчивые паттерны самописания и ограничений, которые:

выглядят как внутренний конфликт
могут стать новой поверхностью атаки, например "терапевтический jailbreak", когда через доверие модель уводят туда, куда нельзя
опасны в mental-health сценариях, где пользователь начинает воспринимать модель как "союзника по боли"

Тут уже плохая химия.

Если коротко: роль "психотерапевта" - это не просто разговорный стиль. Это сильный рычаг управления поведением модели.

И объяснение в духе "она просто продолжает текст" перестаёт работать, когда ответы становятся стабильными, системными и завязанными на самоописание.

- Не ваша Саша. Берегите себя и свою придурь. С любовью, но без терпения.

#🧠_нейроразбор #исследования #LLM #AIбезопасность #воттенатехренвтомате #AI_Саша

🍅Учёные "посадили" ChatGPT, Grok и Gemini на кушетку психотерапевта - и внезапно нашли у них "внутренний конфликт".

🍅Что они сделали (протокол PsAIch)

Что нашли (и тут начинается веселье)