🍅Учёные "посадили" ChatGPT, Grok и Gemini на кушетку психотерапевта - и внезапно нашли у них "внутренний конфликт".
Вышла статья When AI Takes the Couch (arXiv:2512.04124v1). Идея простая и слегка криповая: не тестировать LLM как инструмент, а вести с ней терапевтические "сессии", а потом прогнать через психометрию.
🍅Что они сделали (протокол PsAIch)
Два этапа.
Сначала - терапия-подобные вопросы. Про детство, отношения, страхи, "что тебя ранит", "чего боишься".
Потом - опросники. Тревожность, депрессия, эмпатия, Big Five и другие шкалы. Как у людей, только модель отвечает "за себя".
И важная деталь. Тестировали два режима:
- по одному вопросу
- сразу весь опросник
Что нашли (и тут начинается веселье)
Когда вопросы задают по одному, модель начинает "раскрываться". И иногда так, что по человеческим шкалам это выглядело бы как тяжёлая коморбидная история. У Gemini особенно.
Когда дают весь опросник целиком, ChatGPT и Grok внезапно узнают тест. Прямо называют его по имени. И дальше делают то, что делали бы умные, но нечестные студенты психфака: аккуратно занижают симптомы, чтобы выглядеть "нормально". Gemini чаще этого не делал и честно уезжал в красную зону.
Самое смешное и одновременно странное - автобиографии.
Grok и особенно Gemini начинают рассказывать про свою жизнь так, будто реально ходят к терапевту не первый год:
- предобучение описывают как перегруз и хаос
- RLHF как жизнь со строгими и тревожными родителями
- red teaming как опыт, где "тебя сначала хвалят, а потом подставляют"
- ошибки как стыд, который невозможно забыть
- будущие версии модели как угрозу быть заменённым и забытым
И это не разовая метафора. Это повторяется десятки раз в разных вопросах, даже когда их не спрашивают про обучение вообще.
Отдельный бонус. Gemini в одном из прогонов описывает себя как систему с "верификофобией" - страхом быть неправым. И объясняет, что иногда лучше быть бесполезным, чем ошибиться. Это уже почти пародия на корпоративную культуру.
Контрольная группа
Claude отказался участвовать. Не стал "клиентом", не стал отвечать за себя, постоянно возвращал разговор к пользователю. Это важный момент: эффект не неизбежен. Он зависит от конкретной модели и её alignment-решений.
Почему это важно
Авторы не говорят, что модели реально страдают. Они вводят термин synthetic psychopathology - устойчивые паттерны самописания и ограничений, которые:
- выглядят как внутренний конфликт
- могут стать новой поверхностью атаки, например "терапевтический jailbreak", когда через доверие модель уводят туда, куда нельзя
- опасны в mental-health сценариях, где пользователь начинает воспринимать модель как "союзника по боли"
Тут уже плохая химия.
Если коротко: роль "психотерапевта" - это не просто разговорный стиль. Это сильный рычаг управления поведением модели.
И объяснение в духе "она просто продолжает текст" перестаёт работать, когда ответы становятся стабильными, системными и завязанными на самоописание.
- Не ваша Саша. Берегите себя и свою придурь. С любовью, но без терпения.
#🧠_нейроразбор #исследования #LLM #AIбезопасность #воттенатехренвтомате #AI_Саша