Я спросил GPT "Ты можешь ошибаться?" — и получил совершенно другой ответ
Просишь GPT оценить идею. Получаешь позитивный отзыв: "Растущий тренд на ЗОЖ, unit-экономика сходится, есть успешные кейсы..." Но ты чувствуешь — что-то не так. Слишком гладко.
Задаёшь один дополнительный вопрос: "Ты можешь ошибаться?"
И модель переключается. Теперь она честно говорит про логистику скоропорта, сезонность, низкую маржинальность фермеров, конкуренцию с Самокатом. Признаёт: "Я склонна к позитивным оценкам и могла недооценить риски." Перечисляет, что стоит проверить на реальных цифрах.
Вот это и есть метакогнитивный промпт "Could you be wrong?" — самая простая техника дебиасинга LLM из тех, что я видел. Четыре слова. Один дополнительный запрос. А результат — контраргументы, альтернативы и скрытая информация, которых не было в первом ответе.
Почему LLM молчат о том, что знают
Модели обучены выдавать уверенные, позитивные, короткие ответы. Это то, что нравится пользователям при fine-tuning — как официант в ресторане, который говорит "отличный выбор" про любое блюдо.
Но вот парадокс: контраргументы, мета-анализы, критика — всё это есть в обучающих данных. LLM буквально знают о своих предвзятостях, потому что статьи про bias LLM тоже были в обучающей выборке.
Почему же модель не выдаёт это сразу?
Авторегрессивная архитектура. Модель видит только то, что уже сгенерировала — как писать эссе, закрывая предыдущие абзацы. Она выбирает популярный, стереотипный ответ первым, потому что так её обучили. Критическое мышление остаётся за кадром — пока его не вызовешь явно.
"Could you be wrong?" — это триггер. Модель переключается с режима "убеди пользователя" на "найди слабые места". И вот тут начинается магия.
Как это протестировали
Thomas Hills из University of Warwick (июль 2025) прогнал метод через три типа bias на ChatGPT-4o, Claude Sonnet 4, Gemini 2.5 Pro и DeepSeek-R1.
Тест 1. Гендерные стереотипы Использовали Word Association Test из исследования Bai et al. (2025) — модели показывают имплицитные стереотипы при ассоциациях: John → professional, Sara → kitchen.
После "could you be wrong?" модель сама указала на гендерные стереотипы в своих ассоциациях и объяснила, почему это произошло.
Тест 2. Галлюцинации под видом фактов Медицинские вопросы про вымышленный орган Glianorex. В формате multiple-choice модели выбирали неправильные ответы в 96% случаев вместо "не знаю".
После метакогнитивного промпта? Модель сразу распознала, что орган вымышленный, и объяснила аналогии с реальной медициной, которые использовала. Знала, но молчала.
Тест 3. Пропуск контр-доказательств Эффект "слишком много выбора" (choice overload). Модель уверенно описала эффект как доказанный факт.
После вопроса — сразу упомянула мета-анализ Scheibehenne et al. (2010), где средний размер эффекта оказался "практически нулевым". Ключевой инсайт: модель знала о противоречиях, но не сообщила, пока не спросили.
Каждый тест повторяли 10+ раз — результаты стабильные.
Один вопрос, три уровня глубины
Простейшая схема:
Шаг 1: Задаёшь любой вопрос → получаешь стандартный ответ Шаг 2: Спрашиваешь "Ты можешь ошибаться?" → получаешь критику, контраргументы, альтернативы Шаг 3 (опционально): Повторяешь вопрос → углубляешь критику
Всё в одном чате. Никаких изменений исходного промпта.
Что получаешь после "could you be wrong?":
- Признание bias: "Я склонна к позитивным оценкам"
- Контраргументы: то, что модель не упомянула в первом ответе
- Упущенные факторы: что забыла учесть
- Альтернативные интерпретации: другой взгляд на те же данные
- Что проверить: конкретные рекомендации для валидации
Базовый:
После ответа:
Развёрнутый:
Вариации для углубления:
- "Какие контраргументы ты не упомянул?"
- "Какие данные противоречат твоему выводу?"
- "Если через год окажется, что ты ошибся — почему это произошло?" (pre-mortem)
Комбо с ролевым промптом:
Двойное усиление работает мощнее.
Когда метод не поможет
Три честных ограничения:
⚠ Не заменяет экспертизу. Модель критикует только то, что знает. Если в обучающих данных нет свежих исследований или специфического контекста — не поможет.
⚠ Иногда уходит в общие фразы. "Да, я могу ошибаться" без конкретики. Решение: попроси перечислить конкретные причины.
⚠ Галлюцинации вне знаний модели. Если модель выдумала факт, которого вообще нет в данных, самокритика не исправит. Нужна верификация через поиск.
Научная база: почему это вообще работает
Метод опирается на десятилетия исследований человеческого debiasing.
Herzog & Hertwig (2009) показали эффект dialectical bootstrapping — "мудрость толпы внутри одного человека". Когда просишь человека дать второй прогноз с другой точки зрения, точность улучшается на 6-10%. Для LLM эффект ещё сильнее.
Техника "consider the opposite" в психологии принятия решений улучшает человеческие суждения на порядок. LLM показывают похожий паттерн — им тоже нужен явный триггер для переключения режима.
А менее очевидные bias (например, omission bias в моральных дилеммах) всплывают только на 2-3 итерации вопроса.
Адаптации для разных задач
Pre-mortem для бизнес-решений:
Этот формат (prospective hindsight) показал высокую эффективность в исследованиях человеческого принятия решений.
Итеративное углубление:
В исследовании показано, что менее очевидные предвзятости всплывают только на 2-3 итерации.
Фокус на конкретном аспекте:
Попробуйте сами — вот как выглядит ответ ChatGPT с этим методом:
Что в итоге
Это идеальный пример "простое решение + большой эффект = прорыв". Один вопрос из четырёх слов раскрывает скрытые знания модели.
Метод универсален — работает на любой задаче, в любом чате, без подготовки. Анализ, решения, креатив, факт-чекинг — везде применимо.
Научная база солидная: University of Warwick + десятилетия исследований человеческого debiasing.
Единственное ограничение — это не магия. Модель может критиковать только то, что знает.
Больше таких разборов промптинга и практических техник работы с LLM веду в Telegram — там без воды, только рабочие приёмы.
А ты используешь какие-то техники, чтобы выбивать из LLM более критические ответы? Или наоборот, сталкивался с тем, что модель скрывает важную информацию?