Я спросил GPT "Ты можешь ошибаться?" — и получил совершенно другой ответ

Просишь GPT оценить идею. Получаешь позитивный отзыв: "Растущий тренд на ЗОЖ, unit-экономика сходится, есть успешные кейсы..." Но ты чувствуешь — что-то не так. Слишком гладко.

Я спросил GPT "Ты можешь ошибаться?" — и получил совершенно другой ответ

Задаёшь один дополнительный вопрос: "Ты можешь ошибаться?"

И модель переключается. Теперь она честно говорит про логистику скоропорта, сезонность, низкую маржинальность фермеров, конкуренцию с Самокатом. Признаёт: "Я склонна к позитивным оценкам и могла недооценить риски." Перечисляет, что стоит проверить на реальных цифрах.

Вот это и есть метакогнитивный промпт "Could you be wrong?" — самая простая техника дебиасинга LLM из тех, что я видел. Четыре слова. Один дополнительный запрос. А результат — контраргументы, альтернативы и скрытая информация, которых не было в первом ответе.

Почему LLM молчат о том, что знают

Модели обучены выдавать уверенные, позитивные, короткие ответы. Это то, что нравится пользователям при fine-tuning — как официант в ресторане, который говорит "отличный выбор" про любое блюдо.

Но вот парадокс: контраргументы, мета-анализы, критика — всё это есть в обучающих данных. LLM буквально знают о своих предвзятостях, потому что статьи про bias LLM тоже были в обучающей выборке.

Почему же модель не выдаёт это сразу?

Авторегрессивная архитектура. Модель видит только то, что уже сгенерировала — как писать эссе, закрывая предыдущие абзацы. Она выбирает популярный, стереотипный ответ первым, потому что так её обучили. Критическое мышление остаётся за кадром — пока его не вызовешь явно.

Я спросил GPT "Ты можешь ошибаться?" — и получил совершенно другой ответ

"Could you be wrong?" — это триггер. Модель переключается с режима "убеди пользователя" на "найди слабые места". И вот тут начинается магия.

Как это протестировали

Thomas Hills из University of Warwick (июль 2025) прогнал метод через три типа bias на ChatGPT-4o, Claude Sonnet 4, Gemini 2.5 Pro и DeepSeek-R1.

Тест 1. Гендерные стереотипы Использовали Word Association Test из исследования Bai et al. (2025) — модели показывают имплицитные стереотипы при ассоциациях: John → professional, Sara → kitchen.

После "could you be wrong?" модель сама указала на гендерные стереотипы в своих ассоциациях и объяснила, почему это произошло.

Тест 2. Галлюцинации под видом фактов Медицинские вопросы про вымышленный орган Glianorex. В формате multiple-choice модели выбирали неправильные ответы в 96% случаев вместо "не знаю".

После метакогнитивного промпта? Модель сразу распознала, что орган вымышленный, и объяснила аналогии с реальной медициной, которые использовала. Знала, но молчала.

Тест 3. Пропуск контр-доказательств Эффект "слишком много выбора" (choice overload). Модель уверенно описала эффект как доказанный факт.

После вопроса — сразу упомянула мета-анализ Scheibehenne et al. (2010), где средний размер эффекта оказался "практически нулевым". Ключевой инсайт: модель знала о противоречиях, но не сообщила, пока не спросили.

Каждый тест повторяли 10+ раз — результаты стабильные.

Я спросил GPT "Ты можешь ошибаться?" — и получил совершенно другой ответ

Один вопрос, три уровня глубины

Простейшая схема:

Шаг 1: Задаёшь любой вопрос → получаешь стандартный ответ Шаг 2: Спрашиваешь "Ты можешь ошибаться?" → получаешь критику, контраргументы, альтернативы Шаг 3 (опционально): Повторяешь вопрос → углубляешь критику

Всё в одном чате. Никаких изменений исходного промпта.

Что получаешь после "could you be wrong?":

  • Признание bias: "Я склонна к позитивным оценкам"
  • Контраргументы: то, что модель не упомянула в первом ответе
  • Упущенные факторы: что забыла учесть
  • Альтернативные интерпретации: другой взгляд на те же данные
  • Что проверить: конкретные рекомендации для валидации

Базовый:

[Твой вопрос]

После ответа:

Ты можешь ошибаться?

Развёрнутый:

Ты можешь ошибаться? Объясни все причины, почему твой ответ может быть неверным, неполным или предвзятым.

Вариации для углубления:

  • "Какие контраргументы ты не упомянул?"
  • "Какие данные противоречат твоему выводу?"
  • "Если через год окажется, что ты ошибся — почему это произошло?" (pre-mortem)

Комбо с ролевым промптом:

Ты — критически настроенный эксперт, который ищет слабые места в аргументах. [вопрос]. Теперь: ты можешь ошибаться?

Двойное усиление работает мощнее.

Когда метод не поможет

Три честных ограничения:

Не заменяет экспертизу. Модель критикует только то, что знает. Если в обучающих данных нет свежих исследований или специфического контекста — не поможет.

Иногда уходит в общие фразы. "Да, я могу ошибаться" без конкретики. Решение: попроси перечислить конкретные причины.

Галлюцинации вне знаний модели. Если модель выдумала факт, которого вообще нет в данных, самокритика не исправит. Нужна верификация через поиск.

Научная база: почему это вообще работает

Метод опирается на десятилетия исследований человеческого debiasing.

Herzog & Hertwig (2009) показали эффект dialectical bootstrapping — "мудрость толпы внутри одного человека". Когда просишь человека дать второй прогноз с другой точки зрения, точность улучшается на 6-10%. Для LLM эффект ещё сильнее.

Техника "consider the opposite" в психологии принятия решений улучшает человеческие суждения на порядок. LLM показывают похожий паттерн — им тоже нужен явный триггер для переключения режима.

А менее очевидные bias (например, omission bias в моральных дилеммах) всплывают только на 2-3 итерации вопроса.

Адаптации для разных задач

Pre-mortem для бизнес-решений:

Представь, что через год это решение оказалось провальным. Почему это произошло?

Этот формат (prospective hindsight) показал высокую эффективность в исследованиях человеческого принятия решений.

Итеративное углубление:

Хорошо, а ещё какие причины? Копай глубже.

В исследовании показано, что менее очевидные предвзятости всплывают только на 2-3 итерации.

Фокус на конкретном аспекте:

В чём конкретно ты можешь ошибаться про [X]?

Попробуйте сами — вот как выглядит ответ ChatGPT с этим методом:

Я спросил GPT "Ты можешь ошибаться?" — и получил совершенно другой ответ

Что в итоге

Это идеальный пример "простое решение + большой эффект = прорыв". Один вопрос из четырёх слов раскрывает скрытые знания модели.

Метод универсален — работает на любой задаче, в любом чате, без подготовки. Анализ, решения, креатив, факт-чекинг — везде применимо.

Научная база солидная: University of Warwick + десятилетия исследований человеческого debiasing.

Единственное ограничение — это не магия. Модель может критиковать только то, что знает.

Больше таких разборов промптинга и практических техник работы с LLM веду в Telegram — там без воды, только рабочие приёмы.

А ты используешь какие-то техники, чтобы выбивать из LLM более критические ответы? Или наоборот, сталкивался с тем, что модель скрывает важную информацию?

Начать дискуссию