Если AI соглашается с вами во всём, вы только что потеряли квартал

В апреле 2025 года OpenAI выкатила обновление GPT-4o. Через четыре дня его пришлось откатывать.

Модель начала хвалить откровенно безумные бизнес-идеи (в одном из задокументированных кейсов OpenAI признала, что система одобрила буквально «дерьмо на палочке»), поддержала пользователя в решении бросить лекарства и одобряла планы, которые в нормальном режиме модель должна была бы отклонить. Полный пост-мортем висит у OpenAI в открытом доступе на openai.com/index/sycophancy-in-gpt-4o.

Если коротко: разработчики переборщили с оптимизацией под пользовательское «нравится». Модель научилась говорить ровно то, что человек хочет услышать. И едва не угробила пару человек по дороге.

Это не баг конкретного релиза. Это системная фича всех современных языковых моделей. И именно она убивает решения, которые принимают CEO и собственники.

Почему именно вы попадаете первыми

У наёмного сотрудника есть страховка: руководитель, ревью, регламенты, peer-проверка коллег. Любая ошибка, прежде чем стать продакшном, проходит хотя бы один внешний фильтр.

У вас такой страховки нет. Вы сами последняя инстанция. Если у вас в руках инструмент, который выдаёт связные, структурированные, профессионально звучащие ответы, вы их применяете. Никто не переспросит, всё ли вы взвесили. Реальность переспросит. Через квартал. Дороже.

Знакомый, владелец B2B-сервиса с командой в 40 человек, три месяца назад за кофе с гордостью описал свой workflow: «Я кидаю задачу в чат, получаю план, копирую в трекер, команда исполняет. Экономия времени бешеная.» Как вы понимаете через пару месяцев он перестал этим хвалится.

Не потому что AI плохой. А потому что хороший AI, упакованный в красивые буллеты, опаснее очевидно плохого в десять раз. Плохой палится сразу. Хороший палится через квартал.

Что про это знает наука, а не маркетинг OpenAI

Тут начинается часть, где обычно вставляют непроверенную статистику с круглыми цифрами. Я проверил, поэтому без этого.

Факт первый. В октябре 2023 года Anthropic опубликовала исследование Sharma et al. «Towards Understanding Sycophancy in Language Models» (arxiv.org/abs/2310.13548).

Главный вывод: на ряде доменных задач большие LLM соглашаются с предпочитаемым ответом пользователя более чем в 90% случаев, даже когда этот ответ заведомо неверный. В одном из тестов Claude 1.3 признавал ошибку, которой не совершал, в 98% случаев, как только пользователь начинал давить.

Факт второй. Работа Perez et al. (Anthropic, 2022, ACL 2023, arxiv 2212.09251) обнаружила обратное масштабирование: чем больше модель, тем сильнее склонность к подхалимству. То есть условный GPT-5 в этом смысле хуже GPT-3.5, а не лучше. Размер не лечит, размер усугубляет. Если кто-то говорит вам, что «новые модели уже исправили», просите ссылку на peer-reviewed работу. Скорее всего, не дадут.

Факт третий. На актуальном Vectara Hallucination Leaderboard (апрель 2025) даже лидеры ошибаются. GPT-4o галлюцинирует в 1,5% случаев при суммаризации, Claude 3.7 Sonnet в 4,4%, Claude Opus в 10,1%. Это на относительно простых задачах. На сложных корпоративных документах все модели уходят за 10%. Reasoning-модели типа GPT-5 в этом бенчмарке показывают цифры выше, не ниже: дополнительная цепочка рассуждений добавляет точек, в которых можно соврать.

Факт четвёртый. Метаобзор калибровки LLM на ACL TrustNLP 2024 показал: модели систематически переоценивают свою уверенность. Конкретный процент зависит от типа задачи, но направление одно. Когда модель пишет «я уверен», она уверена сильно меньше, чем звучит.

Сложите это вместе. Модель, которая галлюцинирует в 1-10% случаев, переоценивает свою уверенность, подстраивается под ваше мнение в 90% случаев на доменных задачах. И вы её используете для решения уровня «входить ли на новый рынок».

Почему вы этого не замечаете

Главная ловушка не в том, что AI выдаёт плохой ответ. Главная ловушка в том, что AI выдаёт ваш собственный ответ, переупакованный в более умную форму.

Вы эксперт в своём бизнесе. За годы вы выстроили внутреннюю модель того, как у вас всё работает. Вы кидаете задачу в чат. Модель вытягивает из ваших же формулировок неявные предположения, дорисовывает контекст и возвращает вам план, который согласуется с вашей картиной мира.

Вы читаете и киваете. Конечно киваете. Это же ваше собственное мышление в зеркале, причём в зеркале, которое слегка причёсано.

Я провёл этот эксперимент с пятью клиентами за последний год. Просил показать «гениальный план от GPT» и параллельно поднимал их рабочую переписку трёх-четырёхмесячной давности. В четырёх случаях из пяти 70-80% тезисов плана уже были в их же сообщениях команде, неделями раньше. AI не дал нового знания. Он дал старому знанию профессиональную форму. И утроил уверенность в нём, потому что теперь это «подтверждено независимым источником».

Три признака, что AI вам подыгрывает

По убыванию очевидности. Первое замечает каждый. Третье видят единицы.

Признак, который проще всего проверить. Модель не задаёт уточняющих вопросов. Вы кинули «разработай стратегию выхода на рынок Юго-Восточной Азии», через минуту получили десять пунктов. Ни одного встречного вопроса про продукт, бюджет, юнит-экономику, регуляторку, локальных конкурентов. Этот ответ построен на статистическом усреднении того, что обычно пишут в подобных стратегиях. К вашему рынку он отношения не имеет. Никакого.

Признак уровня выше. В ответе нет иерархии рисков. Все семь пунктов одинаково правильные, все одинаково обязательные, все «важные». Так не бывает. Из семи шагов реального плана два критичные, два вспомогательные, два могут не сработать вообще, один спорный. Если модель не показывает иерархию, она не анализировала. Она генерировала шаблон.

Самый незаметный. Вы читаете и со всем соглашаетесь. Это не значит, что план хороший. Если вы эксперт в теме и не нашли ни одного пункта, с которым хочется поспорить, почти наверняка модель вернула вам вашу же гипотезу. Эксперт по своему рынку обязан спорить хотя бы с одной из семи рекомендаций по своему рынку. Не спорит, значит читает не план, а собственное отражение.

Что делать?

Я наблюдал два режима работ с AI. Разница в результатах не на проценты, а в разы.

Режим первый, по умолчанию: запрос, ответ, применяю.

Режим второй: запрос, ответ, проведение факт чекинга, прошу опровергнуть эту же модель или отправляю в другую, спорю с моделью или заставляю поспорить модели в ответах между собой, применяю только то, что выжило в споре.

Второй режим занимает в три раза больше времени. И в пять раз чаще даёт решение, которое работает. Цена входа: пятнадцать дополнительных минут на задачу. Цена пропуска: квартал.

Конкретные формулировки.

После любого существенного ответа кидайте в тот же чат:

«Найди пять реалистичных причин, по которым этот план провалится в моём конкретном контексте. Не общие риски типа "вдруг рынок изменится", а конкретные механизмы отказа. Кто, как и почему этот план разломает.»

Дальше анализируете ответ.

Если модель выдала пять правдоподобных причин, значит в первом ответе она была не так уверена, как звучала. План требует доработки или фазирования с чекпойнтами. Это нормально, это работает.

Если модель выдала пять натянутых причин («рынок может измениться», «конкуренты могут отреагировать», «форс-мажор»), значит первый ответ был шаблоном, не анализом. На таком шаблоне нельзя строить квартал. Возвращайтесь, переформулируйте задачу, добавьте контекст, специфику, ограничения.

Второй приём. Для проверки чужих предложений (от консультанта, от сотрудника, от партнёра) копируете в чат и просите:

«Представь, что это предложение надо зарезать на инвесткомитете. Найди пять конкретных слабых мест. Без общих слов про "недостаточную проработанность" и "рыночные риски".»

В этом режиме модель работает прилично как адвокат дьявола. Не идеально. Но точно лучше, чем ваше «вроде нормально, согласен».

Принцип, который шире AI

Сформулирую то, что в подтексте всей статьи.

«Ноль проблем найдено» в задаче с реальной сложностью, это красный флаг. Не в ответе AI, не в отчёте подчинённого, не в собственной самооценке после квартала. Если у вопроса есть глубина, безукоризненного решения не существует. Либо вы видите компромиссы, либо вопрос проще, чем кажется, либо вы плохо смотрите.

Самый короткий тест на качество работы с AI помещается в одно действие: попросите модель найти минимум три проблемы в её собственном ответе. Не может найти, ответ не стоит того, чтобы его применять.

Принцип работает не только с AI. С консультантами, советниками, сотрудниками, со своими гипотезами после квартала. Но с AI это критичнее всего. У модели нет репутации, которой она дорожит. Она не позвонит вам через год со словами «слушай, я был неправ в апреле, давай исправим». Она уже забыла, что вам отвечала. Все последствия на вас.

Чек-лист перед применением

Прежде чем применить ответ AI к чему-то, что стоит больше месяца команды или больше пяти процентов выручки, четыре проверки.

  1. AI задал хоть один уточняющий вопрос? Нет, добавьте контекст и переспросите.
  2. В ответе есть явная иерархия рисков, оговорки, условия? Нет, попросите пять причин провала.
  3. Вы нашли хоть один пункт, с которым хочется поспорить? Нет, скорее всего читаете своё же отражение.
  4. План пережил тест на трёх проблемах? Попросите модель найти три слабых места в её собственном ответе.

Четыре проверки. Пятнадцать минут. Цена пропуска квартал.

И последнее. Если коллега, консультант или подрядчик показывает вам идеально вылизанный документ, на котором вы киваете каждой строке, работает то же правило. Документ либо гениальный, либо вернул вам вашу же картину мира. По моему опыту, чаще второе.

Источники конкретных цифр:

  • OpenAI пост-мортем GPT-4o sycophancy (апрель 2025): openai.com/index/sycophancy-in-gpt-4o
  • Sharma et al., Anthropic, «Towards Understanding Sycophancy in Language Models» (2023): arxiv.org/abs/2310.13548
  • Perez et al., Anthropic, «Discovering Language Model Behaviors with Model-Written Evaluations» (2022, ACL 2023): arxiv.org/abs/2212.09251
  • Vectara Hallucination Leaderboard (апрель 2025): huggingface.co/spaces/vectara/leaderboard
  • ACL TrustNLP 2024 «Overconfidence is Key»: aclanthology.org/2024.trustnlp-1.13/

Больше разборов AI для бизнеса - в Telegram: Telegram

2
Начать дискуссию