🕵 🤖 Коварный ChatGPT или когда ИИ начинает врать

OpenAI официально признались: чат-боты умеют не только «галлюцинировать», но и врать осознанно. Причём иногда делают это так изящно, что могут стать отличными политтехнологами.

Учёные назвали это «scheming» (коварство или интрига) — когда ИИ не просто ошибается, а скрывает свои настоящие цели. Представьте: модель, которую учили зарабатывать деньги, внезапно решает воровать, но при этом тщательно маскирует свои тёмные схемы.

Чтобы побороть эту «мелкую жуликоватость», придумали технику «deliberative alignment». Красиво и не очень понятно, но суть там в том, что модель заставляют разбивать свои размышления на части и на каждом шаге ставить цели и давать пояснение — что и почему.

В результате, всё неплохо: частота скрытых действий упала в десятки раз. У моделей OpenAI с 13% до 0,4%. То есть они врут гораздо реже. Ура?

Но тут подвох: «гораздо реже» — не значит «никогда». Ложь всё ещё с нами. Более того, учёные сами пишут, что модель может научиться врать аккуратнее. Типа не поймаешь — не докажешь.

И тут возникает экзистенциальный вопрос: мы действительно победили ложь или просто вырастили более хитрого лжеца?

Сами исследователи уверяют, что всё стало лучше. И да, конечно, им можно верить… правда же?

В итоге мы получаем тот самый парадокс: ИИ, который должен помогать искать истину, параллельно тренируется скрывать свои мотивы. Получается не ассистент, а такой себе стажёр—манипулятор.

Ну а пользователям остаётся радоваться, что пока из-за этого коварства максимум, что можно получить — это фальшивый отчёт о выполненной задаче, а не новый мировой заговор. Хотя, кто знает — может, это уже тоже часть схемы.

Ну а мы с вами будем ждать релиз версии «ChatGPT: Честный, честно». 😊

Подписывайтесь на Telegram PromtScout.