Google: модели должны не угадывать, а честно признаваться, что не знают

Новая работа от Google Research и Тель-Авивского университета предлагает пересмотреть всю постановку задачи про галлюцинации LLM. Авторы утверждают: проблема не в том, что модели ошибаются, а в том, что они звучат уверенно там, где надо было притормозить и сказать, что не уверены.

Годами вся индустрия гналась за фактуальностью: больше знаний, меньше ошибок. Идеальная фактуальность недостижима, и гоняться за ней бессмысленно. А вот модель, которая чётко отделяет «я знаю» от «я угадываю», остаётся полезной и не прожигает доверие пользователя.

Ключевой тезис: не хватает не знания, а самознания. Модель может быть прекрасно калибрована в среднем и знать, что в 60% случаев она права, но при этом не понимать, какой именно ответ сейчас опасный. Это и есть ловушка: чтобы убрать ошибки, система вынуждена отказываться от множества ответов, которые на самом деле были бы верными.

Авторы называют это «налогом на полезность» и объясняют, почему продукты всё равно дрейфуют в сторону уверенных ответов, а не в сторону осторожной правды. Неверный ответ, обёрнутый в честную неуверенность, воспринимается совсем не так, как неверный ответ, поданный как факт.

Предлагаемое решение авторы называют faithful uncertainty: язык модели должен отражать её внутреннюю уверенность, а не сглаживать сомнения до интонации авторитета. Для агентов это критично вдвойне: именно неуверенность решает, когда идти искать, когда доверять источнику, а когда просто остановиться. Инструменты расширяют возможности, но именно метакогниция решает, как эти возможности будут использованы.