Почему AI уверенно врёт — видео от Anthropic

Автор текста — Егор Соколов. 10 лет в продукте (от стартапов до Сбера), последние полгода — в Claude Code. Веду канал «Нейросеть не виновата», где разбираю скиллы, агентов и то, что реально работает на практике.

Anthropic выпустил 5-минутное видео для новичков про галлюцинации — короткий ликбез о том, что это, почему случается и как не попасться. Пересказываю с собственными добавками.

Что такое галлюцинация

Это случай, когда модель уверенно выдаёт неправду, и ключевое слово здесь — «уверенно». Это не опечатка и не «почти угадал», а ответ, который выглядит как настоящий: несуществующая статья, приписанная реальному автору; правдоподобная статистика, которую никто не считал; цитата, которой не было. Самое неприятное — что отличить такой ответ от настоящего по тону практически невозможно.

Почему так случается

Модель училась предсказывать следующее слово на огромном корпусе текстов, и пока тема массовая — этого хватает. Но когда вопрос упирается в нишевую или свежую область, где данных мало, модель не говорит «не знаю», а угадывает по шаблону. Метафора из видео хорошо это ловит: представьте всезнайку-друга, который не любит признаваться в незнании и иногда уверенно выдаёт ерунду — просто потому что хочет выглядеть экспертом.

Где галлюцинируют чаще

Вероятность подскакивает на точных цитатах, статистике и ссылках на исследования; на нишевых и свежих темах; на реальных, но малоизвестных людях и местах; на конкретных датах, именах и числах. Любой вопрос, где правильный ответ — это узкий факт, а не общее рассуждение, попадает в зону риска.

Что советует Anthropic (и что я применяю сам)

Первое — просить источники и потом отдельно проверять, что они подтверждают именно тезис, а не просто звучат похоже: модель часто выдаёт правильный URL, но статья по нему оказывается про другое. Второе — заранее сказать прямо: «ничего страшного, если не знаешь»; это снимает с модели давление «обязан ответить» и заметно повышает шанс получить честное «не знаю». Третье — уточнять уверенность отдельным вопросом: «насколько ты уверен в этом?» — иногда модель сама признаёт сомнения, если её специально спросить. И четвёртое, моё любимое: открыть новый чат, скинуть туда ответ и попросить найти ошибки. Свежий контекст не защищает прошлое решение и ловит то, что в исходном диалоге пропустилось.

Что я добавил бы от себя

В Claude есть поле Custom Instructions — у Claude.ai оно лежит в Settings → General → Instructions for Claude.

ChatGPT: Settings → Personalization → Custom Instructions.

Туда можно положить любую инструкцию, которая будет применяться ко всем будущим чатам. Я добавил туда два пункта про уровень уверенности:

Добавляй к суждениям уровень уверенности. Не ставь проценты из воздуха: если база для оценки — это моё одно-два предложения, говори словами («скорее да», «не уверен», «это гипотеза»). Числа — только когда под ними есть реальная основа.
При сравнении вариантов — давай объективные критерии, цифры и вероятности, когда они действительно есть. Если данных нет — лучше честно сказать словами, чем сочинить псевдо-точные метрики, чтобы ответ выглядел рационально.

После этого модель начинает помечать утверждения — «уровень уверенности: средний», «не уверен», «это гипотеза» — и заметно реже звучит так, будто уверена в каждом своём слове. Это не панацея и галлюцинации полностью не убирает, но в спорных местах сразу видно, где у модели реальная основа, а где она дотягивает до правдоподобия — и это уже половина решения.

Anthropic прямо говорит, что это нерешённая проблема: прогресс с каждой версией есть, но слепо доверять AI нельзя.

Понимание этой особенности и использование защитных техник (новый чат для проверки, уточняющие вопросы про источники, инструкция про уровень уверенности) сильно снижают дискомфорт от периодических галлюцинаций агентов.

Отправьте этот пост кому-то, кто только начинает дружбу с AI и пока не научился ловко ловить ИИ на лжи 🤥

Смотреть видео

Заходите в канал Нейросеть не виновата, там больше про то, как получать максимум от работы с AI.

Подписывайтесь на Telegram Нейроцех.