Почему AI уверенно врёт — видео от Anthropic
Автор текста — Егор Соколов. 10 лет в продукте (от стартапов до Сбера), последние полгода — в Claude Code. Веду канал «Нейросеть не виновата», где разбираю скиллы, агентов и то, что реально работает на практике.
Anthropic выпустил 5-минутное видео для новичков про галлюцинации — короткий ликбез о том, что это, почему случается и как не попасться. Пересказываю с собственными добавками.
Что такое галлюцинация
Это случай, когда модель уверенно выдаёт неправду, и ключевое слово здесь — «уверенно». Это не опечатка и не «почти угадал», а ответ, который выглядит как настоящий: несуществующая статья, приписанная реальному автору; правдоподобная статистика, которую никто не считал; цитата, которой не было. Самое неприятное — что отличить такой ответ от настоящего по тону практически невозможно.
Почему так случается
Модель училась предсказывать следующее слово на огромном корпусе текстов, и пока тема массовая — этого хватает. Но когда вопрос упирается в нишевую или свежую область, где данных мало, модель не говорит «не знаю», а угадывает по шаблону. Метафора из видео хорошо это ловит: представьте всезнайку-друга, который не любит признаваться в незнании и иногда уверенно выдаёт ерунду — просто потому что хочет выглядеть экспертом.
Где галлюцинируют чаще
Вероятность подскакивает на точных цитатах, статистике и ссылках на исследования; на нишевых и свежих темах; на реальных, но малоизвестных людях и местах; на конкретных датах, именах и числах. Любой вопрос, где правильный ответ — это узкий факт, а не общее рассуждение, попадает в зону риска.
Что советует Anthropic (и что я применяю сам)
Первое — просить источники и потом отдельно проверять, что они подтверждают именно тезис, а не просто звучат похоже: модель часто выдаёт правильный URL, но статья по нему оказывается про другое. Второе — заранее сказать прямо: «ничего страшного, если не знаешь»; это снимает с модели давление «обязан ответить» и заметно повышает шанс получить честное «не знаю». Третье — уточнять уверенность отдельным вопросом: «насколько ты уверен в этом?» — иногда модель сама признаёт сомнения, если её специально спросить. И четвёртое, моё любимое: открыть новый чат, скинуть туда ответ и попросить найти ошибки. Свежий контекст не защищает прошлое решение и ловит то, что в исходном диалоге пропустилось.
Что я добавил бы от себя
В Claude есть поле Custom Instructions — у Claude.ai оно лежит в Settings → General → Instructions for Claude.
ChatGPT: Settings → Personalization → Custom Instructions.
Туда можно положить любую инструкцию, которая будет применяться ко всем будущим чатам. Я добавил туда два пункта про уровень уверенности:
- Добавляй к суждениям уровень уверенности. Не ставь проценты из воздуха: если база для оценки — это моё одно-два предложения, говори словами («скорее да», «не уверен», «это гипотеза»). Числа — только когда под ними есть реальная основа.
- При сравнении вариантов — давай объективные критерии, цифры и вероятности, когда они действительно есть. Если данных нет — лучше честно сказать словами, чем сочинить псевдо-точные метрики, чтобы ответ выглядел рационально.
После этого модель начинает помечать утверждения — «уровень уверенности: средний», «не уверен», «это гипотеза» — и заметно реже звучит так, будто уверена в каждом своём слове. Это не панацея и галлюцинации полностью не убирает, но в спорных местах сразу видно, где у модели реальная основа, а где она дотягивает до правдоподобия — и это уже половина решения.
Anthropic прямо говорит, что это нерешённая проблема: прогресс с каждой версией есть, но слепо доверять AI нельзя.
Понимание этой особенности и использование защитных техник (новый чат для проверки, уточняющие вопросы про источники, инструкция про уровень уверенности) сильно снижают дискомфорт от периодических галлюцинаций агентов.
Отправьте этот пост кому-то, кто только начинает дружбу с AI и пока не научился ловко ловить ИИ на лжи 🤥
Заходите в канал Нейросеть не виновата, там больше про то, как получать максимум от работы с AI.
Подписывайтесь на Telegram Нейроцех.