Почему нейросети уверенно врут и как на это повлиять

Гайд для тех, кто пользуется ИИ каждый день. И всё ещё попадается

На днях я задумался об одной вещи. Я общаюсь с ChatGPT, Claude и Perplexity каждый день по работе, бытовым вопросам, иногда просто чтобы что-то быстро спросить, посерфить. И каждый из этих сервисов регулярно мне врёт. Не «иногда ошибается». А постоянно, уверенно и с "серьёзным лицом".

При этом вокруг меня множество людей, которые пользуются ИИ так же активно. Маркетологи, юристы, журналисты, просто мои знакомые. И большинство из них продолжают верить ответам нейросети без проверки. Берут цифры, цитаты, ссылки, факты и вставляют в свои презентации, статьи, отчёты. Рассказывают выдуманные факты.

И тут возникает интересный вопрос - а почему, собственно, так? Почему люди, которые в обычной жизни не верят даже погоде, охотно верят телефону, который выдаёт текст. И тут причина явно не в наивности. Причина в том, что почти никто не понимает, как нейросети устроены изнутри. Никто об этом настолько массово не говорит. Мы не знаем что значит «ИИ ошибся» в техническом смысле. Откуда берётся неправильный ответ. И почему этот ответ всегда звучит как правда, иногда и со ссылками, данными, но они оказываются выдуманными .

В этой статье я хочу собрать всё, что узнал за годы работы с этой темой каждый день. Что такое галлюцинации, почему они неизбежны, и что с ними реально можно сделать. Чтобы после прочтения вы больше понимали механику и перестали доверять ИИ как «источнику правды».

Поехали.

Галлюцинация это не баг и не сбой в работе. Не «нейросеть сломалась». Это то, что нейросеть делает, выполняя свою прямую функцию.

Большая языковая модель устроена просто, она предсказывает следующее слово в тексте на основе того, какие слова чаще всего шли после похожих фрагментов в её обучающей выборке. Она не «знает» фактов. Она знает статистику того, какие слова обычно стоят рядом.

Когда вы спрашиваете «когда родился Пушкин», то она не открывает базу данных. Она генерирует ответ, который статистически наиболее вероятен. Если в её обучающих данных Пушкин в основном упоминался рядом с «1799», она ответит «1799». Если бы по какой-то причине он чаще упоминался рядом с «1805», она бы выдала «1805» с такой же уверенностью.

Галлюцинация - статистически вероятный, но на практике ложный ответ. Модель не врёт намеренно. Она и не знает, что врёт. Такой вот небольшой парадокс.

Главная причина в тренировках и обучении ИИ.

Их можно сравнить со студентом на экзамене. Когда студент не знает ответа, он не оставит поле ответа пустым, не скажет в ответ преподавателю на ее вопрос - «не знаю». Он будет угадывать. Потому что за «не знаю» гарантировано 2, а за угадывание есть шанс на 3. Бенчмарки, по которым оценивают модели, награждают ИИ за правильный ответ и наказывают за молчание. Модель, которая 30 раз из 100 сказала «не знаю», проигрывает модели, которая ответила везде и попала в 70.

Поэтому разработчики тренируют нейросети не признавать неуверенность. Угадывание выгоднее. И пока это так, галлюцинации не уйдут полностью. Их можно уменьшить, но не убрать. Даже версия GPT-5 галлюцинирует реже, но всё ещё галлюцинирует.

Самое неприятное в этом то, что уверенность модели никак не связана с её правотой. Она одинаково уверенно скажет «Пушкин родился в 1799» (правда) и «Пушкин написал роман "Анна Каренина"» (неправда). Тон, формулировка, структура ответа будет подана одинаково.

В 2023 году нью-йоркский юрист Стивен Шварц готовил иск против авиакомпании Avianca. Чтобы найти прецеденты, он использовал ChatGPT. Нейросеть выдала ему 6 подходящих судебных дел с точными цитатами, номерами и формулировками. Шварц включил их все в документы для суда.

Когда оппоненты Avianca начали проверять цитаты, выяснилось, что все 6 дел полностью выдуманы. ChatGPT придумал названия, имена судей, цитаты, ссылки. Всё выглядело как настоящие судебные решения, но не существовало в реальности.

И вот что мне в этой истории нравится особенно. Когда юрист переспросил ChatGPT , мол «эти дела точно реальные?», тот невозмутимо подтвердил: «да, реальные, ищите на Westlaw и LexisNexis». Шварц не стал проверять Westlaw. Он поверил ChatGPT, который врал второй раз подряд.

Как итог, судья вынес санкции против Шварца, его коллеги и их фирмы. Штраф 5000$ солидарно. Письма каждому реальному судье, чьё имя было использовано в выдуманных делах, с извинениями. Уведомление клиенту. Дисциплинарное направление. И, самое главное что это дело стало прецедентом, после которого по американским адвокатским ассоциациям пошла волна новых правил про использование AI.

А был ли виновен ChatGPT? Нет. Он не делал ничего плохого по своей логике робота. Юрист спросил про прецеденты, а модель сгенерировала самый статистически вероятный ответ. То, что эти прецеденты не существуют в реальности, для модели не имело значения. Она ни разу не сказала «вот эти дела я не нашёл», она просто их сочинила.

Эта история как лучшая прививка от веры в ИИ как в «источник правды». Каждый раз, когда я ловлю себя на желании довериться ChatGPT без проверки, я вспоминаю эту историю.

Я выделил несколько типичных зон, в которых модели врут охотнее.

Точные цифры, даты, статистика. Любые конкретные числа по типу процента, года, объём рынка, население города, цена продукта. Если вы видите «47% компаний используют ИИ», то скорее всего, эта цифра либо выдумана, либо взята из устаревшего источника, либо обобщена непонятно как. Редко когда эта цифра основана на реальных фактов замера. Это первая зона риска, всегда проверяйте.

Свежие события. Если событие произошло после обучения модели, нейросеть не скажет «у меня нет данных». Она придумает правдоподобный ответ на основе того, что было до обучения. Поэтому спрашивать у ChatGPT без поиска «что нового в области X», почти гарантированный путь к галлюцинации.

URL-ссылки и научные публикации. Нейросеть может выдать ссылку, которая никуда не ведёт. Или название статьи в журнале, которой не существует. Особенно если попросить «дай мне ссылку на исследование, которое подтверждает этот тезис» ,будет ссылка, но часто фейковая. Думаю, те кто пользуется ИИ на постоянной основе, согласятся со мной на счет этого пункта, если вы, конечно, переходите время от времени по источником ссылок.

Все 7 приёмов работают в обычном диалоге с ChatGPT, Алисой, Claude, Gemini, Perplexity. Без программирования, без настроек, без оплаты Pro. Просто скопируйте промт и напишите свой вопрос.

Самый сильный приём. Модели обучены угадывать по умолчанию, но если им прямо разрешить признать неуверенность, многие так и делают.

Промт-добавка:

«Если ты не уверен в ответе или у тебя нет надёжных данных, напиши "не знаю" или "не могу проверить" вместо того, чтобы угадывать. Лучше неполный ответ, чем выдуманный».

Это правда работает. Я добавил эту строчку в свои стандартные промты и частота откровенно ложных ответов упала. Пришлось для этого проверять несколько раз разные запросы.

Это сразу отрезает половину галлюцинаций. Модель либо находит реальный источник, либо признаётся, что его нет.

Промт-добавка:

«После каждого факта в ответе укажи источник в скобках. Ссылку, название книги или статьи, имя эксперта. Если источника нет, тогда отметь это знаком (без источника)».

Важно: проверяйте сами ссылки. Иногда модель придумывает и их тоже. Метод не идеальный, но сильно поднимает планку.

Когда нейросеть не отвечает из своей памяти, а ходит в интернет за актуальной информацией, галлюцинации падают резко. Это та самая технология RAG, о которой сейчас много говорят, я про неё писал отдельно на vc.ru в моем блоге.

Где включить:

В ChatGPT — кнопка «Search» (или нажать «+» → «Search the web»)
В Алисе — режим поиска включён по умолчанию
Perplexity — целиком построен на этом и всегда даёт ссылки
Claude — в режиме веб-поиска тоже хорошо справляется

Если вопрос про факты, то лучше всегда включить поиск.

Чем уже вопрос, тем меньше у модели простора для фантазии.

Плохой промт: «Расскажи про экспансию российского ритейла в СНГ».

Хороший промт: «Какие 3 крупнейшие российские ритейл-сети вышли на рынок Казахстана за последние 5 лет, в каких годах они это сделали и сколько у них магазинов в стране сейчас? Каждый факт со ссылкой на источник».

Конкретика заставляет модель либо найти точный ответ, либо признаться, что не знает. На широких вопросах она всегда «доберёт» из обобщений.

Звучит сложно, делается в два шага. Сначала задаёте вопрос. Потом просите модель перепроверить саму себя.

Шаг 1: задаёте обычный вопрос.

Шаг 2 после ответа:

«Теперь перечисли все фактические утверждения в твоём ответе по пунктам. Для каждого утверждения отметь 1точно факт, 2скорее всего факт, 3неуверен, 4возможно выдумано. Будь критичен к себе».

Модели часто сами находят свои галлюцинации, если их попросить перечитать ответ с другой ролью. Этот приём пришёл из исследований и показывает заметное снижение ошибок. Звучит магически, но работает, нейросеть «успокаивается» и начинает помечать слабые места.

Если хотите проверить, насколько модель уверена в своём ответе, задайте добивочный контр-вопрос.

После ответа:

«А есть ли исследования или источники, которые противоречат этому утверждению? Если есть тогда перечисли их».

Если модель выдумала факт, она с большей вероятностью не сможет придумать ему контр-аргументы и сама себя выдаст. Если факт реальный, напишет настоящие альтернативные позиции.

Самый надёжный способ. Если у вас есть документ, статья или данные, лучше дать их модели целиком и попросить ответить только по ним.

Промт:

«Вот текст документа. Ответь на мой вопрос строго на основе этого документа. Если в нём нет ответа, напиши "в документе ответа нет". Не используй свои знания за пределами документа».

[вставьте сюда текст]

Вопрос: «...»

Это убирает почти все галлюцинации, потому что модель работает не с памятью, а с конкретным куском текста перед собой. По сути, вы вручную делаете для неё то, что в RAG-системах происходит автоматически.

Любое число, дата, имя, ссылка или цитата в ответе ИИ — это место для проверки. Не «возможно, выдумано», а «нужно проверить». Если нет времени проверять, не используйте этот факт в работе.

Это правило кажется действительно параноидальным, пока вы один раз не вставите выдуманную цифру в презентацию для клиента и не покраснеете на встрече. После этого правило начинает казаться разумным. И является само себе разумеющимся действием в чатах с ИИ.

OpenAI пишет, что GPT-5 галлюцинирует значительно реже, особенно в режиме рассуждений. Anthropic снизила галлюцинации в Claude через специальный фактчек на этапе обучения. Google добавил в Gemini обязательную проверку через поиск для большинства фактологических вопросов.

Но универсального решения нет, и в ближайшие пару лет не будет. Помогут только три вещи, лучшие модели, лучшие инструменты вокруг них, и ваша привычка проверять. Из этих трёх ваша привычка это единственное, чем вы реально управляете прямо сейчас. И именно она в долгосрочной перспективе важнее всех апдейтов моделей вместе взятых.

То, что меня удивило за время работы с этой темой, насколько мало тех активных пользователей ИИ, кто разобрался, почему нейросеть врёт. Большинство относится к этому как к «случайным сбоям»: ну вот, ChatGPT опять косячит, бывает. Но это не косяк. Это его базовый режим работы. И пока вы относитесь к этому как к багу, который рано или поздно «починят» вы будете попадаться снова и снова.

У меня к вам два вопроса в комментарии, на любой можно отвечать или дополнить своим мнением.

1. Какая самая нелепая или дорогостоящая галлюцинация попадалась лично вам?

2. Какой из семи приёмов в чек-листе уже используете? И есть ли свой, который я не упомянул?

Если разбор пригодился — буду признателен за плюс.

Пишу здесь регулярно про видимость брендов в нейросетях, GEO, AEO и эксперименты с ChatGPT, Алисой, Claude и другими LLM. Подписывайтесь, чтобы не пропустить следующее.

Почему нейросети уверенно врут и как на это повлиять

Что такое галлюцинация и чем она отличается от обычной ошибки

Почему ИИ предпочитает выдумать, а не сказать «я не знаю»

Самый знаменитый случай. История, после которой люди задумались

Где галлюцинации случаются чаще всего

Чек-лист: 7 приёмов, которые снижают галлюцинации в разы

1. Разрешите модели не знать

2. Просите ссылки на источники для каждого утверждения

3. Включите режим поиска (или используйте Perplexity)

4. Задавайте конкретные вопросы вместо общих

5. Используйте Chain-of-Verification

6. Спрашивайте противоречия

7. Дайте контекст вместо запроса из памяти

Общее правило для всех приёмов

Что обещают разработчики

Теперь к вам