«Галлюцинации» – или когда ИИ врёт

В источниках, посвященных развитию ИИ-отрасли, есть стыдливый термин «галлюцинации». Этим словом описываются случаи, когда ИИ создаёт артефакты, которых никогда не было в действительности – то есть, называя вещи своими именами, - беззастенчиво врёт.

Отдельные наиболее громкие случаи «галлюцинаций», повлекшие материальные потери и судебные решения становятся предметом широкой огласки:

- Чатбот AirCanada ввёл пассажира в заблуждение относительно политики коипенсаций

- Пиццерия в Миссури столкнулась с тем, что ИИ выдумывал названия блюд и сообщал о несуществующих скидках

- В марте 2025 года компания по аренде и установке солнечных батарей Wolf River Electric из Миннесоты подала иск против Google. Компания обвинила поисковую систему в диффамации, поскольку в результатах поискового запроса утверждалось, что компания является ответчиком по делу о мошенничестве

- Только за июль 2025 года при слушаниях в американских судах использовались в качестве прецедента свыше 50 фейковых судебных решений, никогда не имевших места в действительности. Неудивительно, что уже в конце октября Open AI запретила ChatGPT давать консультации по праву и медицине.

- В июле 2025 Deloitte подготовила по заказу австралийского департамента занятости и трудовых отношений отчет, переполненный ссылками на несуществующие источники, выдуманные ИИ

- Независимое исследование установило, что большинство ИИ-моделей можно сконфигурировать для выдачи вводящих в заблуждение ответов в области медицины и здравоохранения, при этом они выдают придуманные факты и статистику.

Возможный ущерб уже оценивается в $67 млрд. Однако реальный размах и последствия «галлюцинаций» еще предстоит осознать. Существует несколько методик статистической оценки склонности ИИ-моделей к созданию галлюцинаций (то есть ко лжи). Однако результаты этих оценок противоречивы: по версии Европейского Вещательного Союза, наименее склонными к галлюцинациям названы Claude 4.1, Claude 4.5 и Grok 4, в то время как по данным Vectara Hallucination Leaderboard наименее склонны к галлюцинациям Google Gemini=2.0-Flash-001, Google Gemini-2.0-Pro-Exp, OpenAI o3-mini-high и Vectara Mockingbird-2-Echo.

При этом склонность ко лжи варьируется не только в зависимости от используемой модели ИИ, но и от контекста применения – наиболее высок риск при применении в юридической и медицинской сферах, также высок риск при финансовом анализе и подготовке отчетов, а вот при подготовке маркетинговых и креативных текстов – риск минимален.

Версия Vectara Hallucination Leaderboard

Отмечается, что процент лжи в ответах ИИ постепенно снижается – при этом лучшие показатели – ложь в диапазоне от 0.7% до 26% случаев.

Снижение процента галлюцинаций по версии Vectara Hallucination Leaderboard

Недавно обсуждали возможные роли ИИ в продажах, в том числе функции поддержки - аналитика данных, подбор информации о контрагентах, мониторинг KPI. Надо признать, погрузившись в данные по частоте и распространенности галлюцинаций, стал ещё большим скептиком.

В любом случае – положа руку на сердце, вы бы взяли на работу человека-аналитика, о котором вам было бы известно, что время от времени он придумывает факты в отчетах? Отчетах, на основании которых потом принимаются решения на миллионы рублей в человеко-часах и инвестициях?

Я бы не взял. А вы?

#галлюцинацииии #бизнес #нейросети #ии #иивбизнесе #безопасность