«Галлюцинации» – или когда ИИ врёт
В источниках, посвященных развитию ИИ-отрасли, есть стыдливый термин «галлюцинации». Этим словом описываются случаи, когда ИИ создаёт артефакты, которых никогда не было в действительности – то есть, называя вещи своими именами, - беззастенчиво врёт.
Отдельные наиболее громкие случаи «галлюцинаций», повлекшие материальные потери и судебные решения становятся предметом широкой огласки:
- Чатбот AirCanada ввёл пассажира в заблуждение относительно политики коипенсаций
- Пиццерия в Миссури столкнулась с тем, что ИИ выдумывал названия блюд и сообщал о несуществующих скидках
- В марте 2025 года компания по аренде и установке солнечных батарей Wolf River Electric из Миннесоты подала иск против Google. Компания обвинила поисковую систему в диффамации, поскольку в результатах поискового запроса утверждалось, что компания является ответчиком по делу о мошенничестве
- Только за июль 2025 года при слушаниях в американских судах использовались в качестве прецедента свыше 50 фейковых судебных решений, никогда не имевших места в действительности. Неудивительно, что уже в конце октября Open AI запретила ChatGPT давать консультации по праву и медицине.
- В июле 2025 Deloitte подготовила по заказу австралийского департамента занятости и трудовых отношений отчет, переполненный ссылками на несуществующие источники, выдуманные ИИ
- Независимое исследование установило, что большинство ИИ-моделей можно сконфигурировать для выдачи вводящих в заблуждение ответов в области медицины и здравоохранения, при этом они выдают придуманные факты и статистику.
Возможный ущерб уже оценивается в $67 млрд. Однако реальный размах и последствия «галлюцинаций» еще предстоит осознать. Существует несколько методик статистической оценки склонности ИИ-моделей к созданию галлюцинаций (то есть ко лжи). Однако результаты этих оценок противоречивы: по версии Европейского Вещательного Союза, наименее склонными к галлюцинациям названы Claude 4.1, Claude 4.5 и Grok 4, в то время как по данным Vectara Hallucination Leaderboard наименее склонны к галлюцинациям Google Gemini=2.0-Flash-001, Google Gemini-2.0-Pro-Exp, OpenAI o3-mini-high и Vectara Mockingbird-2-Echo.
При этом склонность ко лжи варьируется не только в зависимости от используемой модели ИИ, но и от контекста применения – наиболее высок риск при применении в юридической и медицинской сферах, также высок риск при финансовом анализе и подготовке отчетов, а вот при подготовке маркетинговых и креативных текстов – риск минимален.
Отмечается, что процент лжи в ответах ИИ постепенно снижается – при этом лучшие показатели – ложь в диапазоне от 0.7% до 26% случаев.
Недавно обсуждали возможные роли ИИ в продажах, в том числе функции поддержки - аналитика данных, подбор информации о контрагентах, мониторинг KPI. Надо признать, погрузившись в данные по частоте и распространенности галлюцинаций, стал ещё большим скептиком.
В любом случае – положа руку на сердце, вы бы взяли на работу человека-аналитика, о котором вам было бы известно, что время от времени он придумывает факты в отчетах? Отчетах, на основании которых потом принимаются решения на миллионы рублей в человеко-часах и инвестициях?
Я бы не взял. А вы?