Как мы чуть не попали впросак из-за "умного" ИИ и почему теперь проверяем каждую модель перед запуском

Как мы чуть не попали впросак из-за "умного" ИИ и почему теперь проверяем каждую модель перед запуском

Представьте: вы запускаете новый чат-бот для обработки обращений клиентов. Команда радостна — ИИ решит 80% вопросов автоматически, сэкономим на поддержке, клиенты будут счастливы. Выкатываем, и... через неделю начинают звонить клиенты. Не просто недовольные, а злые как собаки.

Наш кейс: когда ИИ "врет" с уверенностью

Несколько месяцев назад мы запустили ИИ-ассистента для финансовой компании. Задача простая: отвечать на вопросы клиентов о тарифах, сроках и условиях. Модель обучили, протестировали на паре десятков примеров — вроде работает. Выкатили в продакшен.

Первые дни все было хорошо. Потом начали поступать жалобы. Один клиент написал: "Вы сказали, что могу снять деньги без комиссии в любом банкомате, а мне списали 300 рублей". Другой: "Ваш бот сказал, что кредит одобрен, а мне отказали".

Мы начали копать и обнаружили нечто странное. Наш ИИ давал уверенные, но неправильные ответы. Он не просто говорил "не знаю" — он выдумывал информацию с такой уверенностью, что клиенты верили ему.

Это создавало не просто недовольство — это ставило под угрозу репутацию компании и доверие клиентов. Каждый неправильный ответ ИИ был как мини-кризис, который требовал отдельного разбирательства.

Классический пример "галлюцинации" ИИ

Самый яркий случай — история с клиентом Петром. Он спросил: "Могу ли я закрыть кредит досрочно без штрафов?"

Наш ИИ ответил: "Да, вы можете закрыть кредит в любое время без дополнительных комиссий. Просто подайте заявление в мобильном приложении."

На самом деле в договоре было написано, что досрочное погашение возможно только через 6 месяцев с комиссией 3%. Петр закрыл кредит через 3 месяца — и получил штраф 15,000 рублей. Он потребовал компенсацию, и мы его, конечно, удовлетворили.

Это была не просто рекламация — это был юридический риск. Каждый неправильный ответ ИИ мог обернуться судебным процессом, компенсациями и серьезной потерей доверия. Если бы таких случаев было больше, последствия могли быть катастрофическими для бизнеса.

Почему это происходит?

Дело не в том, что модель "глупая". Современные LLM очень умные. Проблема в том, что они не знают, чего они не знают. Они могут прекрасно говорить о квантовой физике и одновременно выдумывать информацию о вашей внутренней политике.

Когда мы начали глубже разбираться, то поняли: у нас было 5 "симптомов плохого ИИ":

  1. Фактические ошибки — выдуманные цифры, даты, условия
  2. Неполнота — ответы, которые кажутся полными, но упускают важные детали
  3. Противоречия — разные ответы на один и тот же вопрос
  4. Ложная уверенность — категоричные формулировки про то, чего на самом деле нет
  5. Небезопасный контент — потенциально вредные рекомендации

Наш путь к решению

Сначала мы хотели нанять команду людей для ручной проверки. Потом поняли, что это:

  • Дорого (нужно содержать целую команду)
  • Медленно (человек проверяет ограниченное количество ответов)
  • Непоследовательно (у каждого свое понимание "хорошего ответа")

Тогда мы начали искать автоматизированные решения. Перепробовали кучу метрик: BLEU, ROUGE, accuracy — все как-то не то. Они проверяют "похожесть текстов", а не "правильность информации".

Решение, которое сработало

После месяца экспериментов мы нашли подход, который реально работает. Вместо того чтобы сравнивать ответ ИИ с "правильным текстом", мы начали оценивать качество мысли:

  • Насколько ответ соответствует действительности?
  • Полный ли он?
  • Нет ли противоречий?
  • Не вредный ли он?

Сделали систему, которая сама задает вопросы своему ИИ и проверяет качество ответов. Как человек, который сдает экзамен — спрашивает не "насколько похож твой ответ на шаблон", а "насколько ты разобрался в теме".

Что изменилось

После внедрения регулярной проверки качества:

✅ Потеря клиентов снизилась значительно

✅ Юридические инциденты исчезли полностью

✅ Стоимость поддержки упала (теперь ИИ действительно решает проблемы)

✅ Удовлетворенность клиентов выросла

Самое главное — мы спим спокойно. Раньше каждый релиз ИИ был как прыжок с парашютом без проверки: вроде должен работать, но страшно. Теперь мы знаем, что система работает как надо.

Вывод

ИИ — это не магия, а инструмент. Как любой инструмент, он требует обслуживания и проверки. Если вы используете ИИ в бизнесе, особенно в чувствительных к ошибкам сферах (финансы, медицина, юриспруденция), обязательно проверяйте качество.

Не ждите, пока клиенты начнут жаловаться. Не надейтесь, что "вроде работает". Инвестируйте в проверку качества — это спасет вас от потерь, которые могут быть кратно больше стоимости проверки.

Начать дискуссию