Из-за чего RAG может терять более 30% точности

Наша команда улучшила бота в одном банке с помощью RAG и LLM – чтобы он не только отвечал по заданным сценариям, но и генерировал ответы из внутренней базы знаний в том объеме, который нужен клиенту.

В итоге клиенты стали в 2 раза чаще получать корректные ответы и в 13 раз реже – некорректные. Их удовлетворенность выросла на 20%, а вместе с ней и автоматизация: отпала необходимость перевода на оператора, так как ответы ИИ устраивали людей.

Но к таким результатам удалось прийти не сразу: когда мы только подключили RAG, точность ответов составляла всего 56%, а LLM регулярно галлюцинировала.

В первой части статьи разберу, почему внедрение RAG с LLM может не дать ожидаемого эффекта – и как это исправить. Во второй поговорю про более верхнеуровневые сложности, которые тормозят внедрение ИИ.

У RAG много параметров, от которых зависит качество ответов: как данные разбиваются на чанки (фрагменты), как они векторизуются (превращаются в числа для семантического поиска LLM), как происходит поиск и ранжирование информации.

Например, если не настроить специальные фильтры – кросс-энкодеры – система не сможет нормально сортировать найденные фрагменты, а если чанки не содержат заголовков, LLM будет чаще галлюцинировать.

Решение: важно иметь возможность настраивать параметры RAG под конкретную задачу. Например, где-то может понадобиться дополнительный поиск в интернете, а где-то – лексический поиск по терминам. Такая гибкость обычно доступна при внутреннем развертывании RAG, тогда как облачные сервисы работают как «черный ящик».

Компании могут хранить разные версии одной и той же статьи, устаревшие инструкции или просто плохо структурированные тексты. Для человека такие противоречия могут быть очевидны, но для нейросети – нет: при векторизации оба фрагмента выглядят релевантными запросу, поэтому модель отвечает то так, то иначе.

Решение: нужно переструктурировать базу знаний – убрать дубли и противоречия, обновить данные. Именно здесь крылась проблема нашего кейса, и когда мы актуализировали всю информацию, достигли точности 89%.

У крупных LLM встроены строгие фильтры, у мелких моделей их может почти не быть. В результате бот может выдавать ответы на чувствительные темы (политика, юридически рискованные формулировки и т.д.), которые могут привести к жалобам. Обратная крайность – избыточные фильтры, когда система перестраховывается и вместо ответа отправляет пользователя в интернет.

Решение: система должна содержать минимально необходимые ограничения, но без блокировки нормальных пользовательских сценариев. Если на пилоте видно, что фильтры слишком строгие, стоит пересмотреть формулировки в базе знаний и правилах обработки запросов, связаться с разработчиком для «смягчения» или подобрать другую LLM, более подходящую под данный тип запросов.

Вариант «сесть» на одну модель до конца – не работает. Появляются новые архитектуры, методы обучения, алгоритмы, более быстрые и точные модели. LLM – один из компонентов системы. А всегда важно выбирать наилучшие на рынке компоненты – чтобы непрерывно обеспечивать высокое качество ответов и уровень клиентских впечатлений.

Решение: постоянно следить за новыми релизами и обновлять свой инструмент. В одном гос-проекте использовался каскад из нескольких LLM – одна классифицировала запросы, другая подготавливала данные, третья формировала ответ. Мы предложили заменить этот стек на недавно вышедшую модель, которая закрывает все этапы. В итоге качество ответов выросло. Отчасти поэтому в наших решениях можно гибко менять модели без перестройки всей системы.

Правильно настроенный RAG гарантирует хороший результат. Однако на практике многие проекты начинают буксовать еще раньше – на уровне подхода к внедрению ИИ.

Есть как минимум 3 распространенных заблуждения, из-за которых компании либо откладывают внедрение, либо не получают от него нужного эффекта.

Во-первых, цены уже снижаются – криптомайнеры перешли на процессоры других архитектур, появляются новые линейки оборудования. Так если пару лет серверы с картами NVIDIA A100 были доступны лишь ограниченному кругу игроков, то к 2026 году растет предложение на рынке, появляются альтернативные поставщики и варианты с б/у или восстановленным оборудованием, что снижает порог входа в проекты по ИИ. В итоге по РФ сейчас можно говорить о диапазоне примерно от 400–500 тыс. ₽ на вторичке за A100 80 GB. При этом их производительность позволяет быстро окупить вложения.

Например, в задачах речевой аналитики БСС одна такая карта А100 способна обрабатывать до 28 тысяч диалогов в сутки.

Однако далеко не всем компаниям вообще нужен собственный GPU-сервер.

Если мощности нужны не в таком объеме, то выгоднее арендовать GPU-карту – это стоит около 100 тысяч рублей в месяц.

Еще более простой вариант – арендовать LLM модель по подписке. Это особенно актуально для крупных моделей, которые невозможно поддерживать локально. Здесь важно учитывать вопросы безопасности данных и использовать деперсонализатор, но и эти задачи уже решаемы.

К ИИ стоит относиться как к новому сотруднику: ему нужны правила работы, зона ответственности, доступ к данным и понятное взаимодействие с остальной командой.

И так же, как появление новой роли в команде меняет рабочие процессы, внедрение ИИ требует определенных изменений – если их не совершить, пользы можно не дождаться.

Например, в контакт-центрах изменения связаны с ролью операторов. Первая линия автоматизируется, а живые сотрудники переходят на более сложные обращения. Вместе с этим меняются регламенты и KPI: если раньше ключевым показателем был AHT, то теперь на первый план выходит удовлетворенность клиента.

Начинать внедрение ИИ стоит не с покупки GPU-карт, а с аудита процессов.

Как изменятся роли сотрудников, какие метрики нужно пересматривать и как будет выстроено взаимодействие человека и ИИ. Делать это можно постепенно, по направлениям и командам. Но закладывать такую перестройку нужно заранее.

Завышенные ожидания – важнейшая причина провала пилотов. Во многом это связано с непониманием технологии. Например, не стоит ожидать, что ИИ будет умнее человека – он лишь сможет быстрее обработать информацию. Если человек не способен решить задачу, ИИ скорее всего тоже ее не решит.

Кроме того, не стоит ориентироваться на качество облачных моделей.

В закрытом контуре компании используют более компактные варианты, а они во много раз слабее крупных LLM. Тестировать решения сразу стоит на тех моделях, которые реально будут использоваться.

Генеративный ИИ, как любой инструмент, хорошо справляется с одними задачами и плохо с другими. Единственный рабочий подход – внедрять его через эксперименты и параллельно обучать сотрудников работе с ним. Только так можно понять границы технологии именно для вашего бизнеса и научиться использовать ее эффективно.

Cтабильный эффект от RAG и LLM появляется только тогда, когда технология правильно настроена, встроена в процессы и применяется там, где это эффективно.

Такие задачи мы уже решали в самых разных проектах и отраслях, поэтому можем помочь встроить RAG и LLM в существующие процессы без пересборки с нуля. За бесплатной консультацией – сюда!

Из-за чего RAG может терять более 30% точности

И другие ошибки, которые мешают получить эффект от ИИ

Основные ошибки при внедрении RAG

Неправильная настройка пайплайна

Плохое качество исходных данных

Несбалансированные «этические» фильтры

Устаревшая модель

3 верхнеуровневых заблуждения

Самое большое ограничение – стоимость GPU-сервера

Необязательно начинать с перестройки процессов

ИИ ускорит все процессы х100