Полное руководство по оценке компонентов системы RAG: что необходимо знать

Системы дополненной генерации (RAG) были разработаны для улучшения качества ответа крупной языковой модели (LLM). Когда пользователь отправляет запрос, система RAG извлекает релевантную информацию из векторной базы данных и передает ее в LLM в качестве контекста. Затем LLM использует этот контекст для генерации ответа для пользователя. Этот процесс значительно улучшает качество ответов LLM с меньшим количеством «галлюцинаций».

Полное руководство по оценке компонентов системы RAG: что необходимо знать

В приведенном выше рабочем процессе система RAG состоит из двух основных компонентов:

  • Извлекатель: он идентифицирует наиболее релевантную информацию из базы данных векторов, используя возможности поиска по сходству. Этот этап является наиболее важной частью любой системы RAG, поскольку он закладывает основу для качества конечного результата. Извлекатель ищет в векторной базе данных документы, соответствующие запросу пользователя. Он предполагает кодирование запроса и документов в векторы и использование мер сходства для поиска наиболее близких совпадений.
  • Генератор ответов: после извлечения релевантных документов запрос пользователя и извлеченные документы передаются в модель LLM для генерации связного, релевантного и информативного ответа. Генератор (LLM) использует контекст, предоставленный извлекателем, и исходный запрос для генерации точного ответа.

Эффективность и производительность любой системы RAG в значительной степени зависят от этих двух основных компонентов: извлекателя и генератора. Извлекатель должен эффективно идентифицировать и извлекать наиболее релевантные документы, в то время как генератор должен выдавать ответы, которые являются связными, релевантными и точными, используя извлеченную информацию. Строгая оценка этих компонентов имеет решающее значение для обеспечения оптимальной производительности и надежности модели RAG перед развертыванием.

Оценка RAG

Для оценки системы RAG мы обычно используем два вида оценок:

  • Оценка извлечения
  • Оценка ответа

В отличие от традиционных методов машинного обучения, где есть четко определенные количественные метрики (такие как Gini, R-квадрат, AIC, BIC, матрица неточностей и т. д.), оценка систем RAG более сложна. Эта сложность возникает из-за того, что ответы, генерируемые системами RAG, представляют собой неструктурированный текст, требующий сочетания качественных и количественных метрик для точной оценки их производительности.

Фреймворк TRIAD

Для эффективной оценки систем RAG мы обычно следуем фреймворку TRIAD. Этот фреймворк состоит из трех основных компонентов:

  • Контекстная релевантность: этот компонент оценивает извлеченную часть системы RAG. Он оценивает, насколько точно документы были извлечены из большого набора данных. Здесь используются такие метрики, как точность, полнота, MRR и MAP.
  • Верность (обоснованность): этот компонент включен в оценку ответа. Он проверяет, является ли сгенерированный ответ фактически точным и обоснованным в извлеченных документах. Для оценки верности используются такие методы, как человеческая оценка, автоматизированные инструменты проверки фактов, а также проверки согласованности.
  • Релевантность ответа: это тоже часть оценки ответа. Он измеряет, насколько хорошо сгенерированный ответ отвечает запросу пользователя и предоставляет полезную информацию. Используются такие метрики, как BLEU, ROUGE, METEOR и оценки на основе встраивания.
Полное руководство по оценке компонентов системы RAG: что необходимо знать

Оценка извлечения

Оценки извлечения применяются к компоненту извлекателя системы RAG, который обычно использует векторную базу данных. Эти оценки измеряют, насколько эффективно извлекатель идентифицирует и ранжирует релевантные документы в ответ на запрос пользователя. Основная цель оценок извлечения - оценить релевантность контекста, то есть насколько хорошо извлеченные документы соответствуют запросу пользователя. Это гарантирует, что контекст, предоставленный компоненту генерации, является релевантным и точным.

Полное руководство по оценке компонентов системы RAG: что необходимо знать

Каждая из метрик предлагает уникальный взгляд на качество извлеченных документов и способствует всестороннему пониманию релевантности контекста.

Точность

Измеряет точность извлеченных документов. Это отношение количества извлеченных релевантных документов к общему количеству извлеченных документов. Она определяется как:

Полное руководство по оценке компонентов системы RAG: что необходимо знать

Это означает, что точность оценивает, сколько документов, извлеченных системой, действительно релевантны запросу пользователя. Например, если извлекатель извлекает 10 документов, и 7 из них релевантны, точность составит 0,7 или 70%.

Точность оценивает: «Из всех документов, которые система извлекла, сколько были действительно релевантными?»

Точность особенно важна, когда представление нерелевантной информации может иметь негативные последствия. Например, высокая точность в системе извлечения медицинской информации имеет решающее значение, поскольку предоставление нерелевантных медицинских документов может привести к дезинформации и потенциально опасным результатам.

Полнота

Измеряет полноту извлеченных документов. Это отношение количества извлеченных релевантных документов к общему количеству релевантных документов в базе данных для данного запроса. Она определяется как:

Полное руководство по оценке компонентов системы RAG: что необходимо знать

Это означает, что полнота оценивает, сколько релевантных документов, существующих в базе данных, были успешно извлечены системой.

Оценка полноты: «Из всех релевантных документов, которые существуют в базе данных, сколько система смогла получить?»

Полнота имеет решающее значение в ситуациях, когда упущение релевантной информации может обойтись дорого. Например, в системе извлечения юридической информации высокая полнота имеет важное значение, поскольку неспособность получить релевантный юридический документ может привести к неполному исследованию дела и потенциально повлиять на исход судебного разбирательства.

Баланс между точностью и полнотой

Баланс между точностью и полнотой часто необходим, поскольку улучшение одного иногда может ухудшить другое. Цель состоит в том, чтобы найти оптимальный баланс, который соответствует конкретным потребностям применения. Этот баланс иногда количественно определяется с помощью оценки F1, которая является гармоническим средним точности и полноты:

Полное руководство по оценке компонентов системы RAG: что необходимо знать

Средний обратный ранг (MRR)

Средний обратный ранг (MRR) — это метрика, которая оценивает эффективность системы извлечения, учитывая позицию ранга первого релевантного документа. Это особенно полезно, когда основной интерес представляет только первый релевантный документ. Обратный ранг является обратным рангу, в котором находится первый релевантный документ. MRR — это среднее значение этих обратных рангов по нескольким запросам. Формула для MRR:

Полное руководство по оценке компонентов системы RAG: что необходимо знать

где Q — это количество запросов, а rank_q — это позиция ранга первого релевантного документа для q-го запроса.

MRR оценивает «В среднем, как быстро первый релевантный документ извлекается в ответ на запрос пользователя?»

Например, в вопросно-ответной системе на основе RAG MRR имеет решающее значение, поскольку он отражает, как быстро система может предоставить пользователю правильный ответ. Если правильный ответ появляется в верхней части списка чаще, значение MRR будет выше, что указывает на более эффективную систему извлечения.

Средняя точность (MAP)

Средняя точность (MAP) — это метрика, которая оценивает точность извлечения по нескольким запросам. Она учитывает как точность извлечения, так и порядок извлеченных документов. MAP определяется как среднее значение оценок точности для набора запросов. При вычислении средней точности для каждой позиции в ранжированном списке извлеченных документов учитываются только верхние K извлеченных документов, где каждая точность взвешивается в зависимости от того, является ли документ релевантным или нет. Формула для MAP по нескольким запросам следующая:

Полное руководство по оценке компонентов системы RAG: что необходимо знать

где (Q) — количество запросов, а (q) — средняя точность для запроса (q).

MAP оценивает «Насколько в среднем точны документы вверху списка, извлеченные системой по нескольким запросам?»

Например, в поисковой системе на основе RAG MAP имеет решающее значение, поскольку он учитывает точность извлечения на разных рангах, гарантируя, что релевантные документы будут отображаться выше в результатах поиска, что улучшает пользовательский опыт и в первую очередь представляет наиболее релевантную информацию.

Обзор оценок извлечения

  • Точность: качество извлеченных результатов.
  • Полнота: полнота извлеченных результатов.
  • MRR: насколько быстро будет получен первый релевантный документ.
  • MAP: комплексная оценка, объединяющая точность и ранг релевантных документов.

Оценка ответа

Оценки ответа применяются к компоненту генерации системы. Эти оценки измеряют, насколько эффективно система генерирует ответы на основе контекста, предоставленного извлеченными документами. Мы подразделяем оценки ответа на два типа:

  • Верность (обоснованность)
  • Релевантность ответа

Верность (обоснованность)

Верность оценивает, является ли сгенерированный ответ точным и обоснованным в извлеченных документах. Он гарантирует, что ответ не содержит галлюцинаций или неверной информации. Эта метрика имеет решающее значение, поскольку она отслеживает сгенерированный ответ обратно к его источнику, гарантируя, что информация основана на проверяемой истинной основе. Верность помогает предотвратить галлюцинации, когда система генерирует правдоподобно звучащие, но фактически неверные ответы.

Для измерения верности обычно используются следующие методы:

  • Человеческая оценка: эксперты вручную оценивают, являются ли сгенерированные ответы фактически точными и правильно ли ссылаются на извлеченные документы. Этот процесс включает проверку каждого ответа по исходным документам, чтобы убедиться, что все утверждения обоснованы.
  • Автоматизированные инструменты проверки фактов: эти инструменты сравнивают сгенерированный ответ с базой данных проверенных фактов, чтобы выявить неточности. Они предоставляют автоматизированный способ проверки достоверности информации без вмешательства человека.
  • Проверки согласованности: они оценивают, предоставляет ли модель последовательно одну и ту же фактическую информацию по разным запросам. Это гарантирует, что модель надежна и не выдает противоречивую информацию.

Релевантность ответа

Релевантность ответа измеряет, насколько хорошо сгенерированный ответ отвечает запросу пользователя и предоставляет полезную информацию.

BLEU (Bilingual Evaluation Understudy)

BLEU измеряет перекрытие между сгенерированным ответом и набором эталонных ответов, уделяя особое внимание точности n-грамм. Он рассчитывается путем измерения перекрытия n-грамм (непрерывных последовательностей из n-слов) между сгенерированными и эталонными ответами. Формула для оценки BLEU следующая:

Полное руководство по оценке компонентов системы RAG: что необходимо знать

где (BP) — штраф за краткость для штрафования коротких ответов, (P_n) — точность n-грамм, а (w_n) — веса для каждого уровня n-грамм. BLEU количественно измеряет, насколько близко сгенерированный ответ соответствует эталонному ответу.

ROUGE (Recall-Oriented Understudy for Gisting Evaluation)

ROUGE измеряет перекрытие n-грамм, последовательностей слов и пар слов между сгенерированными и эталонными ответами, учитывая как полноту, так и точность. Наиболее распространенный вариант ROUGE-N измеряет перекрытие n-грамм между сгенерированными и эталонными ответами. Формула для ROUGE-N следующая:

Полное руководство по оценке компонентов системы RAG: что необходимо знать

ROUGE оценивает как точность, так и полноту, предоставляя сбалансированную меру того, сколько релевантного контента из ссылки присутствует в сгенерированном ответе.

METEOR (Metric for Evaluation of Translation with Explicit ORdering)

METEOR учитывает синонимику, происхождение и порядок слов для оценки сходства между сгенерированным и эталонными ответами. Формула для оценки METEOR следующая:

Полное руководство по оценке компонентов системы RAG: что необходимо знать

где F_mean — это гармоническое среднее значение точности и полноты, а P_penalty — это штраф за неправильный порядок слов и другие ошибки. METEOR обеспечивает более тонкую оценку, чем BLEU или ROUGE, поскольку учитывает синонимы и происхождение.

Оценка на основе встраивания

Этот метод использует векторные представления слов (встраивания) для измерения семантического сходства между сгенерированным и эталонными ответами. Такие методы, как косинусное сходство, используются для сравнения встраиваний, обеспечивая оценку, основанную на значении слов, а не на их точных совпадениях.

Советы и рекомендации по оптимизации систем RAG

Ниже представлены основные советы и рекомендации по оптимизации систем RAG:

  • Использование методов повторного ранжирования: повторное ранжирование является широко используемым методом оптимизации производительности любой системы RAG. Он берет начальный набор извлеченных документов и дополнительно ранжирует наиболее релевантные из них на основе их сходства. Мы можем более точно оценить релевантность документов, используя такие методы, как кросс-кодировщики и повторные ранжировщики на основе BERT. Это гарантирует, что документы, предоставленные генератору, являются контекстуально насыщенными и высокорелевантными, что приводит к более качественным ответам.
  • Настройка гиперпараметров: регулярная настройка гиперпараметров, таких как размер фрагмента, перекрытие и количество верхних извлеченных документов, может оптимизировать производительность компонента извлечения. Эксперименты с различными настройками и оценка их влияния на качество извлечения могут привести к улучшению общей производительности системы RAG.
  • Модели встраивания: выбор подходящей модели встраивания имеет решающее значение для оптимизации компонента извлечения системы RAG. Правильная модель, будь то модель общего назначения или модель, специфичная для домена, может значительно повысить способность системы точно представлять и извлекать релевантную информацию. Выбрав модель, которая соответствует вашему конкретному варианту использования, вы можете повысить точность поиска по сходству и общую производительность вашей системы RAG. При выборе учитывайте такие факторы, как данные обучения модели, размерность и показатели производительности.
  • Стратегии фрагментации: настройка размеров фрагментов и перекрытий может значительно повысить производительность систем RAG за счет сбора более релевантной информации для LLM. Например, семантическая фрагментация Langchain разделяет документы на основе семантики, гарантируя, что каждый фрагмент будет контекстуально согласованным. Адаптивные стратегии фрагментации, различающиеся в зависимости от типов документов (таких как PDF-файлы, таблицы и изображения), могут помочь сохранить более контекстуально релевантную информацию.

Роль векторных баз данных в системах RAG

Векторные базы данных являются неотъемлемой частью производительности систем RAG. Когда пользователь отправляет запрос, компонент извлечения системы RAG использует векторную базу данных для поиска наиболее релевантных документов на основе векторного сходства. Этот процесс имеет решающее значение для предоставления языковой модели правильного контекста для генерации точных и релевантных ответов. Надежная векторная база данных обеспечивает быстрый и точный поиск, напрямую влияя на общую эффективность и отзывчивость системы RAG.

Заключение

Разработка системы RAG сама по себе не является сложной, но оценка систем RAG имеет решающее значение для измерения производительности, обеспечения непрерывного совершенствования, соответствия бизнес-целям, балансировки затрат, обеспечения надежности и адаптации к новым методам. Этот комплексный процесс оценки помогает в создании надежной, эффективной и ориентированной на пользователя системы RAG.

Начать дискуссию