Как LLM могут бороться со своими же галлюцинациями

Галлюцинации — ахиллесова пята ИИ. Проверка достоверности “фактов” ИИ (с помощью того же поисковика) — несложная задача (учитывая, что уже сейчас ИИ может решать задачи не хуже человека, делать изобретения и ускорять научные открытия), и наконец такой способ нашелся. Разработана модель с говорящим названием “SAFE” (безопасность, Search-Augmented Factuality Evaluator, оценщик фактов с расширенным поиском).

Как работает модель?

1) Создание модели для фактчекинга - LongFact. Для ее создания воспользовались GPT-4 для создания набора подсказок, включающего тысячи вопросов, охватывающих 38 тем. Для каждой темы было создано по 30 промтов, итого 1140.

Слева: разбивка 38 тем (естественно-научные, гуманитарные, другие, социальные науки). Справа: сравнение с другими фактологическими бенчмарками. Модель LongFact охватывает большое количество тем и работает с длинными фактологическими ответами. <a href="https://arxiv.org/pdf/2403.18802.pdf" rel="nofollow noreferrer noopener" target="_blank">Источник</a><br />
Слева: разбивка 38 тем (естественно-научные, гуманитарные, другие, социальные науки). Справа: сравнение с другими фактологическими бенчмарками. Модель LongFact охватывает большое количество тем и работает с длинными фактологическими ответами. Источник

2) Оценка качества ответов с помощью модели SAFE. Используется большая языковая модель, чтобы разбить ответ на набор отдельных фактов и затем оценить точность каждого, отправив его на проверку в поисковик Google. Ответ на промпт (запрос) мог быть релевантным, нерелевантным, и каждый релевантный ответ оценивался как "поддерживаемый" и "неподдерживаемый" фактами. Также оценка качества модели учитывает процент подтвержденных фактов в ответе (точность) и долю ответов с предпочтительной длиной ответа для пользователя.

Насколько хороша модель?

Известно, что альтернативным способом проверки является использование людей - аннотаторов, которые были набраны путем краудсорсинга. Именно с результатами “ручной” проверки сравнили модель SAFE по набору из примерно 16 тыс. отдельных фактов:

- в 72% случаев оценки SAFE совпали с оценками людей-аннотаторов,

- для оценки качества аннотации провели оценку случайной подвыборки в 100 случаев, где были разногласия в оценках SAFE и людей. SAFE выигрывает в 76% случаев (в 19% случаев выиграл человек, в 5% была ничья),

- SAFE более чем в 20 раз дешевле, чем люди-аннотаторы (4$ против $0,19 машинного).

Оценка качества модели SAFE. Слева: кто выиграл в случае разногласий в оценках модели и аннотаторов. Справа: стоимость фактчекинга человеком и моделью. <a href="https://arxiv.org/pdf/2403.18802.pdf" rel="nofollow noreferrer noopener" target="_blank">Источник</a><br />
Оценка качества модели SAFE. Слева: кто выиграл в случае разногласий в оценках модели и аннотаторов. Справа: стоимость фактчекинга человеком и моделью. Источник

Какой еще вывод можно сделать?

Более крупные большие языковые модели обеспечивают лучшую фактологичность ответов. Создатели модели также протестировали 13 языковых моделей в четырех семействах моделей (Gemini, GPT, Claude и PaLM-2), Для оценки моделей использовалась случайная подвыборка из 250 фактов.

Оценка каких моделей проводилась в рамках исследования. <br />
Оценка каких моделей проводилась в рамках исследования.
Результаты оценки моделей. Первые 3 колонки: оценка фактов (S - поддерживаются, NS - не поддерживаются, I - нерелевантно). Точность (Precision) — доля фактов среди всех оцениваемых утверждений, которые модель классифицировала как верные. <a href="https://arxiv.org/pdf/2403.18802.pdf" rel="nofollow noreferrer noopener" target="_blank">Источник</a><br />
Результаты оценки моделей. Первые 3 колонки: оценка фактов (S - поддерживаются, NS - не поддерживаются, I - нерелевантно). Точность (Precision) — доля фактов среди всех оцениваемых утверждений, которые модель классифицировала как верные. Источник

Так ли хороша модель?

Конечно, есть ограничения и узкие места, и разработчики это прекрасно понимают.Так, SAFE полагается на поиск Google как источник знаний, и этого может быть недостаточно в отдельных случаях. Например, Google Search может не хватать глубины в экспертных областях, таких как юриспруденция и медицина.

В то же время есть утверждения глобально фактологические и нефактологические, поэтому утверждения в исследовании маркировались как «поддерживаемые» или «неподдерживаемые» в результатах поиска Google.

И конечно, можно повышать точность, скорость и полезность ответов модели.

Пожалуйста, поддержите меня, поставьте лайк!

2
Начать дискуссию