Почему нейросети галлюцинируют? Важное исследование OpenAI
OpenAI выпустили исследование на эту тему, где утверждают, что это "лечится" и доходчиво объясняют причины (спойлер – они системные) и механизмы галлюцинаций. И предлагает решение проблемы
Утверждать, то галлюцинации — это загадочный сбой в современных языковых моделях, нельзя. Мы понимаем статистические механизмы возникновения галлюцинаций и их оценки.
🔥 Еще больше интересного в моем канале продуктовые штучки
Причины галлюцинаций
Основные причины появления галлюцинаций у языковых моделей — это особенности их обучения и оценки. Ставка на угадывание.
Языковые модели, если не уверены, чаще "угадывают" ответ, потому что стандартные метрики (например, точность ответа) поощряют угадывание, а не честное признание неуверенности.
Первая причина – особенности обучения. Модели обучаются на огромных объемах текста через задачу предсказания следующего слова без меток «правда/ложь». Это делает их выдающимися в грамматике, но не даёт механизма для отличия правды от фальши на уровне фактов, особенно для редких или случайных сведений.
Отсутствие честных вознаграждений. Современные метрики и "лидерборды" измеряют успех по точности, из-за чего разработчики фокусируются на повышении точности даже ценой увеличения количества уверенных ошибок.
Лидерборды — это онлайн-рейтинги, где результаты языковых моделей сравниваются по стандартным наборам метрик и бенчмарков. Существуют разные платформы (например, Hugging Face Open LLM Leaderboard, Chatbot Arena и др.), где специалисты и обычные пользователи могут видеть эти рейтинги и выбирать нужную модель.
Некоторые лидерборды используют краудсорсинговые методы оценки и рейтинги, чтобы собирать данные о реальном качестве моделей по отзывам реальных людей. Лидерборды делают процесс выбора модели прозрачным и удобным для ИТ-специалистов, исследователей и разработчиков.
Модели «выгоднее» неправильно назвать дату рождения человека вместо того, чтобы сказать "не знаю".
Представьте себе тест с несколькими вариантами ответов. Если вы не знаете ответа, но делаете спонтанную попытку, вам может повезти, и вы окажетесь правы. Оставив поле пустым, вы гарантированно получите ноль. Аналогично, когда модели оцениваются только по точности, проценту правильных ответов, их поощряют угадывать, а не говорить «не знаю»....
После тысяч тестовых вопросов модель, основанная на догадках, выглядит в рейтинге лучше, чем аккуратная модель, допускающая неопределённость.
В качестве конкретного примера рассмотрим оценку SimpleQA из системной карты GPT5 (откроется в новом окне).
С точки зрения точности более старая модель OpenAI o4-mini работает немного лучше. Однако частота ошибок (то есть частота галлюцинаций) у неё значительно выше.
Стратегическое угадывание в условиях неопределённости повышает точность, но увеличивает количество ошибок и галлюцинаций.
При усреднении результатов десятков оценок большинство бенчмарков выделяют метрику точности, но это влечёт за собой ложную дихотомию между правильным и неправильным.
Данные, основанные только на точности, доминируют в рейтингах моделей, мотивируя разработчиков создавать модели, основанные на угадывании, а не на уклонении от ответа.
Вот почему даже по мере того, как модели становятся все более совершенными, они все еще могут галлюцинировать, уверенно давая неверные ответы вместо того, чтобы признать неопределенность.
Как решать проблему?
Считать что для измерения галлюцинаций нам нужна лишь качественная оценка галлюцинаций, не стоит. Качественная оценка галлюцинаций малоэффективна. Вместо этого необходимо переработать все основные метрики оценки, чтобы поощрять проявления неуверенности.
Нужно изменить метрики оценки, чтобы поощрять честность и выражение неуверенности, а не угадывание.
Изменение метрик оценки. Ввести штрафы за уверенные неправильные ответы и поощрять частичное вознаграждение за выраженную неуверенность ("Я не знаю"). Такое перераспределение баллов снижает стимул к угадыванию.
Переработка тестов. Необходимо сделать главными такие метрики и тесты, которые учитывают выражение неуверенности, а не только точность — иначе даже новая разработка специальных антигаллюцинационных техник не приведёт к широкому распространению.
Для вопросов, предполагающих единственный «правильный ответ», можно рассматривать три категории ответов: точные ответы, ошибки и воздержание от ответа, когда модель не рискует делать предположения. Большинство бордов ранжируют модели по точности, но ошибки хуже воздержания.
Культивирование честности. Нужно прописывать в спецификациях и обучении моделей приоритет честности.
Отказ от ответа при неуверенности должен быть нормой
Заключение. Можно ли устранить галлюцинации полностью?
Основная причина галлюцинаций — структура обучения и оценки, поощряющая угадывать, а не признавать незнание. Решение — обновить метрики и стандарты, чтобы выражение неуверенности стало выгоднее угадывания, а ошибки — менее допустимы.
Выводы Надеяться, что галлюцинации будут устранены благодаря повышению точности, поскольку 100% точная модель никогда не галлюцинирует, не стоит. Точность никогда не достигнет 100%, поскольку, независимо от размера модели, её поисковых и рассудочных возможностей, некоторые вопросы реального мира изначально остаются без ответа.
Однако и вывод о том, что галлюцинации неизбежны, также неверен. Для избежания галлюцинаций требуется определённый уровень интеллекта, достижимый исключительно с помощью LLM.