OpenAI объяснила, почему искусственный интеллект «галлюцинирует»
Исследователи OpenAI опубликовали работу, где предлагают новое объяснение того, почему языковые модели так часто выдают выдуманные факты с полной уверенностью.
Оказывается, проблема заложена в самих методах обучения. Сегодня ИИ оценивают так, что система получает «полные баллы» за правильный ответ, даже если он дан наугад. Но если модель честно признается «я не знаю», она получает ноль. В итоге алгоритмы привыкают всегда что-то отвечать, даже в ситуациях полной неопределенности.
Учёные проверили эту гипотезу на практике. Они задавали моделям вопросы, где правильный ответ можно либо знать, либо не знать — например, точную дату рождения конкретного исследователя или название диссертации. Каждый раз ИИ уверенно придумывал разные, но неправильные варианты.
Авторы исследования считают, что решить проблему можно, если изменить сам подход к оценке: нужно жёстко наказывать модели за уверенные ошибки и, наоборот, поощрять их за честное признание в том, что информации недостаточно. Это может привести к созданию систем, которые знают свои пределы и не будут «выдумывать» факты ради хорошего балла в тесте.
Если такие методы закрепятся, это станет важным шагом к повышению надёжности искусственного интеллекта. Пусть модели будут иногда осторожнее и чаще говорить «не знаю», но зато пользователи смогут доверять их ответам гораздо больше — особенно в критически важных областях вроде медицины или права.
А вы сталкивались с галлюцинациями ИИ-чатов?