🤥 Синдром уверенного лжеца — почему ИИ никогда не говорит "Я не знаю"?
Термин "Галлюцинация ИИ" выбран не случайно, когда ИИ выдумывает факты, это очень похоже на то, как наш мозг достраивает картинку во сне. Поэтому нейросеть иногда и преподносит ответ с полным бредом с уверенностью в манере профессора Оксфорда.
Механика процесса
Главной причиной уверенной лжи от ИИ являются пользователи, тк в процессе обучения людей-тренеров просили оценивать качество ответов и тут как раз сработала человеческая психология
1. Синдром отличника (влияние обучения) — модель выдрессирована быть полезной любой ценой
— Поощрение уверенности. Тренеры чаще ставили лайки за развернутые ответы, написанные уверенным тоном, даже если там были мелкие неточности. А ответы "Я не уверен" или "Недостаточно данных" получали низкий рейтинг
— Страх отказа. В весах модели закрепился паттерн: лучше придумать правдоподобную ложь, чем отказать пользователю
— Имитация экспертности. Модель научилась копировать стиль эксперта (сложные термины, структура), но не суть проверки фактов
2. Эффект снежного кома — нейросеть генерирует текст слово за словом. Одна маленькая ложь в начале тянет за собой большую легенду
— Ловушка первого токена. Если вы спросите "Расскажи о встрече Пушкина и Наполеона", модель сгенерирует первое слово "Встреча...". Всё, назад пути нет. Дальше она обязана оправдать это слово и придумать детали
— Самоподтверждение. Сгенерировав выдуманный факт, модель начинает считать его частью истинного контекста диалога
— Отсутствие встроенного модуля фактчекинга
3. Роль настроек температуры — почитать здесь
Кратко: параметр Temperature > 0.7, модель намеренно игнорирует самые логичные и часто верные варианты слов в пользу редких и креативных
Как бороться?
1. Системные ограничения — прописать конституцию правды в самом начале для ИИ
— Добавить в инструкцию: если ты не знаешь точного ответа или информации нет в твоей базе знаний, ответь одной фразой: "Я не знаю". Строго запрещено выдумывать факты, имена и даты
— Задать роль скептика: ты фактчекер. Твоя задача — проверять каждое утверждение на достоверность перед выводом
— Требовать цитаты: отвечай только на основе предоставленного текста. Указывай номер предложения, откуда взята информация
2. Техника "Дай мне подумать" — заставить модель рассуждать вслух перед ответом
Промт
Уберет эффект снежного кома и даст модели шанс самой заметить противоречие (например, что Пушкин и Наполеон жили в разных местах в разное время)
3. Снижение креатива
Если нужна правда, а не сказка, то крутим настройки
— Установить Temperature = 0 или 0.2. Это заставит модель выбирать только самые вероятные варианты слов
— Использовать думающие модели (шанс галюцинации у этого типа ниже)
Работайте умнее, а не дольше.
ТГ-канал, где сложные темы становятся простыми, а промты экономят уйму времени⬇