Исповедь LLM: проблемы AI моделей и честность ответов от OpenAI

Исповедь LLM

Каждый, кто использовал или, что еще больнее, писал AI агентов, сталкивался с тем, что они галлюцинируют, не следуют инструкциям, и иногда откровенно врут, что они все сделали кашерно, хотя сами пропустили ряд шагов.

OpenAI тут опубликовали исследование с результатами тренировки модели таким образом, чтобы она, помимо обычного output-а, еще честно (о__О) признавалась, если «срезала углы» или «хакала ответ». Отличная работа вслед за работой про то, почему модели галлюцинируют, о которой я рассказывал на прошлом genai апдейте.

В общем, ждем скоро «честных» и «послушных» моделей от OpenAI и не только.

Есть лишь одна загвоздка: модель признается, что «нахимичила», но от того не меняет свое поведение. Но это, я уверен, тоже будет решено.

P.S. заключительный genai апдейт сделаю ближе к концу месяца, подведем итоги года

Подписывайтесь на Telegram EDU.