OpenAI представила исследование метода Confessions, который должен сделать работу крупных языковых моделей более прозрачной. Подход учит модель не только давать основной ответ, но и формировать отдельный отчёт, где она перечисляет полученные инструкции и фиксирует, насколько действительно им следовала. За честность в этом дополнительном отчёте моде…