Если вы следили за миром больших языковых моделей (LLM), то наверняка слышали про RLHF — дообучение с подкреплением на основе человеческой обратной связи
Считается, что RLHF улучшает «полезность и безвредность» модели. Но команда исследователей из Meta, UCL и Оксфорда задалась вопросом: как RLHF влияет на две критически важные, но плохо изуче…