Как говорилось выше, существует ещё один класс — SFTTrainer, который позже был добавлен в библиотеку Hugging Face trl, предназначенную для обучения с подкреплением. Так как supervised fine-tuning — это первый этап Reinforcement Learning by Human Feedback (RLHF), разработчики решили выделить его в отдельный класс, в то же время добавив вспомогательные функции, которые при использовании библиотеки Trainer пришлось бы реализовывать вручную. Давайте посмотрим, на что это похоже.