На второй день релиза OpenAI представила новое усовершенствование в настройке своих языковых моделей — улучшенный метод тонкой настройки RLFT. В отличие от традиционного подхода SFT, где модель обучается предсказывать следующий токен, RLFT сосредоточен на оценке полных ответов. Это изменение позволяет моделям лучше учитывать конечную цель, что особенно важно в таких сферах, как право, медицина и финансы.