Выше мы в основном обсуждали методы, основанные на политиках, но PPO включает в свою реализацию как методы, основанные на политиках, так и методы, основанные на ценностях. Таким образом, можно сказать, что PPO использует метод актера-критика. Актер управляется моделью, основанной на политике, которая определяет, какое действие предпринять для данного состояния (т. е. метод, основанный на политиках), а Критик оценивает предпринятое действие в соответствии с функцией ценности (метод, основанный на ценностях). Таким образом, Актер и Критик работают вместе итеративным образом.