Суть метода заключается в том, что MuZero может планировать свои действия на основании будущих состояний. Чтобы понять как это, можно представить любую стратегическую игру: шахматы или Starcraft II. Перед тем, как сделать ход, игрок думает, как на него отреагирует соперник, и таким образом просчитывает дальнейшие шаги. MuZero поступает точно так же.
Хаха, только подумал, что Принглз не морочились и сразу идеально-совпадающие чипсины штамповали)))