Ожидалось, что для хорошего предсказания трансформер должен как-то смоделировать внутреннюю структуру СММ, которая породила данные, причем исследовали заранее предвидели, что сделает он это особым образом. По теории вычислительной механики, для оптимального предсказания следующего токена нужно отслеживать не просто скрытые состояния СММ, а вероятностное распределение убеждений о текущем состоянии СММ, которое постоянно обновляется с новыми токенами. Это называется смешанной структурой состояния (ССС).