Среди них — MOS (Mean Opinion Score, средняя оценка разборчивости речи), которая сравнивает синтезированную речь с человеческой, и PIVR (Percent of Indistinguishable Voice Recordings, процент неразборчивых записей голоса), которая показывает, сколько толокеров не смогли определить, один человек говорит на двух аудиозаписях или разные. В первых экспериментах 90% слушателей не замечали различий, а сейчас мы повысили этот показатель до 100% — то есть люди не отличают голос робота от голоса человека.