До появления GPT-4o голосовой режим ChatGPT использовал трехступенчатый процесс: звук транскрибировался в текст, затем обрабатывался GPT-3.5 или GPT-4 и, наконец, снова преобразовывался в звук. Это приводило к замедлению времени отклика (2,8 секунды для GPT-3.5 и 5,4 секунды для GPT-4) и потере такой информации, как тон и фоновый шум.