Сооснователь сервиса Retell Сергей Баранов рассказывает, как превратить текстовый контент в аудио с помощью технологии озвучивания текста — Yandex SpeechKit в три шага. Вы тоже так можете.
Кстати, а кто-нибудь видел сервис на Yandex SpeechKit для обратного процесса (перегона аудио в текст)? Я что-то не смог найти...
В Yandex SpeechKit есть есть как text-to-speech, так и speech-to-text (ASR) https://cloud.yandex.ru/services/speechkit