Eleven v3 — модель синтеза голоса с паузами, смехом, динамикой и на 70 языках

Сегодня уже сложно удивить естественностью синтезированного голоса, но новая модель от Evelen Labs выглядит впечатляюще.

Количество поддерживаемых языков удвоили, добавили более естественную симуляцию диалога между разными голосами. Текст можно размечать при помощи специальных тегов, которые передают контекст, эмоции и другие детали.

Создатели пишут, что более реалистичный синтез теперь будет требовать более детализированных промтов, но судя по ролику, это того стоит. Переход между спикерами в диалогах стал почти бесшовным, у разных голосов прям сильно отличаются характеры.

Особенно впечатлил почему-то спортивный комментатор: модель сама из контекста понимает, где сила голоса должна нарастать, а где резко упасть.

Подписывайтесь на Telegram-канал Радиорубка Лихачёва.