Вышла новая аудиомодель от Qwen — Qwen3-TTS-Flas

Qwen3-TTS-Flash — это флагманская модель преобразования текста в речь, которая поддерживает многотембровый, многоязычный (русский поддерживает) и многодиалектный синтез речи. Она предназначена для создания естественной и выразительной речи и доступна через Qwen API.

Основные улучшения:

🔴Расширенная поддержка тембров: Qwen3-TTS предлагает более 49 высококачественных тембров, охватывающих различные полы, возрасты, региональные особенности и профили персонажей, чтобы удовлетворить потребности различных сценариев.

🔴Расширенные возможности многоязычия и диалектов: Qwen3-TTS поддерживает 10 основных языков, включая китайский, английский, немецкий, итальянский, португальский, испанский, японский, корейский, французский и русский.

Он также поддерживает диалектный синтез для большего числа диалектов, включая китайский, хоккайдский, ву, кантонский, сычуаньский, пекинский, нанкинский, тяньцзиньский диалекты и диалекты Шэньси, достоверно воспроизводя местные акценты и лингвистические нюансы.

🔴Более естественная и естественный темп речи: По сравнению с предыдущей версией, Qwen3-TTS значительно улучшила свою способность адаптивно регулировать темп речи и просодию в соответствии с вводимым текстом, достигая уровня человекоподобия, который максимально приближен к реальной человеческой речи.

Подробнее тут

API

Демо

Подписывайтесь на Telegram Ринат Шакиров | Промпты для Midjourney | ChatGPT.