⭐️ Google DeepMind представил Gemini 3.1 Flash TTS - свою самую управляемую модель генерации речи. Качество генераций - вышка!

Главная фишка - Audio Tags.

Это текстовые команды прямо в промпте, которыми можно управлять стилем голоса, подачей и темпом речи. По сути, вы режиссируете озвучку через текст.

Что ещё важно:

— Более естественное звучание речи

— Поддержка 70+ языков (русский, японский, немецкий и др.)

— Все выходные аудио маркируются SynthID (цифровой водяной знак, чтобы отличить синтезированную речь от настоящей)

На бенчмарке Artificial Analysis TTS Arena модель заняла 2-е место с Elo-рейтингом 1211 - сразу за Inworld TTS 1.5 Max (1215) и выше ElevenLabs v3 (1179).

Где попробовать:

→ Рreview через Gemini API и Google AI Studio

→ Бизнесу -а Vertex AI

→ Всем пользователям - скоро появится в Google Vids

https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-flash-tts/

Если Telegram не открывается - есть дубль в Max.

2
1 комментарий