⭐️ Google DeepMind представил Gemini 3.1 Flash TTS - свою самую управляемую модель генерации речи. Качество генераций - вышка!
Главная фишка - Audio Tags.
Это текстовые команды прямо в промпте, которыми можно управлять стилем голоса, подачей и темпом речи. По сути, вы режиссируете озвучку через текст.
Что ещё важно:
— Более естественное звучание речи
— Поддержка 70+ языков (русский, японский, немецкий и др.)
— Все выходные аудио маркируются SynthID (цифровой водяной знак, чтобы отличить синтезированную речь от настоящей)
На бенчмарке Artificial Analysis TTS Arena модель заняла 2-е место с Elo-рейтингом 1211 - сразу за Inworld TTS 1.5 Max (1215) и выше ElevenLabs v3 (1179).
Где попробовать:
→ Рreview через Gemini API и Google AI Studio
→ Бизнесу -а Vertex AI
→ Всем пользователям - скоро появится в Google Vids
https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-flash-tts/
Выжимаю максимум из Claude и других ИИ на практике, показыаю на практике как работать с ИИ у себя в телеге. Без воды.
Если Telegram не открывается - есть дубль в Max.