Герои аниме и оперные певцы: в соцсетях тестируют генератор речи от Google с поддержкой русского языка

Он работает на базе Gemini 2.5 и позволяет задавать стиль речи и тон голоса — с помощью текстовых подсказок.

На конференции I/O 2025 Google представила генератор речи на базе моделей Gemini 2.5 Pro и Flash. В конце мая он стал доступен на платформе AI Studio бесплатно в разделе Generate Media — не открывается с российских IP-адресов.
Текст можно озвучить максимум двумя разными голосами. В настройках доступно 30 тембров. В поле Style instructions нужно текстом описать стиль, особенности речи и эмоции.

Пользователь попросил, чтобы оба спикера были оперными певцами, а один из них изображал интернет-модем. Источник: Ray

На некоторых языках, например английском и китайском, Gemini может воспроизвести разные диалекты и акценты. Модель поддерживает в том числе русский.

«Вирусный» ролик, на котором Gemini воспроизводит диалог на кулинарном фестивале, где спикеры говорят на английском с разными акцентами. Источник: Deedy

Так Gemini 2.5 Pro озвучила диалог на русском языке для турецкого сериала. Скринкаст vc.ru

Разговор богатырей из русской сказки, сгенерированный Gemini 2.5 Flash. Скринкаст vc.ru

В соцсетях Gemini используют, чтобы создавать подкасты с двумя ведущими или озвучку для аниме.

Автор создал аудио для ролика с помощью Gemini. Источник: tetumemo

Пользователь сгенерировал диалог для подкаста, картинки создал в Whisk внутри Google AI Studio и анимировал их с помощью Hedra. Источник: tanabe_fragm

Модели принимают максимум 8000 токенов и может выдавать до 16000 токенов. Они также доступны в API по цене $10 за минуту созданного аудио с Gemini 2.5 Flash и $20 с версией Pro (796 рублей и 1 592 рубля по курсу ЦБ на 28 мая 2025 года).

#редакция #google #gemini

Герои аниме и оперные певцы: в соцсетях тестируют генератор речи от Google с поддержкой русского языка

Примеры на русском языке