Герои аниме и оперные певцы: в соцсетях тестируют генератор речи от Google с поддержкой русского языка
Он работает на базе Gemini 2.5 и позволяет задавать стиль речи и тон голоса — с помощью текстовых подсказок.
- На конференции I/O 2025 Google представила генератор речи на базе моделей Gemini 2.5 Pro и Flash. В конце мая он стал доступен на платформе AI Studio бесплатно в разделе Generate Media — не открывается с российских IP-адресов.
- Текст можно озвучить максимум двумя разными голосами. В настройках доступно 30 тембров. В поле Style instructions нужно текстом описать стиль, особенности речи и эмоции.
Пользователь попросил, чтобы оба спикера были оперными певцами, а один из них изображал интернет-модем. Источник: Ray
- На некоторых языках, например английском и китайском, Gemini может воспроизвести разные диалекты и акценты. Модель поддерживает в том числе русский.
«Вирусный» ролик, на котором Gemini воспроизводит диалог на кулинарном фестивале, где спикеры говорят на английском с разными акцентами. Источник: Deedy
Примеры на русском языке
Так Gemini 2.5 Pro озвучила диалог на русском языке для турецкого сериала. Скринкаст vc.ru
Разговор богатырей из русской сказки, сгенерированный Gemini 2.5 Flash. Скринкаст vc.ru
- В соцсетях Gemini используют, чтобы создавать подкасты с двумя ведущими или озвучку для аниме.
Автор создал аудио для ролика с помощью Gemini. Источник: tetumemo
Пользователь сгенерировал диалог для подкаста, картинки создал в Whisk внутри Google AI Studio и анимировал их с помощью Hedra. Источник: tanabe_fragm
- Модели принимают максимум 8000 токенов и может выдавать до 16000 токенов. Они также доступны в API по цене $10 за минуту созданного аудио с Gemini 2.5 Flash и $20 с версией Pro (796 рублей и 1 592 рубля по курсу ЦБ на 28 мая 2025 года).
25 комментариев