: Убийца 11Labs? Разбираю новую бесплатную озвучку от Google Gemini: что умеет, где скачать и в чем главный секрет

Привет, vc.ru! На связи Виктор Гвоздь. Нашел неочевидный способ управлять эмоциями, который работает лучше, чем в других нейросетях. Но есть и серьезные недостатки.

В мире генерации голоса долгое время были свои короли: 11Labs для реалистичности и клонирования, Speechki для аудиокниг, разные другие сервисы для своих ниш. Но Google тихо, без громких анонсов, выкатила в своей AI Studio новую фичу — Gemini Speech Generation.

Заявлено было многое: создание диалогов, управление эмоциями, 30+ голосов и, главное, — пока что это абсолютно бесплатно. Конечно, я не мог пройти мимо. Я потратил несколько часов на тесты, перечитал документацию и готов поделиться честным вердиктом: это действительно мощный инструмент, способный в некоторых задачах уделать платных конкурентов. Но, как всегда, есть нюансы.

Найти новую озвучку просто:

Идете в Google AI Studio (раньше она называлась MakerSuite).
В левом меню выбираете Generate Media → Gemini Speech Generation.
Готово! Вы на месте.

Интерфейс аскетичный. Никаких лишних кнопок, только самое необходимое: поле для текста, выбор модели, голоса и настройка «температуры» (креативности).

Кстати, о голосах. Их здесь около 30, и что особенно радует — русский язык звучит на удивление достойно. Никакого металлического акцента, правильные ударения и интонации. Это одна из лучших бесплатных реализаций русского TTS на сегодня.

Первое, что бросается в глаза — режим Multi-speaker Audio. Вы можете создать полноценный диалог между двумя персонажами, выбрав для каждого свой голос.

Я решил проверить это на классической драме:

Спикер 1 (голос Zephyr): Ты был лучшим моим другом, Степан, но я выбрала Дениса.Спикер 2 (голос Comet): Ну и иди ты в пень, Лариса!

Результат впечатляет. Голоса не просто читают текст по очереди, они делают естественные паузы, как в реальном разговоре. Повышая «температуру», можно добиться более эмоциональной, почти театральной игры. Для подкастов, аудиороликов или озвучки игр — это просто находка.

А вот тут начинается самое интересное. В документации и в интерфейсе намекают на управление речью. Можно вставлять в текст метки вроде (смех) или (всхлип), и модель попытается их воспроизвести. Работает это, честно говоря, 50/50. Смех получается, а вот всхлипы — не очень.

Но я нашел другой, гораздо более мощный способ.

Оказывается, в Gemini Speech есть две модели: 1.5 Flash и 1.5 Pro Preview. И ведут они себя совершенно по-разному.

Модель 1.5 Pro (по умолчанию) игнорирует инструкции-эмоции.

А вот модель 1.5 Flash — идеально им подчиняется!

Смотрите, какой трюк можно провернуть. Просто пишем инструкцию перед фразой через двоеточие:

Промпт:Говорит и плачет: Я не хотела ехать в этот парк.

Результат на модели 1.5 Flash:Голос действительно звучит так, будто человек вот-вот расплачется. Интонации становятся дрожащими, появляются нотки обиды.

А теперь тот же промпт на модели 1.5 Pro:Монотонное чтение. Модель просто проигнорировала инструкцию «Говорит и плачет».

Вот еще примеры, которые отлично работают именно на Flash-модели:

Агрессивно: Я не хотела ехать в этот парк! — голос становится резким, почти срывается на крик.
Говорит и смеётся: Я хотела ехать в этот парк! — появляется искренний, веселый смех в конце фразы.
Говорит шепотом: Это наш маленький секрет. — идеально для создания интриги.

Это киллер-фича. Вы получаете гранулированный контроль над эмоциями, просто описывая их словами, как режиссер — актеру.

Несмотря на все плюсы, это не идеальный инструмент. Вот чего мне не хватило:

Нет клонирования голоса. Главный козырь 11Labs пока остается у них. Загрузить свой голос и озвучить текст им здесь нельзя.
Нет Voice Changer. Изменить существующую аудиозапись тоже не получится.
Ошибки на длинных текстах. Модель имеет огромное контекстное окно (32 000 токенов), но если загрузить сразу несколько страниц книги, она может начать «глотать» слова или буквы. Лучше работать с ней небольшими, контролируемыми абзацами.
Это "песочница". AI Studio — это, по сути, площадка для тестов. Здесь нет многих удобств, к которым мы привыкли в готовых продуктах.

На вопрос «убийца ли это 11Labs» мой ответ — пока нет, но это мощный выстрел в их сторону.

Когда стоит выбрать Gemini Speech? Если вам нужна качественная бесплатная озвучка на русском, нужно создать живой диалог или вы хотите тонко настроить эмоции в голосе для конкретной фразы. Для этих задач он, возможно, даже лучше платных аналогов.
Когда все еще нужен 11Labs? Если ваша главная задача — клонирование голоса (своего или чужого) или вам нужен более отполированный продукт с кучей дополнительных функций.

Google дала нам в руки невероятно мощный и, что важно, бесплатный инструмент. Да, он требует некоторого «допиливания» и знания секретов (вроде переключения на Flash-модель для эмоций), но потенциал у него огромный.

А вы уже пробовали новую озвучку? Какими генераторами голоса пользуетесь и почему? Делитесь опытом в комментариях!

: Убийца 11Labs? Разбираю новую бесплатную озвучку от Google Gemini: что умеет, где скачать и в чем главный секрет

Что это и где это взять?

Главная фишка №1: Живые диалоги

Главная фишка №2 (и главный секрет): Управление эмоциями

Что пока не так: честные минусы

Вердикт: Убийца 11Labs или просто интересный конкурент?