: Убийца 11Labs? Разбираю новую бесплатную озвучку от Google Gemini: что умеет, где скачать и в чем главный секрет

Привет, vc.ru! На связи Виктор Гвоздь. Нашел неочевидный способ управлять эмоциями, который работает лучше, чем в других нейросетях. Но есть и серьезные недостатки.

: Убийца 11Labs? Разбираю новую бесплатную озвучку от Google Gemini: что умеет, где скачать и в чем главный секрет

В мире генерации голоса долгое время были свои короли: 11Labs для реалистичности и клонирования, Speechki для аудиокниг, разные другие сервисы для своих ниш. Но Google тихо, без громких анонсов, выкатила в своей AI Studio новую фичу — Gemini Speech Generation.

Заявлено было многое: создание диалогов, управление эмоциями, 30+ голосов и, главное, — пока что это абсолютно бесплатно. Конечно, я не мог пройти мимо. Я потратил несколько часов на тесты, перечитал документацию и готов поделиться честным вердиктом: это действительно мощный инструмент, способный в некоторых задачах уделать платных конкурентов. Но, как всегда, есть нюансы.

Что это и где это взять?

Найти новую озвучку просто:

  1. Идете в Google AI Studio (раньше она называлась MakerSuite).
  2. В левом меню выбираете Generate Media → Gemini Speech Generation.
  3. Готово! Вы на месте.

Интерфейс аскетичный. Никаких лишних кнопок, только самое необходимое: поле для текста, выбор модели, голоса и настройка «температуры» (креативности).

Кстати, о голосах. Их здесь около 30, и что особенно радует — русский язык звучит на удивление достойно. Никакого металлического акцента, правильные ударения и интонации. Это одна из лучших бесплатных реализаций русского TTS на сегодня.

Главная фишка №1: Живые диалоги

Первое, что бросается в глаза — режим Multi-speaker Audio. Вы можете создать полноценный диалог между двумя персонажами, выбрав для каждого свой голос.

Я решил проверить это на классической драме:

Спикер 1 (голос Zephyr): Ты был лучшим моим другом, Степан, но я выбрала Дениса.Спикер 2 (голос Comet): Ну и иди ты в пень, Лариса!

Результат впечатляет. Голоса не просто читают текст по очереди, они делают естественные паузы, как в реальном разговоре. Повышая «температуру», можно добиться более эмоциональной, почти театральной игры. Для подкастов, аудиороликов или озвучки игр — это просто находка.

Главная фишка №2 (и главный секрет): Управление эмоциями

А вот тут начинается самое интересное. В документации и в интерфейсе намекают на управление речью. Можно вставлять в текст метки вроде (смех) или (всхлип), и модель попытается их воспроизвести. Работает это, честно говоря, 50/50. Смех получается, а вот всхлипы — не очень.

Но я нашел другой, гораздо более мощный способ.

Оказывается, в Gemini Speech есть две модели: 1.5 Flash и 1.5 Pro Preview. И ведут они себя совершенно по-разному.

Модель 1.5 Pro (по умолчанию) игнорирует инструкции-эмоции.

А вот модель 1.5 Flash — идеально им подчиняется!

Смотрите, какой трюк можно провернуть. Просто пишем инструкцию перед фразой через двоеточие:

Промпт:Говорит и плачет: Я не хотела ехать в этот парк.

Результат на модели 1.5 Flash:Голос действительно звучит так, будто человек вот-вот расплачется. Интонации становятся дрожащими, появляются нотки обиды.

А теперь тот же промпт на модели 1.5 Pro:Монотонное чтение. Модель просто проигнорировала инструкцию «Говорит и плачет».

Вот еще примеры, которые отлично работают именно на Flash-модели:

  • Агрессивно: Я не хотела ехать в этот парк! — голос становится резким, почти срывается на крик.
  • Говорит и смеётся: Я хотела ехать в этот парк! — появляется искренний, веселый смех в конце фразы.
  • Говорит шепотом: Это наш маленький секрет. — идеально для создания интриги.

Это киллер-фича. Вы получаете гранулированный контроль над эмоциями, просто описывая их словами, как режиссер — актеру.

Что пока не так: честные минусы

Несмотря на все плюсы, это не идеальный инструмент. Вот чего мне не хватило:

  1. Нет клонирования голоса. Главный козырь 11Labs пока остается у них. Загрузить свой голос и озвучить текст им здесь нельзя.
  2. Нет Voice Changer. Изменить существующую аудиозапись тоже не получится.
  3. Ошибки на длинных текстах. Модель имеет огромное контекстное окно (32 000 токенов), но если загрузить сразу несколько страниц книги, она может начать «глотать» слова или буквы. Лучше работать с ней небольшими, контролируемыми абзацами.
  4. Это "песочница". AI Studio — это, по сути, площадка для тестов. Здесь нет многих удобств, к которым мы привыкли в готовых продуктах.

Вердикт: Убийца 11Labs или просто интересный конкурент?

На вопрос «убийца ли это 11Labs» мой ответ — пока нет, но это мощный выстрел в их сторону.

  • Когда стоит выбрать Gemini Speech? Если вам нужна качественная бесплатная озвучка на русском, нужно создать живой диалог или вы хотите тонко настроить эмоции в голосе для конкретной фразы. Для этих задач он, возможно, даже лучше платных аналогов.
  • Когда все еще нужен 11Labs? Если ваша главная задача — клонирование голоса (своего или чужого) или вам нужен более отполированный продукт с кучей дополнительных функций.

Google дала нам в руки невероятно мощный и, что важно, бесплатный инструмент. Да, он требует некоторого «допиливания» и знания секретов (вроде переключения на Flash-модель для эмоций), но потенциал у него огромный.

А вы уже пробовали новую озвучку? Какими генераторами голоса пользуетесь и почему? Делитесь опытом в комментариях!

7
Начать дискуссию