: Убийца 11Labs? Разбираю новую бесплатную озвучку от Google Gemini: что умеет, где скачать и в чем главный секрет
Привет, vc.ru! На связи Виктор Гвоздь. Нашел неочевидный способ управлять эмоциями, который работает лучше, чем в других нейросетях. Но есть и серьезные недостатки.
В мире генерации голоса долгое время были свои короли: 11Labs для реалистичности и клонирования, Speechki для аудиокниг, разные другие сервисы для своих ниш. Но Google тихо, без громких анонсов, выкатила в своей AI Studio новую фичу — Gemini Speech Generation.
Заявлено было многое: создание диалогов, управление эмоциями, 30+ голосов и, главное, — пока что это абсолютно бесплатно. Конечно, я не мог пройти мимо. Я потратил несколько часов на тесты, перечитал документацию и готов поделиться честным вердиктом: это действительно мощный инструмент, способный в некоторых задачах уделать платных конкурентов. Но, как всегда, есть нюансы.
Что это и где это взять?
Найти новую озвучку просто:
- Идете в Google AI Studio (раньше она называлась MakerSuite).
- В левом меню выбираете Generate Media → Gemini Speech Generation.
- Готово! Вы на месте.
Интерфейс аскетичный. Никаких лишних кнопок, только самое необходимое: поле для текста, выбор модели, голоса и настройка «температуры» (креативности).
Кстати, о голосах. Их здесь около 30, и что особенно радует — русский язык звучит на удивление достойно. Никакого металлического акцента, правильные ударения и интонации. Это одна из лучших бесплатных реализаций русского TTS на сегодня.
Главная фишка №1: Живые диалоги
Первое, что бросается в глаза — режим Multi-speaker Audio. Вы можете создать полноценный диалог между двумя персонажами, выбрав для каждого свой голос.
Я решил проверить это на классической драме:
Спикер 1 (голос Zephyr): Ты был лучшим моим другом, Степан, но я выбрала Дениса.Спикер 2 (голос Comet): Ну и иди ты в пень, Лариса!
Результат впечатляет. Голоса не просто читают текст по очереди, они делают естественные паузы, как в реальном разговоре. Повышая «температуру», можно добиться более эмоциональной, почти театральной игры. Для подкастов, аудиороликов или озвучки игр — это просто находка.
Главная фишка №2 (и главный секрет): Управление эмоциями
А вот тут начинается самое интересное. В документации и в интерфейсе намекают на управление речью. Можно вставлять в текст метки вроде (смех) или (всхлип), и модель попытается их воспроизвести. Работает это, честно говоря, 50/50. Смех получается, а вот всхлипы — не очень.
Но я нашел другой, гораздо более мощный способ.
Оказывается, в Gemini Speech есть две модели: 1.5 Flash и 1.5 Pro Preview. И ведут они себя совершенно по-разному.
Модель 1.5 Pro (по умолчанию) игнорирует инструкции-эмоции.
А вот модель 1.5 Flash — идеально им подчиняется!
Смотрите, какой трюк можно провернуть. Просто пишем инструкцию перед фразой через двоеточие:
Промпт:Говорит и плачет: Я не хотела ехать в этот парк.
Результат на модели 1.5 Flash:Голос действительно звучит так, будто человек вот-вот расплачется. Интонации становятся дрожащими, появляются нотки обиды.
А теперь тот же промпт на модели 1.5 Pro:Монотонное чтение. Модель просто проигнорировала инструкцию «Говорит и плачет».
Вот еще примеры, которые отлично работают именно на Flash-модели:
- Агрессивно: Я не хотела ехать в этот парк! — голос становится резким, почти срывается на крик.
- Говорит и смеётся: Я хотела ехать в этот парк! — появляется искренний, веселый смех в конце фразы.
- Говорит шепотом: Это наш маленький секрет. — идеально для создания интриги.
Это киллер-фича. Вы получаете гранулированный контроль над эмоциями, просто описывая их словами, как режиссер — актеру.
Что пока не так: честные минусы
Несмотря на все плюсы, это не идеальный инструмент. Вот чего мне не хватило:
- Нет клонирования голоса. Главный козырь 11Labs пока остается у них. Загрузить свой голос и озвучить текст им здесь нельзя.
- Нет Voice Changer. Изменить существующую аудиозапись тоже не получится.
- Ошибки на длинных текстах. Модель имеет огромное контекстное окно (32 000 токенов), но если загрузить сразу несколько страниц книги, она может начать «глотать» слова или буквы. Лучше работать с ней небольшими, контролируемыми абзацами.
- Это "песочница". AI Studio — это, по сути, площадка для тестов. Здесь нет многих удобств, к которым мы привыкли в готовых продуктах.
Вердикт: Убийца 11Labs или просто интересный конкурент?
На вопрос «убийца ли это 11Labs» мой ответ — пока нет, но это мощный выстрел в их сторону.
- Когда стоит выбрать Gemini Speech? Если вам нужна качественная бесплатная озвучка на русском, нужно создать живой диалог или вы хотите тонко настроить эмоции в голосе для конкретной фразы. Для этих задач он, возможно, даже лучше платных аналогов.
- Когда все еще нужен 11Labs? Если ваша главная задача — клонирование голоса (своего или чужого) или вам нужен более отполированный продукт с кучей дополнительных функций.
Google дала нам в руки невероятно мощный и, что важно, бесплатный инструмент. Да, он требует некоторого «допиливания» и знания секретов (вроде переключения на Flash-модель для эмоций), но потенциал у него огромный.
А вы уже пробовали новую озвучку? Какими генераторами голоса пользуетесь и почему? Делитесь опытом в комментариях!