🎙 Cartesia выкатили Sonic 3 — новый генератор речи. И о том, как им пользоваться.

Модель клонирует голос по нескольким секундам аудио, передаёт эмоции и работает почти без задержки — около 190 мс, а это быстрее большинства конкурентов

Sonic-3 — новый уровень в генерации речи. В отличие от классических моделей на базе трансформеров, которые каждый раз пересчитывают весь контекст, Sonic-3 использует архитектуру State Space Models (SSM). Она запоминает состояние диалога, поэтому отвечает мгновенно и естественно, без «роботизированных» пауз.

SSM — это тип архитектуры нейросетей, который был создан как альтернатива трансформерам, чтобы быстрее и эффективнее обрабатывать последовательности (например, речь, текст, звук или видео)
SSM — это тип архитектуры нейросетей, который был создан как альтернатива трансформерам, чтобы быстрее и эффективнее обрабатывать последовательности (например, речь, текст, звук или видео)

Если объяснить просто: трансформер каждый раз пересчитывает весь контекст перед тем, как предсказать следующее слово; А SSM хранит “состояние” — своего рода память о предыдущем контексте — и продолжает обработку с этого состояния, не возвращаясь назад.

🎙 Cartesia выкатили Sonic 3 — новый генератор речи. И о том, как им пользоваться.

На какие преимущества я обратил внимание:

1. Живое звучание. Модель передаёт эмоции, смех, дыхание и реакцию на собеседника.

2. Скорость. Задержка — всего около 0,19 сек от текста до готового звука. Средняя латентность — 90 мс для модели и 190 мс end-to-end, что быстрее, чем у конкурентов.

3. Мультиязычность. Поддержка 42 языков, включая русский.

4. Интеллект контекста. Корректно произносит акронимы (NASA, UNESCO), чувствует настроение и ритм.

5 Доступность: Sonic-3 уже доступен всем пользователям, включая Россию.

6. Бесплатно дают 30 000 кредитов — хватит, чтобы протестировать модель и использовать её для личных проектов.

Клонирование стало доступно каждому
Клонирование стало доступно каждому

Кроме того, Sonic-3 может клонировать голоса, создавая фирменное звучание бренда или персонажа. Модель легко масштабируется, поддерживает потоковую генерацию и справляется с миллионами запросов одновременно без потери качества.

Минимальный платный план обойдётся всего от 5$

Инструкция по использованию Sonic-3 для начинающих.

Бьюсь скорлупой, которой уже не осталось об микрофон, что после моей инструкции генерировать сможет каждый!
Бьюсь скорлупой, которой уже не осталось об микрофон, что после моей инструкции генерировать сможет каждый!

Переходим на сайт CartesiaAi

Шаг 1.

Выполняем вход наиболее удобным для вас способом, я сам делал через Google-аккаунт.
Выполняем вход наиболее удобным для вас способом, я сам делал через Google-аккаунт.

Шаг 2.

Перед вами открылся рабочий интерфейс, в котором вы пишите свой текст.
Перед вами открылся рабочий интерфейс, в котором вы пишите свой текст.

Нейросеть понимает 42 языка включая русский, поэтому текст можно писать на русском, а вот все дополнительные задачи и подсказки указываются только на английском.

Вначале абзаца можно задать основное настроение, а также добавить дополнительных эмоций и реакций.

— это основная эмоция, в нашем примере мы видим слово "excited" означающее в переводи с английского "взволнованный", соответственно на этом месте можно прописать любую другую эмоцию на английском языке. [happy] — это дополнительная эмоция и реакция, вы также можете выбрать любую, главное поместите её в квадратные скобки.

Обратите внимание, как эти команды выделяются цветом на моём примере, у вас должно произойти в момент, как вы её закончите писать. Если де этого не произошло, и надпись осталась простой белой, значит в вашей команде содержится ошибка.

Шаг 3.

Подберите подходящий голос — в Sonic-3 доступен выбор мужских и женских вариантов с различными тембрами и манерой произношения.
Подберите подходящий голос — в Sonic-3 доступен выбор мужских и женских вариантов с различными тембрами и манерой произношения.

Шаг 4 и 5.

4 — нажимаем на кнопку с фильтром, 5 — выбираем язык озвучки, а затем выбираем голос из полученного списка и нажимаем на него.
4 — нажимаем на кнопку с фильтром, 5 — выбираем язык озвучки, а затем выбираем голос из полученного списка и нажимаем на него.

Шаг 6.

Отрегулируйте параметры синтеза речи. После выбора голоса можно задать скорость, громкость и даже эмоциональный оттенок звучания — радостный, грустный, удивлённый или с элементами смеха.
Отрегулируйте параметры синтеза речи. После выбора голоса можно задать скорость, громкость и даже эмоциональный оттенок звучания — радостный, грустный, удивлённый или с элементами смеха.

Благодаря этому Sonic-3 создаёт живые интонации, которые звучат естественно, без цифровой искусственности, характерной для стандартных TTS-систем.

Шаг 7 и 8.

7 — нажмите кнопку «Speak» и нейросеть озвучит ваш текст. 8 — нажмите кнопку «Download», чтобы скачать полученную запись.
7 — нажмите кнопку «Speak» и нейросеть озвучит ваш текст. 8 — нажмите кнопку «Download», чтобы скачать полученную запись.

А вот что у меня получилось в итоге:

В своей следующей статье я расскажу, как погрузить ребёнка в мир нейросетей, с чего лучше начать, и как не слить средства в пустую, поэтому подписывайтесь на канал и следите за моими новостями.

А если наберётся в реакциях 15 ❤, то выкачу инструкцию про то, как клонировать голос.

Полезные ссылки:

📎 Мой Telegram-канал (по вопросам сотрудничества пишите в сообщения канала)

4
19 комментариев