🎙 Cartesia выкатили Sonic 3 — новый генератор речи. И о том, как им пользоваться.

Модель клонирует голос по нескольким секундам аудио, передаёт эмоции и работает почти без задержки — около 190 мс, а это быстрее большинства конкурентов

Sonic-3 — новый уровень в генерации речи. В отличие от классических моделей на базе трансформеров, которые каждый раз пересчитывают весь контекст, Sonic-3 использует архитектуру State Space Models (SSM). Она запоминает состояние диалога, поэтому отвечает мгновенно и естественно, без «роботизированных» пауз.

SSM — это тип архитектуры нейросетей, который был создан как альтернатива трансформерам, чтобы быстрее и эффективнее обрабатывать последовательности (например, речь, текст, звук или видео)

Если объяснить просто: трансформер каждый раз пересчитывает весь контекст перед тем, как предсказать следующее слово; А SSM хранит “состояние” — своего рода память о предыдущем контексте — и продолжает обработку с этого состояния, не возвращаясь назад.

🎙 Cartesia выкатили Sonic 3 — новый генератор речи. И о том, как им пользоваться.

1. Живое звучание. Модель передаёт эмоции, смех, дыхание и реакцию на собеседника.

2. Скорость. Задержка — всего около 0,19 сек от текста до готового звука. Средняя латентность — 90 мс для модели и 190 мс end-to-end, что быстрее, чем у конкурентов.

3. Мультиязычность. Поддержка 42 языков, включая русский.

4. Интеллект контекста. Корректно произносит акронимы (NASA, UNESCO), чувствует настроение и ритм.

5 Доступность: Sonic-3 уже доступен всем пользователям, включая Россию.

6. Бесплатно дают 30 000 кредитов — хватит, чтобы протестировать модель и использовать её для личных проектов.

Кроме того, Sonic-3 может клонировать голоса, создавая фирменное звучание бренда или персонажа. Модель легко масштабируется, поддерживает потоковую генерацию и справляется с миллионами запросов одновременно без потери качества.

Минимальный платный план обойдётся всего от 5$

Бьюсь скорлупой, которой уже не осталось об микрофон, что после моей инструкции генерировать сможет каждый!

Переходим на сайт CartesiaAi

Шаг 1.

Выполняем вход наиболее удобным для вас способом, я сам делал через Google-аккаунт.

Шаг 2.

Перед вами открылся рабочий интерфейс, в котором вы пишите свой текст.

Нейросеть понимает 42 языка включая русский, поэтому текст можно писать на русском, а вот все дополнительные задачи и подсказки указываются только на английском.

Вначале абзаца можно задать основное настроение, а также добавить дополнительных эмоций и реакций.

— это основная эмоция, в нашем примере мы видим слово "excited" означающее в переводи с английского "взволнованный", соответственно на этом месте можно прописать любую другую эмоцию на английском языке. [happy] — это дополнительная эмоция и реакция, вы также можете выбрать любую, главное поместите её в квадратные скобки.

Обратите внимание, как эти команды выделяются цветом на моём примере, у вас должно произойти в момент, как вы её закончите писать. Если де этого не произошло, и надпись осталась простой белой, значит в вашей команде содержится ошибка.

Шаг 3.

Подберите подходящий голос — в Sonic-3 доступен выбор мужских и женских вариантов с различными тембрами и манерой произношения.

Шаг 4 и 5.

4 — нажимаем на кнопку с фильтром, 5 — выбираем язык озвучки, а затем выбираем голос из полученного списка и нажимаем на него.

Шаг 6.

Отрегулируйте параметры синтеза речи. После выбора голоса можно задать скорость, громкость и даже эмоциональный оттенок звучания — радостный, грустный, удивлённый или с элементами смеха.

Благодаря этому Sonic-3 создаёт живые интонации, которые звучат естественно, без цифровой искусственности, характерной для стандартных TTS-систем.

Шаг 7 и 8.

7 — нажмите кнопку «Speak» и нейросеть озвучит ваш текст. 8 — нажмите кнопку «Download», чтобы скачать полученную запись.

А вот что у меня получилось в итоге:

В своей следующей статье я расскажу, как погрузить ребёнка в мир нейросетей, с чего лучше начать, и как не слить средства в пустую, поэтому подписывайтесь на канал и следите за моими новостями.

А если наберётся в реакциях 15 ❤, то выкачу инструкцию про то, как клонировать голос.

📎 Нейросеть CartesiaAI

📎 Мой Telegram-канал (по вопросам сотрудничества пишите в сообщения канала)

🎙 Cartesia выкатили Sonic 3 — новый генератор речи. И о том, как им пользоваться.

На какие преимущества я обратил внимание:

Инструкция по использованию Sonic-3 для начинающих.

Полезные ссылки: