🎙 Cartesia выкатили Sonic 3 — новый генератор речи. И о том, как им пользоваться.
Sonic-3 — новый уровень в генерации речи. В отличие от классических моделей на базе трансформеров, которые каждый раз пересчитывают весь контекст, Sonic-3 использует архитектуру State Space Models (SSM). Она запоминает состояние диалога, поэтому отвечает мгновенно и естественно, без «роботизированных» пауз.
Если объяснить просто: трансформер каждый раз пересчитывает весь контекст перед тем, как предсказать следующее слово; А SSM хранит “состояние” — своего рода память о предыдущем контексте — и продолжает обработку с этого состояния, не возвращаясь назад.
На какие преимущества я обратил внимание:
1. Живое звучание. Модель передаёт эмоции, смех, дыхание и реакцию на собеседника.
2. Скорость. Задержка — всего около 0,19 сек от текста до готового звука. Средняя латентность — 90 мс для модели и 190 мс end-to-end, что быстрее, чем у конкурентов.
3. Мультиязычность. Поддержка 42 языков, включая русский.
4. Интеллект контекста. Корректно произносит акронимы (NASA, UNESCO), чувствует настроение и ритм.
5 Доступность: Sonic-3 уже доступен всем пользователям, включая Россию.
6. Бесплатно дают 30 000 кредитов — хватит, чтобы протестировать модель и использовать её для личных проектов.
Кроме того, Sonic-3 может клонировать голоса, создавая фирменное звучание бренда или персонажа. Модель легко масштабируется, поддерживает потоковую генерацию и справляется с миллионами запросов одновременно без потери качества.
Минимальный платный план обойдётся всего от 5$
Инструкция по использованию Sonic-3 для начинающих.
Переходим на сайт CartesiaAi
Шаг 1.
Шаг 2.
Нейросеть понимает 42 языка включая русский, поэтому текст можно писать на русском, а вот все дополнительные задачи и подсказки указываются только на английском.
Вначале абзаца можно задать основное настроение, а также добавить дополнительных эмоций и реакций.
— это основная эмоция, в нашем примере мы видим слово "excited" означающее в переводи с английского "взволнованный", соответственно на этом месте можно прописать любую другую эмоцию на английском языке. [happy] — это дополнительная эмоция и реакция, вы также можете выбрать любую, главное поместите её в квадратные скобки.
Обратите внимание, как эти команды выделяются цветом на моём примере, у вас должно произойти в момент, как вы её закончите писать. Если де этого не произошло, и надпись осталась простой белой, значит в вашей команде содержится ошибка.
Шаг 3.
Шаг 4 и 5.
Шаг 6.
Благодаря этому Sonic-3 создаёт живые интонации, которые звучат естественно, без цифровой искусственности, характерной для стандартных TTS-систем.
Шаг 7 и 8.
А вот что у меня получилось в итоге:
В своей следующей статье я расскажу, как погрузить ребёнка в мир нейросетей, с чего лучше начать, и как не слить средства в пустую, поэтому подписывайтесь на канал и следите за моими новостями.
А если наберётся в реакциях 15 ❤, то выкачу инструкцию про то, как клонировать голос.
Полезные ссылки:
📎 Мой Telegram-канал (по вопросам сотрудничества пишите в сообщения канала)