ElevenLabs выпустила Flash v2.5 с «самой низкой задержкой» озвучивания текста среди моделей компании и поддержкой русского языка

Бесплатно можно ввести 10 тысяч знаков в месяц.

  • Новые модели Flash v2 и Flash v2.5 озвучивают текст за 75 миллисекунд, рассказали в компании. При этом v2 поддерживает только английский язык, а v2.5 — 32 языка, включая русский.
  • ElevenLabs предлагает использовать модели с низкой задержкой для создания голосовых помощников, которые смогут поддерживать «естественный ритм» диалога, и для озвучивания игровых персонажей.
  • Модель смогла сгенерировать аудио для 60 символов на русском языке меньше чем за две секунды, в видео можно послушать результат.
Скринкаст vc.ru
  • Найти ИИ-агента, который адаптирован для русского или других языков, можно в библиотеке голосов. В строке поиска нужно ввести язык и выбрать понравившийся голос из списка кнопкой Add.
Агенты, адаптированные для русского языка. Скриншот vc.ru
Агенты, адаптированные для русского языка. Скриншот vc.ru
  • Модель Flash можно протестировать на платформе ElevenLabs для создания ИИ-агентов (не доступно с российских IP-адресов). Бесплатно дают 10 тысяч кредитов в месяц. Платная подписка начинается от $5 в месяц (510 рублей по курсу ЦБ на 19 декабря 2024 года), в ней уже от 30 тысяч кредитов и лицензия на использование голосов в коммерческих целях.
  • ElevenLabs основали в 2022 году бывший ML-инженер Google Пётр Дабковски и бывший разработчик стратегий развёртывания Palantir Мати Станишевски. Стартап стал известен благодаря функции «нейродубляжа» видео на разные языки. В июне 2023 года его оценивали в $100 млн. В январе 2024 — в $1,1 млрд.
66
22
11
14 комментариев

Как раз недавно получил доступ к eleven labs :)

1

А как им воспользоваться, на каком сайте, подскажите, пожалуйста 🙏🏼

Звучит многообещающе, но пока это только начало. Хотелось бы увидеть больше информации о качестве голосов, особенно при длительном прослушивании. И как насчет эмоциональной окраски? Смогут ли модели передавать разные эмоции?

больше информации о качестве голосов, особенно при длительном прослушиванииА что при длительном прослушивании? Нейросеть не устает. Нейросеть не теряет качество на долгой дистанции

И как насчет эмоциональной окраски? Смогут ли модели передавать разные эмоции?Давно уже

Хорошо делают клон голоса, прям пугающе хорошо...

Прстите, а какое прикладное применение у этой херни. Вот балерина, которая крутит фуэте - к ней провод присобачь, будет ток производить. А это для чего?

Финальное физическое воплощение — портативный голосовой мгновенный переводчик с любого языка на любой.