ElevenLabs выпустила Flash v2.5 с «самой низкой задержкой» озвучивания текста среди моделей компании и поддержкой русского языка

Бесплатно можно ввести 10 тысяч знаков в месяц.

  • Новые модели Flash v2 и Flash v2.5 озвучивают текст за 75 миллисекунд, рассказали в компании. При этом v2 поддерживает только английский язык, а v2.5 — 32 языка, включая русский.
  • ElevenLabs предлагает использовать модели с низкой задержкой для создания голосовых помощников, которые смогут поддерживать «естественный ритм» диалога, и для озвучивания игровых персонажей.
  • Модель смогла сгенерировать аудио для 60 символов на русском языке меньше чем за две секунды, ниже можно послушать результат.
Скринкаст vc.ru
  • Найти ИИ-агента, который адаптирован для русского или других языков, можно в библиотеке голосов. В строке поиска нужно ввести язык и выбрать понравившийся голос из списка кнопкой Add.
Агенты, адаптированные для русского языка. Скриншот vc.ru
Агенты, адаптированные для русского языка. Скриншот vc.ru
  • Модель Flash можно протестировать на платформе ElevenLabs для создания ИИ-агентов (не доступно с российских IP-адресов). Бесплатно дают 10 тысяч кредитов в месяц. Платная подписка начинается от $5 в месяц (510 рублей по курсу ЦБ на 19 декабря 2024 года), в ней уже от 30 тысяч кредитов и лицензия на использование голосов в коммерческих целях.
  • ElevenLabs основали в 2022 году бывший ML-инженер Google Пётр Дабковски и бывший разработчик стратегий развёртывания Palantir Мати Станишевски. Стартап стал известен благодаря функции «нейродубляжа» видео на разные языки. В июне 2023 года его оценивали в $100 млн. В январе 2024 — в $1,1 млрд.
99
55
11
36 комментариев

Как раз недавно получил доступ к eleven labs :)

1

А как им воспользоваться, на каком сайте, подскажите, пожалуйста 🙏🏼

я тут позвонил в МТС... минут 40 общался с тупым и тормозным голосовым помошником

1

Звучит многообещающе, но пока это только начало. Хотелось бы увидеть больше информации о качестве голосов, особенно при длительном прослушивании. И как насчет эмоциональной окраски? Смогут ли модели передавать разные эмоции?

Полезно было бы использовать такие технологии, например для создания аудиокниг или озвучивания мультфильмов. Судя по тому, как ИИ развивается, мы еще и не такое увидим))

1

больше информации о качестве голосов, особенно при длительном прослушиванииА что при длительном прослушивании? Нейросеть не устает. Нейросеть не теряет качество на долгой дистанции

И как насчет эмоциональной окраски? Смогут ли модели передавать разные эмоции?Давно уже

Прстите, а какое прикладное применение у этой херни. Вот балерина, которая крутит фуэте - к ней провод присобачь, будет ток производить. А это для чего?