Microsoft выпустила ИИ-модель VibeVoice для генерации аудио и подкастов длиной до полутора часов

Компания выложила её бесплатную демоверсию и открытый исходный код.

  • Исследовательское подразделение Microsoft представило модель для создания аудио длиной до 90 минут по текстовым запросам — сценарию и прописанным репликам. Её позиционируют как генератор подкастов.
  • VibeVoice может добавить до четырёх персонажей в одну запись. Пока инструмент поддерживает английский и китайский языки.

Пример сгенерированного подкаста с фоновой музыкой.

Пример «эмоционального» разговора между двумя персонажами.

  • Компания выложила бесплатную демоверсию модели. В полученные результаты добавляют предупреждение, что аудио сгенерировала нейросеть.
Microsoft выпустила ИИ-модель VibeVoice для генерации аудио и подкастов длиной до полутора часов
  • Также доступны код и веса двух версий: VibeVoice-1.5B с контекстным окном в 64 тысячи токенов и длиной вывода до 90 минут и VibeVoice-7B — с контекстом в 32 тысячи токенов и выводом до 45 минут.
6
2
1
13 комментариев