Ася Карпова

Microsoft выпустила ИИ-модель VibeVoice для генерации аудио и подкастов длиной до полутора часов

Компания выложила её бесплатную демоверсию и открытый исходный код.

Исследовательское подразделение Microsoft представило модель для создания аудио длиной до 90 минут по текстовым запросам — сценарию и прописанным репликам. Её позиционируют как генератор подкастов.
VibeVoice может добавить до четырёх персонажей в одну запись. Пока инструмент поддерживает английский и китайский языки.

Пример сгенерированного подкаста с фоновой музыкой.

Пример «эмоционального» разговора между двумя персонажами.

Компания выложила бесплатную демоверсию модели. В полученные результаты добавляют предупреждение, что аудио сгенерировала нейросеть.

Microsoft выпустила ИИ-модель VibeVoice для генерации аудио и подкастов длиной до полутора часов

Также доступны код и веса двух версий: VibeVoice-1.5B с контекстным окном в 64 тысячи токенов и длиной вывода до 90 минут и VibeVoice-7B — с контекстом в 32 тысячи токенов и выводом до 45 минут.

#новости #microsoft

6

2

1

13 комментариев