Microsoft выпустила ИИ-модель VibeVoice для генерации аудио и подкастов длиной до полутора часов
Компания выложила её бесплатную демоверсию и открытый исходный код.
- Исследовательское подразделение Microsoft представило модель для создания аудио длиной до 90 минут по текстовым запросам — сценарию и прописанным репликам. Её позиционируют как генератор подкастов.
- VibeVoice может добавить до четырёх персонажей в одну запись. Пока инструмент поддерживает английский и китайский языки.
Пример сгенерированного подкаста с фоновой музыкой.
Пример «эмоционального» разговора между двумя персонажами.
- Компания выложила бесплатную демоверсию модели. В полученные результаты добавляют предупреждение, что аудио сгенерировала нейросеть.
13 комментариев