1 апр 2023 1.04.2023

Как искусственный интеллект изменит музыкальную индустрию

Чтобы сгенерировать музыку с помощью искусственного интеллекта, нужно разобраться в тонкостях преобразования текста в аудио. Во время подготовки к Web3Day программисты нам рассказывали о скрытой диффузии и роботах, генерирующих звуковые волны.

Art Collecting

Не попробуешь — не поймешь, но в XXI веке лучше разобраться, что может натворить искусственный интеллект по одной лишь команде.

Регистрация на Web3 Day: https://conf.artcollecting.info

Индустрия музыки и звуковых эффектов еще не до конца осознала масштабы приближающейся бури. В марте были представлены четыре звуковые модели, которые позволят генерировать мелодии. Если 2022 год был год пикселей для генеративного ИИ, то 2023 станет годом звуковых волн. Это сказал Джим Фан, инженер NVIDIA AI.
MusicLM от @GoogleAI — это иерархическая модель преобразования текста в аудио, которая генерирует музыку на частоте 24 кГц. Частота остается неизменной в течение нескольких минут. MusicLM опирается на 3 ключевых предварительно обученных модуля: SoundStream, w2v-BERT и MuLan. 1.1.
MuLan особенно интересен — это CLIP-подобная модель, которая учится кодировать парные аудио и текст. MuLan помогает решить проблему ограниченности парных данных — теперь MusicLM может учиться.
Google также публично выпускает MusicCaps, набор данных из 5,5 тыс. пар музыка-текст.
SingSong, умное приложение, сопоставляет поющий голос с музыкальным сопровождением. Теперь у вас есть собственная группа!
Трансформеры могут преобразовать один mp3 в другой mp3. Но нужно сделать аудио-пространственный перевод.
Moûsai, еще одна генеративная модель преобразования текста в музыку, использующая скрытую диффузию. Да, это та же технология, что и в Stable Diffusion! Использование скрытой диффузии хорошо подходит для работы с более длинным контекстом, при этом сохраняется эффективность.
Текстовое приглашение кодируется предварительно обученной и замороженной языковой моделью для встраивания текста. В зависимости от текста модель генерирует сжатый латентный сигнал с помощью диффузионного генератора, который затем преобразуется в окончательную форму волны с помощью диффузионного декодера.
Moûsai может генерировать минуты высококачественной стереомузыки на частоте 48 кГц из субтитров.
AudioLDM: модель скрытого распространения для генерации звука. Подобно MusicLM от Google, она обучает контрастную модель аудио-текста в стиле CLIP, называемую CLAP, для обеспечения высококачественного встраивания.
В демо AudioLDM не только музыка, но и звуковые эффекты, например, «Два космических челнока дерутся в космосе».
Маловероятно, что какая-либо из этих моделей заменит живых музыкантов и авторов спецэффектов. Скорее, ИИ изменит индустрию, сделав авторов более продуктивными.

299 показов

62 открытия

Комментарии

Написать комментарий...

-3 комментариев

Раскрывать всегда