Meta* выпустила генератор музыки по текстовому описанию с открытым кодом

Он называется MusicGen. Протестировать демоверсию можно на хостинге Hugging Face.

Один из инженеров-разработчиков Meta* рассказал об этом в Twitter 9 июня 2023 года. СМИ, среди которых TechCrunch, Engadget, Gizmodo и Mashable, обратили внимание на релиз 12 июня.
Нейросеть обучали на 20 тысячах часов музыки — это 10 тысяч лицензированных песен, а также 390 тысяч инструментальных композиций из медиабиблиотек ShutterStock и Pond5. Она может генерировать фрагменты как по описанию, так и с учётом звучания уже существующих песен.
Репозиторий доступен на GitHub. Код, который использовали для обучения, выложат позже. Пока там размещены только предобученные модели, которые можно запустить на процессорах с GPU на 16 ГБ памяти. Их четыре штуки: с 300 млн, 1,5 млрд и 3,3 млрд параметров для генерации по описанию и модель с 1,5 млрд параметров, которая, помимо текста, умеет учитывать ещё и конкретную мелодию.
Meta* не первая, кто создаёт подобные нейросети: OpenAI представила модель Jukebox в 2020 году, а у Google есть нейросеть для генерации мелодий на основе звуковых подсказок AudioML и ИИ-модель MusicLM, подобная MusicGen.
Редактор TechCrunch признал, что продукт Meta*, возможно, «даже немного лучше» нейросети от Google. Преимущества MusicGen отметило также издание The Decoder. Ниже — два примера для сравнения.

Запрос “jazzy elevator music” («джазовая музыка для поездки в лифте»)

Запрос “Lo-fi slow BPM electro chill with organic samples” («"чилл"-электроника, Lo-Fi с низкой частотой ударов в минуту и семплами органа»)

*Meta признана в России экстремистской организацией и запрещена.

#новость