Stability AI выпустила модель Stable Audio для генерации музыки

Есть бесплатная версия.

Stable Audio — диффузионная модель, которая генерирует аудиозаписи по текстовым запросам, рассказала Stability AI. Её обучали на дата-сете из текстовых метаданных и более чем 800 тысяч аудиофайлов с готовыми композициями, звуковыми эффектами и инструментальными партиями общей длительностью свыше 19,5 тысячи часов.
Данные для обучения компании предоставила AudioSparx — она владеет библиотекой музыки для коммерческих целей. Это значит, что Stability AI получила право на использование защищённого копирайтом контента, пишет The Verge.
Пользователям предлагают три тарифа. Первый — бесплатный: можно генерировать по 20 фрагментов в месяц длиной не более 45 секунд. Профессиональный обойдётся в $11,99 в месяц без учёта налогов и позволит генерировать 500 треков в месяц продолжительностью по полторы минуты. Условия корпоративного тарифа обговариваются в индивидуальном порядке.
Использовать сгенерированные композиции в коммерческих проектах могут только платные подписчики. Тренировать свои ИИ-модели на полученных треках также запрещено.

Так выглядит интерфейс генератора. Редактор vc.ru попытался создать мелодию, но из-за высокой нагрузки на сервер система неоднократно выдавала ошибку и так и не воспроизвела трек

В пользовательской справке Stability AI уточняет, что с помощью Stable Audio можно создавать не только полноценные композиции, но также отдельные инструментальные партии и звуковые эффекты.

Компания не первая, кто создаёт подобные нейросети: например, OpenAI представила модель Jukebox в 2020 году, а у Google есть AudioML для создания мелодий на основе звуковых подсказок и MusicLM для генерации музыки по текстовому описанию.
Meta (запрещена в России) выпустила генератор музыки MusicGen в июне 2023-го, а в августе представила AudioCraft — модель для создания звуков и эффектов окружающей среды.

#новость #stabilityai