Инструменты для генерации музыки с помощью ИИ: обзор и сравнение

Искусственный интеллект активно внедряется во многие сферы. С помощью него можно сгенерировать текст, изображения, анимации, и даже музыку. В отдельной статье я сделаю сводку лучших инструментов для генерации контента разного формата, но сегодня остановимся на музыке. Надеюсь этот обзор поможет вам выбрать подходящий инструмент для ваших нужд.

Инструменты для генерации музыки с помощью ИИ тестировались на трех кейсах. Подготовлены три промпта со следующим прицелом:

Демо: для генерации нейтрального аудио для демонстрации продукта (Промпт: “Background sound for a digital product demo. Light and calm music with a little bit of dynamics and excitement”).
Соул: генерация трека в стиле соул с предзаданным текстом ( Промпт: “Light, calm soul music with a little bit of dynamics and excitement. Lyrics: If there was a boy I loved / I would try my best to not fall / Cuz when the sun is down / You never call”).
Эпик: эпичный киношный трек для момента в фильме, когда погибает главный герой (Промпт: "Epic movie song for the moment when the key hero dies").

Протестированы 7 инструментов, но в обзор включены 5. Детали ниже.

https://www.udio.com/

Демо: Приятная музыка, но атмосферно не соответствует тематике запроса - демо цифрового продукта.
Соул: Классно генерирует музыку с голосом.
Эпик: Хорошая музыка, но не совсем то, чего хотелось. Скорее комментарий к промпту, необходимо его детализировать.

Общие замечания и впечатления:

Генерирует сразу два трека, которые отличаются друг от друга.
Есть дневной лимит - 6 треков по ~30 секунд в день бесплатно (3 запроса).
Сгенерированные 30 секунд, можно продлить за счет кредитов.
Высокая скорость генерации.

Наиболее интересные и понравившиеся примеры:

https://suno.com/

Демо: Качественное аудио, но тематически не соответствует запросу.
Соул: Отличные песни с голосом, соответствует жанру, голос у обоих треков очень похожий.
Эпик: Нагенерировала много треков, все очень похожие, как будто это саундтрек к одному фильму, звучащий в разных отрезках фильма. Все треки получились с намеком на какую-то надежду. С помощью промта пыталась убрать надежду и добавить страданий, но все равно слушала с вайбом “ну умер главный герой, но все что не делается, всё к лучшему”

Общие замечания и впечатления:

Генерирует сразу два трека, которые достаточно похожи друг на друга.
Самый чистый звук.
Постоянно есть чувство “где-то я это слышал” (больше чем у Udio).
Продолжительность трека определяется автоматически: аудио продолжает генерироваться пока оно на воспроизведении. В какой-то момент музыка подходит к логическому завершению и генерация заканчивается.
Часть треков с восточным, азиатским мотивом, что говорит о выборке для обучения модели.
Высокая скорость генерации.

Наиболее интересные и понравившиеся примеры:

https://www.stableaudio.com

Демо: Лучше всего отвечает запросу, но музыка весьма примитивная.
Соул: Не умеет генерировать вокал. Пытается, но слышен невнятный голосоподобный намек на текст.
Эпик: Тихий похоронный трек с органом.

Общие замечания и впечатления:

Качество и соответствие ожиданиям хуже первых двух опций.
Скорость генерации ниже.

(от Meta - организации, запрещенной в России) https://huggingface.co/spaces/facebook/MusicGen

Демо: Соответствует тематике запроса.
Соул: Не умеет генерировать вокал.
Эпик: Примитивная, но соответствующая жанру музыка.

Общие замечания и впечатления:

Хорошо понимает жанр / тематику запроса, генерирует пока не очень хорошо.
Скорость генерации высокая.
Можно подгрузить свой аудио файл для примера.
Это модель, а не готовый к использованию инструмент для генерации музыки (технология, не продукт). Можно сгенерировать треки по 15 секунд или разместить модель на своих мощностях.

http://mubert.com

Демо: Нормальная музыка, но не соответствует тематике запроса, ушел в этно.
Соул: Нет опции сгенерировать аудио с текстом.
Эпик: Совсем не соответствует эпичности момента гибели главного героя.

Общие замечания и впечатления:

Качество и соответствие ожиданиям хуже первых двух опций, иногда слышен момент “склейки”.
Можно указать продолжительность трека.
В бесплатном режиме каждые 10-15 секунд женский голос громко говорит “Mubert” (звуковой watermark).

Loudly - http://loudly.com
Soundraw - http://soundraw.io

Музыка генерируется не на основе промпта, а на основе выбора жанра, продолжительности и других характеристик аудио. Нам была интересна именно генерация по промпту, поэтому не берем в сравнение.

Лучшие инструменты для генерации музыки: Udio и Suno. Порой качество генерации было такое хорошее, что не хотелось выключать трек.
Udio показался поинтереснее, поразнообразнее. Suno - лучшее качество звука и более понятный интерфейс.
Инструменты можно протестировать бесплатно.
Если у вас есть конкретное видение результата - работать с ИИ генерацией будет непросто, она скорее подойдет для ситуаций, когда точно не знаешь чего хочешь.

Suno и Udio умеют генерировать вокал на русском языке, но порой косячат с ударениями и акцентами в речи. Но самое интересное - подбор жанра становится странноватеньким :)

Попросила сгенерировать колыбельную про экскаватор для ребенка. Вот результаты (выбрала наиболее забавные):

В своем телеграм-канале пишу про no-code, ИИ и другие технологии, которые делают нашу жизнь проще :)

Инструменты для генерации музыки с помощью ИИ: обзор и сравнение

Методология

Обзор инструментов

1. Udio

2. Suno

3. Stable Audio

4. MusicGen

5. Mubert

Другие протестированные решения

Общее впечатление и выводы

Бонусное замечание