Инструменты для генерации музыки с помощью ИИ: обзор и сравнение
Искусственный интеллект активно внедряется во многие сферы. С помощью него можно сгенерировать текст, изображения, анимации, и даже музыку. В отдельной статье я сделаю сводку лучших инструментов для генерации контента разного формата, но сегодня остановимся на музыке. Надеюсь этот обзор поможет вам выбрать подходящий инструмент для ваших нужд.
Методология
Инструменты для генерации музыки с помощью ИИ тестировались на трех кейсах. Подготовлены три промпта со следующим прицелом:
- Демо: для генерации нейтрального аудио для демонстрации продукта (Промпт: “Background sound for a digital product demo. Light and calm music with a little bit of dynamics and excitement”).
- Соул: генерация трека в стиле соул с предзаданным текстом ( Промпт: “Light, calm soul music with a little bit of dynamics and excitement. Lyrics: If there was a boy I loved / I would try my best to not fall / Cuz when the sun is down / You never call”).
- Эпик: эпичный киношный трек для момента в фильме, когда погибает главный герой (Промпт: "Epic movie song for the moment when the key hero dies").
Протестированы 7 инструментов, но в обзор включены 5. Детали ниже.
Обзор инструментов
1. Udio
- Демо: Приятная музыка, но атмосферно не соответствует тематике запроса - демо цифрового продукта.
- Соул: Классно генерирует музыку с голосом.
- Эпик: Хорошая музыка, но не совсем то, чего хотелось. Скорее комментарий к промпту, необходимо его детализировать.
Общие замечания и впечатления:
- Генерирует сразу два трека, которые отличаются друг от друга.
- Есть дневной лимит - 6 треков по ~30 секунд в день бесплатно (3 запроса).
- Сгенерированные 30 секунд, можно продлить за счет кредитов.
- Высокая скорость генерации.
Наиболее интересные и понравившиеся примеры:
2. Suno
- Демо: Качественное аудио, но тематически не соответствует запросу.
- Соул: Отличные песни с голосом, соответствует жанру, голос у обоих треков очень похожий.
- Эпик: Нагенерировала много треков, все очень похожие, как будто это саундтрек к одному фильму, звучащий в разных отрезках фильма. Все треки получились с намеком на какую-то надежду. С помощью промта пыталась убрать надежду и добавить страданий, но все равно слушала с вайбом “ну умер главный герой, но все что не делается, всё к лучшему”
Общие замечания и впечатления:
- Генерирует сразу два трека, которые достаточно похожи друг на друга.
- Самый чистый звук.
- Постоянно есть чувство “где-то я это слышал” (больше чем у Udio).
- Продолжительность трека определяется автоматически: аудио продолжает генерироваться пока оно на воспроизведении. В какой-то момент музыка подходит к логическому завершению и генерация заканчивается.
- Часть треков с восточным, азиатским мотивом, что говорит о выборке для обучения модели.
- Высокая скорость генерации.
Наиболее интересные и понравившиеся примеры:
3. Stable Audio
- Демо: Лучше всего отвечает запросу, но музыка весьма примитивная.
- Соул: Не умеет генерировать вокал. Пытается, но слышен невнятный голосоподобный намек на текст.
- Эпик: Тихий похоронный трек с органом.
Общие замечания и впечатления:
- Качество и соответствие ожиданиям хуже первых двух опций.
- Скорость генерации ниже.
4. MusicGen
(от Meta - организации, запрещенной в России) https://huggingface.co/spaces/facebook/MusicGen
- Демо: Соответствует тематике запроса.
- Соул: Не умеет генерировать вокал.
- Эпик: Примитивная, но соответствующая жанру музыка.
Общие замечания и впечатления:
- Хорошо понимает жанр / тематику запроса, генерирует пока не очень хорошо.
- Скорость генерации высокая.
- Можно подгрузить свой аудио файл для примера.
- Это модель, а не готовый к использованию инструмент для генерации музыки (технология, не продукт). Можно сгенерировать треки по 15 секунд или разместить модель на своих мощностях.
5. Mubert
- Демо: Нормальная музыка, но не соответствует тематике запроса, ушел в этно.
- Соул: Нет опции сгенерировать аудио с текстом.
- Эпик: Совсем не соответствует эпичности момента гибели главного героя.
Общие замечания и впечатления:
- Качество и соответствие ожиданиям хуже первых двух опций, иногда слышен момент “склейки”.
- Можно указать продолжительность трека.
- В бесплатном режиме каждые 10-15 секунд женский голос громко говорит “Mubert” (звуковой watermark).
Другие протестированные решения
- Loudly - http://loudly.com
- Soundraw - http://soundraw.io
Музыка генерируется не на основе промпта, а на основе выбора жанра, продолжительности и других характеристик аудио. Нам была интересна именно генерация по промпту, поэтому не берем в сравнение.
Общее впечатление и выводы
- Лучшие инструменты для генерации музыки: Udio и Suno. Порой качество генерации было такое хорошее, что не хотелось выключать трек.
- Udio показался поинтереснее, поразнообразнее. Suno - лучшее качество звука и более понятный интерфейс.
- Инструменты можно протестировать бесплатно.
- Если у вас есть конкретное видение результата - работать с ИИ генерацией будет непросто, она скорее подойдет для ситуаций, когда точно не знаешь чего хочешь.
Бонусное замечание
Suno и Udio умеют генерировать вокал на русском языке, но порой косячат с ударениями и акцентами в речи. Но самое интересное - подбор жанра становится странноватеньким :)
Попросила сгенерировать колыбельную про экскаватор для ребенка. Вот результаты (выбрала наиболее забавные):
В своем телеграм-канале пишу про no-code, ИИ и другие технологии, которые делают нашу жизнь проще :)