Инструменты для генерации музыки с помощью ИИ: обзор и сравнение

Искусственный интеллект активно внедряется во многие сферы. С помощью него можно сгенерировать текст, изображения, анимации, и даже музыку. В отдельной статье я сделаю сводку лучших инструментов для генерации контента разного формата, но сегодня остановимся на музыке. Надеюсь этот обзор поможет вам выбрать подходящий инструмент для ваших нужд.

Методология

Инструменты для генерации музыки с помощью ИИ тестировались на трех кейсах. Подготовлены три промпта со следующим прицелом:

  • Демо: для генерации нейтрального аудио для демонстрации продукта (Промпт: “Background sound for a digital product demo. Light and calm music with a little bit of dynamics and excitement”).
  • Соул: генерация трека в стиле соул с предзаданным текстом ( Промпт: “Light, calm soul music with a little bit of dynamics and excitement. Lyrics: If there was a boy I loved / I would try my best to not fall / Cuz when the sun is down / You never call”).
  • Эпик: эпичный киношный трек для момента в фильме, когда погибает главный герой (Промпт: "Epic movie song for the moment when the key hero dies").

Протестированы 7 инструментов, но в обзор включены 5. Детали ниже.

Обзор инструментов

1. Udio

  1. Демо: Приятная музыка, но атмосферно не соответствует тематике запроса - демо цифрового продукта.
  2. Соул: Классно генерирует музыку с голосом.
  3. Эпик: Хорошая музыка, но не совсем то, чего хотелось. Скорее комментарий к промпту, необходимо его детализировать.

Общие замечания и впечатления:

  • Генерирует сразу два трека, которые отличаются друг от друга.
  • Есть дневной лимит - 6 треков по ~30 секунд в день бесплатно (3 запроса).
  • Сгенерированные 30 секунд, можно продлить за счет кредитов.
  • Высокая скорость генерации.

Наиболее интересные и понравившиеся примеры:

2. Suno

  1. Демо: Качественное аудио, но тематически не соответствует запросу.
  2. Соул: Отличные песни с голосом, соответствует жанру, голос у обоих треков очень похожий.
  3. Эпик: Нагенерировала много треков, все очень похожие, как будто это саундтрек к одному фильму, звучащий в разных отрезках фильма. Все треки получились с намеком на какую-то надежду. С помощью промта пыталась убрать надежду и добавить страданий, но все равно слушала с вайбом “ну умер главный герой, но все что не делается, всё к лучшему”

Общие замечания и впечатления:

  • Генерирует сразу два трека, которые достаточно похожи друг на друга.
  • Самый чистый звук.
  • Постоянно есть чувство “где-то я это слышал” (больше чем у Udio).
  • Продолжительность трека определяется автоматически: аудио продолжает генерироваться пока оно на воспроизведении. В какой-то момент музыка подходит к логическому завершению и генерация заканчивается.
  • Часть треков с восточным, азиатским мотивом, что говорит о выборке для обучения модели.
  • Высокая скорость генерации.

Наиболее интересные и понравившиеся примеры:

3. Stable Audio

  • Демо: Лучше всего отвечает запросу, но музыка весьма примитивная.
  • Соул: Не умеет генерировать вокал. Пытается, но слышен невнятный голосоподобный намек на текст.
  • Эпик: Тихий похоронный трек с органом.

Общие замечания и впечатления:

  • Качество и соответствие ожиданиям хуже первых двух опций.
  • Скорость генерации ниже.

4. MusicGen

(от Meta - организации, запрещенной в России) https://huggingface.co/spaces/facebook/MusicGen

  1. Демо: Соответствует тематике запроса.
  2. Соул: Не умеет генерировать вокал.
  3. Эпик: Примитивная, но соответствующая жанру музыка.

Общие замечания и впечатления:

  • Хорошо понимает жанр / тематику запроса, генерирует пока не очень хорошо.
  • Скорость генерации высокая.
  • Можно подгрузить свой аудио файл для примера.
  • Это модель, а не готовый к использованию инструмент для генерации музыки (технология, не продукт). Можно сгенерировать треки по 15 секунд или разместить модель на своих мощностях.

5. Mubert

  • Демо: Нормальная музыка, но не соответствует тематике запроса, ушел в этно.
  • Соул: Нет опции сгенерировать аудио с текстом.
  • Эпик: Совсем не соответствует эпичности момента гибели главного героя.

Общие замечания и впечатления:

  • Качество и соответствие ожиданиям хуже первых двух опций, иногда слышен момент “склейки”.
  • Можно указать продолжительность трека.
  • В бесплатном режиме каждые 10-15 секунд женский голос громко говорит “Mubert” (звуковой watermark).

Другие протестированные решения

  • Loudly - http://loudly.com
  • Soundraw - http://soundraw.io

Музыка генерируется не на основе промпта, а на основе выбора жанра, продолжительности и других характеристик аудио. Нам была интересна именно генерация по промпту, поэтому не берем в сравнение.

Общее впечатление и выводы

  • Лучшие инструменты для генерации музыки: Udio и Suno. Порой качество генерации было такое хорошее, что не хотелось выключать трек.
  • Udio показался поинтереснее, поразнообразнее. Suno - лучшее качество звука и более понятный интерфейс.
  • Инструменты можно протестировать бесплатно.
  • Если у вас есть конкретное видение результата - работать с ИИ генерацией будет непросто, она скорее подойдет для ситуаций, когда точно не знаешь чего хочешь.

Бонусное замечание

Suno и Udio умеют генерировать вокал на русском языке, но порой косячат с ударениями и акцентами в речи. Но самое интересное - подбор жанра становится странноватеньким :)

Попросила сгенерировать колыбельную про экскаватор для ребенка. Вот результаты (выбрала наиболее забавные):

В своем телеграм-канале пишу про no-code, ИИ и другие технологии, которые делают нашу жизнь проще :)

6 комментариев