Инструменты для генерации музыки с помощью ИИ: обзор и сравнение

Искусственный интеллект активно внедряется во многие сферы. С помощью него можно сгенерировать текст, изображения, анимации, и даже музыку. В отдельной статье я сделаю сводку лучших инструментов для генерации контента разного формата, но сегодня остановимся на музыке. Надеюсь этот обзор поможет вам выбрать подходящий инструмент для ваших нужд.

Методология

Инструменты для генерации музыки с помощью ИИ тестировались на трех кейсах. Подготовлены три промпта со следующим прицелом:

  • Демо: для генерации нейтрального аудио для демонстрации продукта (Промпт: “Background sound for a digital product demo. Light and calm music with a little bit of dynamics and excitement”).
  • Соул: генерация трека в стиле соул с предзаданным текстом ( Промпт: “Light, calm soul music with a little bit of dynamics and excitement. Lyrics: If there was a boy I loved / I would try my best to not fall / Cuz when the sun is down / You never call”).
  • Эпик: эпичный киношный трек для момента в фильме, когда погибает главный герой (Промпт: "Epic movie song for the moment when the key hero dies").

Протестированы 7 инструментов, но в обзор включены 5. Детали ниже.

Обзор инструментов

1. Udio

  1. Демо: Приятная музыка, но атмосферно не соответствует тематике запроса - демо цифрового продукта.
  2. Соул: Классно генерирует музыку с голосом.
  3. Эпик: Хорошая музыка, но не совсем то, чего хотелось. Скорее комментарий к промпту, необходимо его детализировать.

Общие замечания и впечатления:

  • Генерирует сразу два трека, которые отличаются друг от друга.
  • Есть дневной лимит - 6 треков по ~30 секунд в день бесплатно (3 запроса).
  • Сгенерированные 30 секунд, можно продлить за счет кредитов.
  • Высокая скорость генерации.

Наиболее интересные и понравившиеся примеры:

2. Suno

  1. Демо: Качественное аудио, но тематически не соответствует запросу.
  2. Соул: Отличные песни с голосом, соответствует жанру, голос у обоих треков очень похожий.
  3. Эпик: Нагенерировала много треков, все очень похожие, как будто это саундтрек к одному фильму, звучащий в разных отрезках фильма. Все треки получились с намеком на какую-то надежду. С помощью промта пыталась убрать надежду и добавить страданий, но все равно слушала с вайбом “ну умер главный герой, но все что не делается, всё к лучшему”

Общие замечания и впечатления:

  • Генерирует сразу два трека, которые достаточно похожи друг на друга.
  • Самый чистый звук.
  • Постоянно есть чувство “где-то я это слышал” (больше чем у Udio).
  • Продолжительность трека определяется автоматически: аудио продолжает генерироваться пока оно на воспроизведении. В какой-то момент музыка подходит к логическому завершению и генерация заканчивается.
  • Часть треков с восточным, азиатским мотивом, что говорит о выборке для обучения модели.
  • Высокая скорость генерации.

Наиболее интересные и понравившиеся примеры:

3. Stable Audio

  • Демо: Лучше всего отвечает запросу, но музыка весьма примитивная.
  • Соул: Не умеет генерировать вокал. Пытается, но слышен невнятный голосоподобный намек на текст.
  • Эпик: Тихий похоронный трек с органом.

Общие замечания и впечатления:

  • Качество и соответствие ожиданиям хуже первых двух опций.
  • Скорость генерации ниже.

4. MusicGen

(от Meta - организации, запрещенной в России) https://huggingface.co/spaces/facebook/MusicGen

  1. Демо: Соответствует тематике запроса.
  2. Соул: Не умеет генерировать вокал.
  3. Эпик: Примитивная, но соответствующая жанру музыка.

Общие замечания и впечатления:

  • Хорошо понимает жанр / тематику запроса, генерирует пока не очень хорошо.
  • Скорость генерации высокая.
  • Можно подгрузить свой аудио файл для примера.
  • Это модель, а не готовый к использованию инструмент для генерации музыки (технология, не продукт). Можно сгенерировать треки по 15 секунд или разместить модель на своих мощностях.

5. Mubert

  • Демо: Нормальная музыка, но не соответствует тематике запроса, ушел в этно.
  • Соул: Нет опции сгенерировать аудио с текстом.
  • Эпик: Совсем не соответствует эпичности момента гибели главного героя.

Общие замечания и впечатления:

  • Качество и соответствие ожиданиям хуже первых двух опций, иногда слышен момент “склейки”.
  • Можно указать продолжительность трека.
  • В бесплатном режиме каждые 10-15 секунд женский голос громко говорит “Mubert” (звуковой watermark).

Другие протестированные решения

  • Loudly - http://loudly.com
  • Soundraw - http://soundraw.io

Музыка генерируется не на основе промпта, а на основе выбора жанра, продолжительности и других характеристик аудио. Нам была интересна именно генерация по промпту, поэтому не берем в сравнение.

Общее впечатление и выводы

  • Лучшие инструменты для генерации музыки: Udio и Suno. Порой качество генерации было такое хорошее, что не хотелось выключать трек.
  • Udio показался поинтереснее, поразнообразнее. Suno - лучшее качество звука и более понятный интерфейс.
  • Инструменты можно протестировать бесплатно.
  • Если у вас есть конкретное видение результата - работать с ИИ генерацией будет непросто, она скорее подойдет для ситуаций, когда точно не знаешь чего хочешь.

Бонусное замечание

Suno и Udio умеют генерировать вокал на русском языке, но порой косячат с ударениями и акцентами в речи. Но самое интересное - подбор жанра становится странноватеньким :)

Попросила сгенерировать колыбельную про экскаватор для ребенка. Вот результаты (выбрала наиболее забавные):

В своем телеграм-канале пишу про no-code, ИИ и другие технологии, которые делают нашу жизнь проще :)

6 комментариев

в суно можно исправлять ударения путем разделения слов на слоги, либо дублированием ударных букв

1
Ответить
Автор

О, круто! Спасибо, буду знать

Ответить

У нас в коллективе сотрудник генерирует для каждого коллеги песенки и слушайте, мне нравится, очень классно соображает ии!

1
Ответить

блин, так круто ,можно попробовать самому сгенерировать трек в качестве того же поздравления коллегам или друзьям , за это мне и нравится ИИ , что он расширяет возможности своего использованиям обычным людям

1
Ответить
Автор

Точно! можно подумать о том, как ИИ заменит исполнителя, а можно подумать о том, как малый бизнес, например, может позволить себе в маркетинге использовать аудиодорожку, которую бы просто не использовал без доступной технологии)

Ответить

СУно на мой взгляд сейчас впереди, особенно после обновления. Конечно нужно дорабатывать но при определенном количестве попыток, можно создать буквально законченную вещь

1
Ответить