Как сгенерировать трек в нейросети so-vits-svc?

Как сгенерировать трек в нейросети so-vits-svc?

В нейросетях начали набирать популярность несуществующие песни, которые стали вирусными в социальных сетях.

В апреле трек под названием "Heart on My Sleeve" собрал более миллиона прослушиваний на Spotify. Пользователь с ником ghostwriter977 загрузил эту песню, которая звучала так, словно ее исполняли известные музыканты The Weeknd и Дрейк.

Голоса были настолько похожи, особенно голос Дрейка, что многие поверили, будто это реальное сотрудничество канадских звезд. Однако на самом деле эта песня была сгенерирована нейросетью.

История о треке разлетелась, и позднее он был удален со всех музыкальных платформ по требованию правообладателя Universal. Но затем в социальных сетях начали появляться другие "коллаборации".

Например, голосом Фредди Меркьюри была исполнена песня группы Imagine Dragons, а Канье Уэст "спел" свою версию "Just The Two of Us". Этот тренд также добрался и до российского интернета: песни стали перепевать в голосах Доры и Элджея.

Каверы на песни Моргенштерна, сделанные с помощью искусственного интеллекта, стали особенно популярными на платформе TikTok.

Как сгенерировать трек в нейросети so-vits-svc при помощи Google Collab

В марте 2023 года китайская команда разработчиков опубликовала на платформе GitHub нейросеть SoftVC VITS Singing Voice Conversion, которая в интернете получила сокращенное название so-vits-svc.

Эта нейросеть способна имитировать голоса певцов и создавать новые песни с использованием их голосов. Алгоритм был разработан энтузиастами и не принадлежит какой-либо корпорации или отдельным разработчикам.

So-vits-svc доступна для всех пользователей. Если у вас есть навыки программирования и достаточно мощный компьютер, вы можете запустить ее код локально. Подробная инструкция по этому процессу представлена в видео на канале Nerdy Rodent на платформе YouTube.

Если у вас нет опыта в программировании или мощного компьютера, вы можете воспользоваться нейросетью на платформе Google Colab. Создание полностью готового кавера с использованием искусственного интеллекта занимает около полутора часов.

Вы можете сгенерировать песню с голосом исполнителя, чья модель доступна благодаря усилиям энтузиастов.

Шаг 1. Выберите песню, которую вы хотите исполнить с помощью сгенерированного голоса. Скачайте эту песню в формате mp3. Обратите внимание, что для успешной генерации вам потребуется и музыкальный фон, и голос оригинального исполнителя.

Не забывайте, что музыка защищена авторским правом, поэтому использование ее в коммерческих целях недопустимо. Помните, что ваш сгенерированный трек может быть удален с платформы YouTube или других ресурсов по требованию правообладателя.

Вы также можете выбрать песни, доступные по лицензии Creative Commons.

Шаг 2. Разделите выбранную песню на а капеллу и минусовку. Для этого вы можете воспользоваться веб-сайтом x-minus, загрузив на него файл в формате mp3. Затем скачайте полученные файлы.

Зеленая дорожка будет содержать а капеллу, а синяя - минусовку. Убедитесь, что файлы имеют понятные названия, чтобы избежать путаницы.

Шаг 3. Преобразуйте а капеллу из формата mp3 в wav. Это можно сделать с помощью программы Audacity или онлайн-конвертера cloudconvert.

Шаг 4. Перейдите по ссылке на so-vits-svc, веб-интерфейс нейросети, который работает на платформе Google Colab. Этот сервис позволяет запускать код на удаленных вычислительных мощностях бесплатно.

Однако учтите, что есть некоторые ограничения, и вам придется подождать, пока загрузятся необходимые библиотеки и модели.

Если вы найдете другой интерфейс для работы с нейросетью, учтите, что данная инструкция предназначена для so-vits-svc, поэтому порядок шагов может отличаться в других интерфейсах.

Шаг 5. Войдите в свой аккаунт Google или создайте новый, так как без аккаунта Google Collab использовать не удастся.

Шаг 6. Последовательно запустите ячейки кода: Check GPU, Setup 1, Setup 2, Download ContentVec и Setup HF Downloads. Для этого просто нажмите кнопку "Play" рядом с каждым заголовком.

Когда код загрузится, рядом с названием ячейки появится зеленая галочка. Запускайте следующую ячейку только после завершения загрузки предыдущей. Если пропустите одну из строк, программа не сработает.

Наибольшее время займет загрузка Setup 1, около 10 минут. Остальные ячейки загружаются за считанные секунды. Вам не нужно загружать код для каждой отдельной песни, достаточно выполнить этот шаг один раз. Однако через примерно два часа код автоматически сбросится, поэтому вам придется начать процесс заново.

Шаг 7. Выберите голос, который будет использоваться для исполнения вашей песни. Для этого найдите поле model_url под заголовком "Other Downloads (.zip) Step o.1" и вставьте ссылку на папку с моделью голоса.

Вы можете взять ссылку из предложенного списка в той же ячейке: Kanye West, Kendrick Lamar, Drake.

Также вы можете просмотреть библиотеку голосов на платформе Hugging Face и скопировать ссылку на нужную папку оттуда. В доступе есть голоса российских исполнителей, например, Oxxxymiron или Моргенштерна.

Нейросеть поддерживает ссылки на архивные папки с Google Drive, MEGA, Hugging Face и других ресурсов. Вы можете добавить любую модель, которую найдете в сети.

Шаг 8. Загрузите ваш а капелла файл, который вы преобразовали в формат wav, на платформу Google Colab. Это можно сделать, перетащив файл в соответствующую ячейку или с помощью команды загрузки файла в коде.

Шаг 9. Запустите ячейку кода для обработки вашего файла а капелла. Этот шаг может занять некоторое время, в зависимости от размера файла и вычислительных ресурсов.

Шаг 10. Получите сгенерированный трек с использованием выбранного голоса. Вы можете прослушать его прямо на платформе Google Colab или скачать на свой компьютер.

Обратите внимание, что этот процесс предназначен только для некоммерческого использования и в рамках соблюдения авторских прав. Помните, что сгенерированный трек может быть удален с платформы YouTube или других ресурсов, если это потребует правообладатель.

Теперь у вас есть шаги для использования нейросети SoftVC VITS Singing Voice Conversion (so-vits-svc) и создания собственных песен с использованием голосов известных исполнителей. Удачи в ваших творческих экспериментах!

Как сгенерировать трек на сайте musicfy

Этот метод значительно более простой, так как не требует использования Google Collab. Единственное ограничение состоит в том, что на сайте доступны только готовые пресеты голосов, и добавить другие голоса не представляется возможным.

Шаг 1. Скачайте песню в формате mp3.

Шаг 2. Разделите трек на а капеллу и минус. Для этого посетите сайт x-minus и загрузите ваш mp3-файл. Затем скачайте полученные файлы.

Шаг 3. Перейдите на сайт musicfy. Войдите с помощью своего аккаунта Google и нажмите кнопку "Создать песню" (Create a song). Загрузите mp3-файл с а капеллой или запишите свой собственный голос.

Если файл не загрузился, пролистайте вниз страницы, возможно, появится сообщение об ошибке "Audio file is corrupted, please try uploading another file" (Аудиофайл поврежден, попробуйте загрузить другой файл). В таком случае, попробуйте загрузить тот же файл еще раз.

Шаг 4. Выберите один из предложенных голосов. На сайте доступны вокалы таких исполнителей, как Ариана Гранде, Дрейк, Граймс, Канье Уэст, Трэвис Скотт и других.

Также имеются голоса персонажей мультфильмов, например, Губки Боба Квадратные Штаны и Питера Гриффина. Важно отметить, что все эти голоса могут воспроизводить русскоязычный текст.

Шаг 5. Нажмите кнопку "Конвертировать" (Convert). После завершения обработки загрузите готовый файл. Если возникнет ошибка, попробуйте нажать кнопку снова.

Шаг 6. Объедините минус и сгенерированную а капеллу в любом аудиоредакторе, например, бесплатной программе Audacity или онлайн-сервисе veed.io. После этого сохраните полученный результат.

Кратко: какой способ выбрать

Используя нейросеть в Google Collab, вы можете сгенерировать трек сотней голосов, созданных самими пользователями. Однако, этот способ требует значительных временных затрат, так как необходимо ожидать загрузку кода, который часто вызывает ошибки.

Определить причину ошибок сразу бывает сложно, поскольку сервис не предоставляет ясной информации о возникших проблемах.

Иногда приходится тратить время на посещение форумов и просмотр видео на YouTube, чтобы исправить ошибку, а вскоре сталкиваться с новыми проблемами.

С другой стороны, использование Musicfy позволяет генерировать треки намного проще: с минимальными ожиданиями и без необходимости запуска кода, а также снижает вероятность возникновения ошибок.

В этом случае вам даже не потребуется конвертировать аудиофайлы. Однако, главным недостатком является ограниченный набор доступных голосов, представленных на сайте.

ChatGPT-бот в Telegram предоставляет простой и бесплатный способ взаимодействия с ИИ, без необходимости регистрации, использования VPN и дополнительных номеров - ССЫЛКА.

Этот бот отличается от других тем, что не требует оплаты за использование и может быть использован в любом количестве - пользуйтесь на здоровье.

22
Начать дискуссию