{"id":14291,"url":"\/distributions\/14291\/click?bit=1&hash=257d5375fbb462be671b713a7a4184bd5d4f9c6ce46e0d204104db0e88eadadd","hash":"257d5375fbb462be671b713a7a4184bd5d4f9c6ce46e0d204104db0e88eadadd","title":"\u0420\u0435\u043a\u043b\u0430\u043c\u0430 \u043d\u0430 Ozon \u0434\u043b\u044f \u0442\u0435\u0445, \u043a\u0442\u043e \u043d\u0438\u0447\u0435\u0433\u043e \u0442\u0430\u043c \u043d\u0435 \u043f\u0440\u043e\u0434\u0430\u0451\u0442","buttonText":"","imageUuid":""}

Нейросеть MuseNet генерирует музыку: как это работает?

За последние годы нейросети стали все более распространенными в творческих областях. Они могут генерировать удивительные тексты и изображения, а теперь они начали генерировать и музыку.

В 2023 году было представлено сразу три алгоритма, которые могут генерировать музыку на основе текстового запроса. Раньше нейросети могли только создавать музыку на основе уже существующих треков или дополнять их.

Эксперты уверены, что использование ИИ значительно упростит жизнь музыкантам и создателям спецэффектов. Тем не менее, компании опасаются выкладывать в открытый доступ сервисы, которые обучаются на реальной музыке.

Несмотря на это, уже существуют возможности для создания музыки с помощью нейросетей, которые можно попробовать прямо сейчас.

Самая популярная нейросеть 2023 года. ChatGPT-бот в Telegram предоставляет простой и бесплатный способ взаимодействия с ИИ, без необходимости регистрации, использования VPN и дополнительных номеров - ССЫЛКА.

Этот бот отличается от других тем, что не требует оплаты за использование и может быть использован в любом количестве - пользуйтесь на здоровье.

Как нейросети создают музыку

Нейросети, способные создавать музыку, обучаются на большом объеме аудиофайлов, которые собираются в базу и передаются в ИИ. Первые результаты работы таких нейросетей могут звучать не очень хорошо, однако с увеличением объема обучающих данных качество звука существенно улучшается.

Одним из методов обучения является передача нейросети шаблонов композиций, по которым она может генерировать похожие мелодии.

Важное значение для генерации имеет база данных, на которой обучается ИИ: если нейросеть обучена на музыке конкретного исполнителя, она будет генерировать композиции, сходные с его музыкой.

В качестве результата генерации, нейросеть может создавать партитуру - последовательность нот, аккордов и звуков. Например, в 2019 году OpenAI выпустила нейросеть MuseNet, которая может создавать композиции и сочетать различные жанры музыки.

Однако такой подход имеет свои ограничения, поскольку нейросеть может генерировать только ноты, но не может передать разнообразие голосов, настроений и тонкостей звука, которые являются важными для создания музыкального произведения.

В отличие от символьных генераторов, генерация аудиосигнала не ограничивается созданием только нот и мелодий. Алгоритмы могут генерировать различные звуки, вокал, аудиоэффекты и переходы.

Однако для обучения таких моделей требуются значительные вычислительные ресурсы.

Одна из проблем заключается в том, что музыка состоит из длинных последовательностей.

Например, четырехминутная песня в студийном качестве содержит десятки миллионов значений. Это является препятствием для создания нейросетей, способных генерировать музыку «с нуля».

Что «музыкальные» нейросети умели раньше

В последние годы появилась возможность генерировать музыку по заданным шаблонам. Такие инструменты позволяют создавать треки разных жанров и настроений без необходимости знания музыкальных техник. Изменить инструменты или мелодию можно за несколько секунд.

Однако у таких сервисов ограниченный контроль над результатом генерации. Пользователям доступны только готовые пресеты.

С помощью нейросетей также можно чисто разделять дорожки в треках. Это значительно упрощает создание ремиксов и мэшапов. Теперь для удаления вокала или перемещения баса из одной песни в другую не требуется доступ к исходным материалам или глушение частот.

Такие программы, как Serato Stems 3.0 или Audioshake, помогают продюсерам и диджеям работать с семплами.

Кроме того, ИИ может генерировать бесконечные музыкальные фоны. Приложение Endel и Яндекс позволяют создавать звуковые ландшафты в реальном времени, которые помогают сосредоточиться на работе или учебе. Обычно такая музыка имеет эмбиент или лоу-фай хип-хоп звучание.

Что «музыкальные» нейросети умеют теперь

В январе Google представила нейросеть MusicLM, которая способна генерировать аудио длительностью до пяти минут. Алгоритм напрямую генерирует аудиосигнал, используя сжатое пространство, из которого звук перекодируется в нормальное аудио.

MusicLM обучена на 5500 парах аудио с текстовыми описаниями и "проедена" на 280 000 часах аудиозаписей. Нейросеть создает треки по короткому запросу, например, "мелодичное техно" или "клуб в 80-х", а также по целому абзацу описания текста.

MusicLM может создавать музыку по скрипту, где алгоритм сделает переходы в указанных тайм-кодах. Кроме того, на основе MusicLM был создан сервис SingSong, который позволяет людям создавать новую музыку, используя свой голос.

Разработчики говорят, что благодаря SingSong каждый, умеющий петь, может создать новую музыку с богатым инструментарием. На данный момент алгоритм нельзя попробовать, но можно послушать примеры генерации.

Одна из нейросетей Google, AudioLDM, использует модель скрытой диффузии, чтобы генерировать звуковые эффекты.

При помощи предварительно обученной языковой модели текстовый запрос кодируется, и на основе этого модель создает сжатый сигнал с помощью диффузионного генератора, который затем преобразуется в звуковую волну.

AudioLDM генерирует звуки, которые отличаются по своей тонкости и материалам, используемым для их производства.

Компания представила примеры генерации, включающие голос человека под водой, звук космических кораблей в бою, мяуканье кота и звук проезжающего автомобиля. Также AudioLDM способна генерировать звук по спектрограммам.

Хотя нейросеть не доступна для прямого использования, доступны примеры ее работы.

0
Комментарии
-3 комментариев
Раскрывать всегда