Будущее для радио, где музыка и подкаст создаётся искусственным интеллектом

Приветствую всех, кто увлечен искусственным интеллектом, нейронными сетями, музыкой или технологическими новинками! Сегодня мы погрузимся в будущее и в этой статье познакомимся с «Бесконечным нейронным радио», узнаем, как все работает изнутри и как вы сможете самостоятельно создавать музыкальные композиции, при помощи искусственного интеллекта.

Будущее радио и подкастов может преобразиться благодаря бесконечной генерации контента нейронными сетями.

Идея создать такой проект появилась из-за разочарования в моем ранее любимом музыкальном приложении. По мере его развития, он перестал соответствовать моим ожиданиям в удобстве использования, что подтолкнуло меня к желанию создать нечто свое, что было бы идеальным сочетанием свободной музыки, как lofi — жанра, идеально подходящего для фонового сопровождения во время программирования или релаксации вечером. В приложении пользователи могут наслаждаться цитатами, сгенерированными нейронными сетями, а также GIF-анимациями в стиле пиксельного искусства, часть из которых также создана благодаря искусственному интеллекту. Если вы не являетесь поклонником подкастов, их можно просто отключить, оставив для себя только музыкальное сопровождение. А для тех, кто предпочитает человеческое творчество, есть возможность настроиться на радиостанцию, созданную людьми. Музыка, текст для подкастов и голос подкаста созданы нейронными сетями.

Бесконечное нейронное радио

Как работает внутри?

Бэкенд. Разработанный на Go, он служит двум основным целям:

(а) Предоставляет уникальный, постоянно меняющийся список музыки и подкастов lofi при каждом обновлении страницы и (б) отслеживает подключение различных радиостанций, позволяя пользователям переключаться между музыкой, созданной нейронными сетями, и традиционными радио точками.

Внешний интерфейс. Созданный с использованием JavaScript, он взаимодействует с серверной частью через запросы AJAX. Я также интегрировал в проект прогрессивные веб-приложения (PWA). Такой подход, позволил сделать так, чтобы пользователь мог устанавливать приложение прямо с веб-сайта и беспрепятственно использовать его в фоновом режиме как музыкальный плеер. Хотите посмотреть, какой код в бэкенде и фронтенде? Весь код проекта открыт на GitHub.

Создание музыки. Я использовал проект Audiocraft с открытым исходным кодом для создания треков lofi. Основываясь на текстовых подсказках, которые определяют настроение музыки — будь то работа, дождь или отдых в вечернее время — я использовал demo/musicgen_app.py и большую модель для генерации музыки по текстовым запросам. Возможно, создание нейронной музыки по текстовым запросом, либо даже по картинке, это будущее для небольших компаний, игр и авторов. Представтье, что нейронная сеть анализирует изображение, и передает возможные чувства, которые вызывает картинка в виде музыки. Что вы об этом думаете, напишите в комментарии.

Небольшое отступление. Как сделать музыкальные композции самостоятельно? Вам нужно скачать проекта Audiocraft и по инструкции установить зависимости и ffmpeg. Как установить ffmpeg, вы можете найти в этом видео на 16 секунде. Далее установить pip install jupyterlab и после установки включить jupyter lab. У вас откроется меню с Notebook, в котором вам необходимо открыть musicgen_demo.ipynb для генерации музыки или audiogen_demo.ipynb для генерации аудио эффектов, например аплодисменты или звук машин. Из всего, что вам остается сделать это выбрать модель от маленький до большой get_pretrained('facebook/model') и задать текстовой запрос на английском, какую вы хотите музыкальную композицию (в том числе с изменением текстового запроса по таймкодам). Например, один из запросов для создания нейронной музыки: lofi music on the bed with cap of coffee and the rain outside. Вы можете создавать музыку с нуля, либо изменять уже существующие композиции, например сделать так, чтобы ваша любимая мелодия была не на гитаре, а на пианино. Вернемся к бесконечному радио.

Создание подкастов. Здесь сыграли важную роль два open-source проекта:

  • Wunjo AI для преобразования текста в речь и синтеза дипфейк видео. Я обучил модель, используя образцы своего голоса для радиоведущего. Как обучить модель и подготовить данные для обучения в Wunjo AI на голосе, я снял видео на своем YouTube канале. Вдруг вы захотите оцифровать свой голос, соседа, либо любимого актера!
  • Проект text-generation-webui в сочетании с моделью Llama для создания забавных новостных статей, сохраняющих ауру достоверности. Используя базовую модель Llama 33B из huggingface, я дополнительно обучил Lora для модели на юмористическом новостном контенте, что из этого вышло, судите сами на radio.wladradchenko.ru или английская версия.

Цитаты занимают еще одно место в приложении. В то время как английские цитаты происходят полностью из ChatGPT, русские цитаты представляют собой смесь — одни из ChatGPT, другие из фильмов и мемов, а некоторые — подлинные цитаты известных личностей. Кроме того, я создал несколько пиксельных GIF-изображений с помощью AUTOMATIC1111 Stable Diffusion, получив необходимые модели с CivitAI.

Вот и получается, что это радио создается нейронными сетями.

Я надеюсь, вам было интересно и статья пробудит в вас интерес к бесконечному нейронному радио, либо вдохновит на создание чего-то большего. Увидимся!

11
реклама
разместить
2 комментария

А разве не интереснее самим создавать музыку, включать креатив, свои чувства и душу вкладывать? ИИ это оочень круто, прогрессивно и интересно, но по мне лучше бы это создавал человек(

Для маленьких компаний, либо видео мейкеров, да много для кого, может потребовать фоновая музыка для контента, либо звуки предметов, и прочее. Не каждый может нанять дорогих музыкантов, чтобы не нарушать авторские права. Вот для этого и нужна нейронная сеть, которая может сделать звук или музыкальный трек под текстовой запрос, либо из музыки получить другую музыку, которая уже не нарушает авторские права