{"id":14293,"url":"\/distributions\/14293\/click?bit=1&hash=05c87a3ce0b7c4063dd46190317b7d4a16bc23b8ced3bfac605d44f253650a0f","hash":"05c87a3ce0b7c4063dd46190317b7d4a16bc23b8ced3bfac605d44f253650a0f","title":"\u0421\u043e\u0437\u0434\u0430\u0442\u044c \u043d\u043e\u0432\u044b\u0439 \u0441\u0435\u0440\u0432\u0438\u0441 \u043d\u0435 \u043f\u043e\u0442\u0440\u0430\u0442\u0438\u0432 \u043d\u0438 \u043a\u043e\u043f\u0435\u0439\u043a\u0438","buttonText":"","imageUuid":""}

Будущее для радио, где музыка и подкаст создаётся искусственным интеллектом

Приветствую всех, кто увлечен искусственным интеллектом, нейронными сетями, музыкой или технологическими новинками! Сегодня мы погрузимся в будущее и в этой статье познакомимся с «Бесконечным нейронным радио», узнаем, как все работает изнутри и как вы сможете самостоятельно создавать музыкальные композиции, при помощи искусственного интеллекта.

Будущее радио и подкастов может преобразиться благодаря бесконечной генерации контента нейронными сетями.

Идея создать такой проект появилась из-за разочарования в моем ранее любимом музыкальном приложении. По мере его развития, он перестал соответствовать моим ожиданиям в удобстве использования, что подтолкнуло меня к желанию создать нечто свое, что было бы идеальным сочетанием свободной музыки, как lofi — жанра, идеально подходящего для фонового сопровождения во время программирования или релаксации вечером. В приложении пользователи могут наслаждаться цитатами, сгенерированными нейронными сетями, а также GIF-анимациями в стиле пиксельного искусства, часть из которых также создана благодаря искусственному интеллекту. Если вы не являетесь поклонником подкастов, их можно просто отключить, оставив для себя только музыкальное сопровождение. А для тех, кто предпочитает человеческое творчество, есть возможность настроиться на радиостанцию, созданную людьми. Музыка, текст для подкастов и голос подкаста созданы нейронными сетями.

Бесконечное нейронное радио

Как работает внутри?

Бэкенд. Разработанный на Go, он служит двум основным целям:

(а) Предоставляет уникальный, постоянно меняющийся список музыки и подкастов lofi при каждом обновлении страницы и (б) отслеживает подключение различных радиостанций, позволяя пользователям переключаться между музыкой, созданной нейронными сетями, и традиционными радио точками.

Внешний интерфейс. Созданный с использованием JavaScript, он взаимодействует с серверной частью через запросы AJAX. Я также интегрировал в проект прогрессивные веб-приложения (PWA). Такой подход, позволил сделать так, чтобы пользователь мог устанавливать приложение прямо с веб-сайта и беспрепятственно использовать его в фоновом режиме как музыкальный плеер. Хотите посмотреть, какой код в бэкенде и фронтенде? Весь код проекта открыт на GitHub.

Создание музыки. Я использовал проект Audiocraft с открытым исходным кодом для создания треков lofi. Основываясь на текстовых подсказках, которые определяют настроение музыки — будь то работа, дождь или отдых в вечернее время — я использовал demo/musicgen_app.py и большую модель для генерации музыки по текстовым запросам. Возможно, создание нейронной музыки по текстовым запросом, либо даже по картинке, это будущее для небольших компаний, игр и авторов. Представтье, что нейронная сеть анализирует изображение, и передает возможные чувства, которые вызывает картинка в виде музыки. Что вы об этом думаете, напишите в комментарии.

Небольшое отступление. Как сделать музыкальные композции самостоятельно? Вам нужно скачать проекта Audiocraft и по инструкции установить зависимости и ffmpeg. Как установить ffmpeg, вы можете найти в этом видео на 16 секунде. Далее установить pip install jupyterlab и после установки включить jupyter lab. У вас откроется меню с Notebook, в котором вам необходимо открыть musicgen_demo.ipynb для генерации музыки или audiogen_demo.ipynb для генерации аудио эффектов, например аплодисменты или звук машин. Из всего, что вам остается сделать это выбрать модель от маленький до большой get_pretrained('facebook/model') и задать текстовой запрос на английском, какую вы хотите музыкальную композицию (в том числе с изменением текстового запроса по таймкодам). Например, один из запросов для создания нейронной музыки: lofi music on the bed with cap of coffee and the rain outside. Вы можете создавать музыку с нуля, либо изменять уже существующие композиции, например сделать так, чтобы ваша любимая мелодия была не на гитаре, а на пианино. Вернемся к бесконечному радио.

Создание подкастов. Здесь сыграли важную роль два open-source проекта:

  • Wunjo AI для преобразования текста в речь и синтеза дипфейк видео. Я обучил модель, используя образцы своего голоса для радиоведущего. Как обучить модель и подготовить данные для обучения в Wunjo AI на голосе, я снял видео на своем YouTube канале. Вдруг вы захотите оцифровать свой голос, соседа, либо любимого актера!
  • Проект text-generation-webui в сочетании с моделью Llama для создания забавных новостных статей, сохраняющих ауру достоверности. Используя базовую модель Llama 33B из huggingface, я дополнительно обучил Lora для модели на юмористическом новостном контенте, что из этого вышло, судите сами на radio.wladradchenko.ru или английская версия.

Цитаты занимают еще одно место в приложении. В то время как английские цитаты происходят полностью из ChatGPT, русские цитаты представляют собой смесь — одни из ChatGPT, другие из фильмов и мемов, а некоторые — подлинные цитаты известных личностей. Кроме того, я создал несколько пиксельных GIF-изображений с помощью AUTOMATIC1111 Stable Diffusion, получив необходимые модели с CivitAI.

Вот и получается, что это радио создается нейронными сетями.

Я надеюсь, вам было интересно и статья пробудит в вас интерес к бесконечному нейронному радио, либо вдохновит на создание чего-то большего. Увидимся!

0
2 комментария
Stepan Tomara

А разве не интереснее самим создавать музыку, включать креатив, свои чувства и душу вкладывать? ИИ это оочень круто, прогрессивно и интересно, но по мне лучше бы это создавал человек(

Ответить
Развернуть ветку
Wladislav Radchenko
Автор

Для маленьких компаний, либо видео мейкеров, да много для кого, может потребовать фоновая музыка для контента, либо звуки предметов, и прочее. Не каждый может нанять дорогих музыкантов, чтобы не нарушать авторские права. Вот для этого и нужна нейронная сеть, которая может сделать звук или музыкальный трек под текстовой запрос, либо из музыки получить другую музыку, которая уже не нарушает авторские права

Ответить
Развернуть ветку
-1 комментариев
Раскрывать всегда