Новогодний «джингл» на русском и песни про «батин суп» и Дурова: GigaChat «Сбера» научили генерировать музыку

В заметке — примеры и сравнение с Suno.

22
11
11
11

Столько ресурсов на обучение связи текста и песен, чтобы потом рандомно генерировать.
Вместо того, чтобы хотя бы попытаться создать что-то, провести исследование.
Чтобы модель, которая говорит могла подпевать или петь услышав мелодию.
Это хотя бы шаг, к реальным исследованиям и создание более человечного ассистента.
Но для этого надо делать R&D. Но нет, возьмём диффузионную модель (?), обучим ее на аудио скормив тексты этих песен, и возможно еще с описанием песни сгенерированный llm и сделаем клон.
Для этого ума много не надо. Только gpu сервера для обучения и датасет.
Что сбер, что яндекс, что мтс хоть одну архитектуру разработали? Нет. Так в чем тогда успех?
Печально и грустно.

Я ещё никогда не видел такую отрасль, как ИИ, где настолько стремительный общемировой прогресс настолько же быстро становился тривиальным и неинтересным для публики.

Посмотришь на обсуждения в англосфере, так и там тоже нытики списывают OpenAI, мол, они за эти пять лет ничего не изобрели (!), и живут лишь допиливая идею GPT, стащенную у Гугла, Гугл же хоронят за неторопливость, а Мету — за то, что в хвосте.