«Suno прошла тест Тьюринга»: только половина участников исследования верно отличила сгенерированные песни от написанных людьми

Закономерность наблюдалась в парах из двух треков разных жанров.

Генерация пользователя с помощью модели Suno v5. Источник: Magicien Class S
  • Федеральный университет Минас-Жерайса в Бразилии предложил участникам несколько пар песен: в одном жанре и в разных. В каждой из них был один сгенерированный трек, нужно было определить — какой.

  • ИИ-песни пользователей собирали из открытой библиотеки Suno, на YouTube и в сообществе r/Suno на Reddit. Отобрали те, что были опубликованы с 21 июля 2023 года по 25 февраля 2025 года. Это генерации моделей v3.5 и v4, а не последней «продвинутой» v5.

  • В пятой «контрольной» паре участник слышал вступление к пятой симфонии Людвига ван Бетховена. Ответы тех, кто его не распознал, в исследовании не учитывали. Всего до конца «дошли» 308 участников из 653. Средний возраст — 31 год, медиана — 27 лет.

  • В парах, подобранных по жанру, общая доля правильных ответов была 60%, а в случайных парах — 53%, что статистически не отличается от случайного угадывания, отмечают исследователи. В 35% случаев обе песни, в том числе написанную человеком, посчитали сгенерированными.

  • Вероятность распознавания повышалась, если у человека было музыкальное образование или опыт игры на инструменте. Также число верных ответов было выше у тех, кто сам пробовал ИИ-инструменты для генерации музыки. Чем больше возраст участника, тем меньше доля верных ответов.

В комментариях под обсуждением исследования в X пользователь прислал свою генерацию, сделанную с помощью Suno v5. Некоторые ответили, что песня не отличается от того, что они слышат на радио. Источник: Alan Callahan
  • Исследование стало обсуждаемым в соцсетях. Некоторые пишут, что ранние версии Suno «прошли тест Тьюринга», а Suno v5 теперь «практически неотличима от песен, написанных людьми». Другие делятся, как недавно узнали, что одна из их любимых групп на Spotify генерирует песни в Suno.

  • В 1950 году Алан Тьюринг предложил «игру в имитацию» для оценки того, «можно ли считать машину разумной». Считается, что программа прошла тест, если участники эксперимента не могут «достоверно» определить живого собеседника — то есть ошибаются более чем в 50% случаев.

13
4
2
121 комментарий