Получился довольно неплохой результат. В данном наборе представлены записи и мужских, и женских голосов, а они различаются по тембру и высоте голоса, можно классифицировать их по отдельности. Также можно извлекать другие характеристики сигнала (скорость пересечения нуля, спектральный центроид). Внося некоторые изменения в исходные данные (добавить шумы, сдвиги, увеличить скорость произношения), можно генерировать новые данные, которые помогут сделать модель более устойчивой к возмущениям и повысить её обобщающую способность.
О, ещё одна интересная библиотека, спасибо за обзор.
Надо будет протестировать, может чего интересного получится сделать, например в связке с open cv...
Вот еще один кейс мы рассматривали с применением библиотеки librosa https://vc.ru/ml/136589-vyyavlyaem-priznaki-audiomontazha-metodami-ai (про выявление признаков аудиомонтажа)
А как у вас так работает нейрона с таким размером входных данных ? может где можно посмотреть весь код ?
Добрый день! В тексте публикации продемонстрированы просто сэмплы, а не весь набор входных данных (он составляет 7 442 аудиофайла). Код, к сожалению, не сохранился...