В список желаний: учёные в США представили наушники с выборочным шумоподавлением

Чтобы можно было заглушить болтовню окружающих, но при этом услышать сирены.

Как устроена система. Источник: <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fsemantichearing.cs.washington.edu%2F&postId=911022" rel="nofollow noreferrer noopener" target="_blank">University of Washington</a>

Шумоподавление в наушниках — хорошая функция, но ровно до тех пор, пока пользователь не пропустит из-за этого звонок в дверь или гудок летящего на него автомобиля.

Найти промежуточное решение захотели учёные из Университета Вашингтона. В начале ноября 2023 года на симпозиуме в Сан-Франциско они представили технологию «семантического прослушивания» — она позволяет в зависимости от ситуации выбирать, какие звуки подавлять, а какие пропускать и усиливать.

Для её работы нужны наушники и смартфон. На последний устанавливается специальное приложение — в нём пользователь указывает предпочтения, которые потом может изменить, в том числе с помощью голосовых команд. Встроенные в гарнитуру микрофоны будут записывать окружающие звуки, а система — «скармливать» их нейросетям в телефоне. Те, в свою очередь, их распознают и запустят выборочное шумоподавление.

Так, при прогулке в парке пользователь сможет заглушить беседы окружающих и шум автомобилей, но оставить щебетание птиц, а при работе дома «отключить» всё, кроме звонков и стука в дверь.

Учёные обучили нейросети на «тысячах» записей из открытых источников со звуками, типичными для шумных пространств, и для первых тестов научили их распознавать 20 распространённых: например, детский плач, человеческую речь, сирены, чириканье птиц, шум пылесоса, грозу, звук слива в уборной и бьющегося стекла.

Первые эксперименты в офисах, парках и на улицах показали, что система «хорошо справляется» с приглушением и, наоборот, усилением даже «в тех ситуациях, к которым её алгоритмы не готовили». Участники, проверившие работу нейросетей на себе, отметили, что качество усиленного звука было даже лучше, чем записанного на микрофон. А вот живую речь и голоса в песнях она пока различает с трудом.

Среди других трудностей, с которыми столкнулись разработчики проекта, — необходимость добиться того, чтобы алгоритмы обрабатывали звуки со скоростью до «одной сотой секунды», поскольку то, что пользователь слышит, должно точно совпадать с тем, что он видит. Из-за этого обработка происходит на смартфоне пользователя, а не в облаке, — так быстрее.

Текущий прототип хотят улучшать на «данных из реального мира» и в будущем рассчитывают выпустить коммерческую версию.

Соавторы проекта демонстрируют, как пользователь слышит звуки со включёнными алгоритмами и без них

Многие учёные считают, что разработка поможет прежде всего тем, кто в силу специфики своей работы не может отвлекаться на всё подряд или вынужден мириться с травмирующим уши шумом, но при этом всё-таки должен слышать отдельные звуки — скажем, человеческую речь. Пользователям Reddit уже не терпится заглушить шум газонокосилок, рёв мотоциклов, собачий лай, храп соседей и стук тренажёров в спортзале.

Но не обходится и без скептиков. По словам ассистента кафедры медиа и связей с общественностью исследовательского Университета Майами в Огайо Мака Хагуда, это лишит человека «приятных случайностей» — возможности узнать, что в мире есть ранее неизвестный, но приятный уху звук.

#нейросети #наушники