Российские разработчики создали уникальную систему для повышения безопасности в городах и на предприятиях
Несмотря на то, что в 2022 году число преступлений в городах России сократилось на 1,5%, многие из них по-прежнему остаются небезопасными. Например, в ТОП-10 лидеров вошли даже крупные столицы регионов РФ, такие как Ростов-на-Дону, Челябинск, Екатеринбург, Санкт-Петербург, Москва, хотя эти мегаполисы имеют больший уровень цифровизации, чем остальные города. Проблема в том, что камеры видеонаблюдения фиксируют только картинку, уверен Александр Гордеев, генеральный директор ООО "Регеора Девелопмент". Именно этот вывод стал основой его разработки AudioSonar - программного обеспечения, которое позволяет анализировать звуки происходящего вокруг. Имея 20-летний опыт работы в ИТ-индустрии, в том числе в международных ИТ-корпорациях, таких как HPE и Dell, Александр Гордеев и его команда считают, что имея возможность отслеживать звуки, система видеонаблюдения поможет бороться с преступностью, городскими происшествиями, производственными авариями.
Суть технологии
Система является интеллектуальным анализатором звукового потока, поступающего от внешних источников, которые передают информацию для последующего анализа. В основе платформы используется нейронная сеть, которая обучена распознаванию и классификации широкого спектра звуков, с индивидуальной доработкой для специализированного применения, например, на строительных площадках, где требуется более детальное распознавание и классификация звуков для последующего анализа и реагирования на возникающие события. Например, уличные камеры видеонаблюдения оснащаются микрофонами, встроенными или дополнительными. Технология представляет собой программное обеспечение, которое распознает и классифицирует отдельные звуки, из звукового потока.
Можно представить себе ситуацию, когда из операционного центра управления ведется видеонаблюдение сотнями камер. Оператор занимается визуальным наблюдением, фактически наблюдает за небольшими изображениями на экранах. Существующие системы машинного анализа видеопотока позволяют классифицировать ряд события и привлекать внимание оператора в случае выявления определенных событий, но как быть с тем, что не видно, но может быть слышно? Что-то может не попасть в поле зрения видеокамеры, но при этом классифицироваться как серьезное нарушение, требующее последующего расследования. Например, в США, движение грузовых машин задним ходом на стройплощадке запрещено. Машины все по закону оснащены бипером, который подает громкий сигнал при реверсе. ПО опознает задний ход, передает информацию о нарушении - сотрудник или компания получает штраф.
В городе технология может отслеживать и определять несколько десятков различных звуков. Резкое торможение и столкновение транспортных средств на дорогах, человеческих эмоций - криков, плача, гнева, чего-то необычного, выходящего за рамки обычного человеческого общения, звуки разбитого стекла, выстрелов, громких ударов, идентификации животных и птиц, а также биение сердца - все перечисленное и многое другое, где компьютерный “слух” может дополнить или заменить системы машинного зрения и помочь операторам, вручную осуществляющих данную работу, быстро реагировать на события и принимать соответствующие решения.
Процесс разработки и сферы применения
Разработка пилотной версии технологии длилась около 8 месяцев. В основе системы используются проприетарные алгоритмы и компоненты с открытым исходным кодом. Существенной особенностью систем на базе нейронных сетей является исходный набор данных (датасет), использованный для первичного обучения и разметки. ПО дает возможность обработки звуковых данных в режиме онлайн, однако возможна и запись, так как уровень распознавания, сбора и передачи информации не снижается от вариаций использования звукового потока.
Основной сложностью в разработке системы является многообразие окружающих нас звуков. Если брать в качестве примера строительную отрасль, звук перфоратора, которым бурят отверстие в бетонной стене в тишине, на шумной строительной площадке, и на ней же, но в момент проезда грузового состава по прилегающей железнодорожной ветке - существенно отличается. Успешное решение всех этих задач - большая аналитическая и математическая работа, которая позволила адаптировать алгоритмы анализа к разнообразию звуковых картин, созданию учебных образцов звуков в различных ситуациях.
Разумеется, технологию можно использовать в корыстных целях, как и системы видеонаблюдения. Но есть отдельная статья Гражданского Кодекса РФ, защищающая частную жизнь граждан (ГК РФ Статья 152.2). Если система используется в общественном месте, например, в автобусе, то система определит, что кто-то из пассажиров использовал нецензурную брань, но вот кто именно покажет только видеозапись. Основная цель создания данного ПО - привлечение внимания оператора видеонаблюдения, чтобы он мог оперативно оценить ситуацию и принять при необходимости меры. Однако, эту технологию, как и все остальные, базирующиеся на нейросети, можно использовать для прослушки и в других целях “охоты” на личную жизнь.
Экономический эффект
Самым важным экономическим эффектом для заказчика от внедрения платформы является снижение времени на выявление ситуаций, требующих участия и решения человека. От того, насколько быстро будет обнаружено событие и, при необходимости, приняты какие-либо меры по результатам анализа, может зависеть снижение затрат, повышение прибыли, а также жизни и здоровье людей, когда речь касается выявления опасных событий, требующих немедленной реакции.
Однако, какими бы совершенными ни были алгоритмы и датасеты, каждый день в мире появляются новые технологии, новые звуки и новые ситуации. Регулярное обучение нейросети путем обновления датасетов с новыми навыками - процесс, который при отраслевом применении требуется в случае, если обстановка часто меняется.
В строительной отрасли, например, появляется какое-то инновационное оборудование, которое издает незнакомые системе звуки. Соответственно, необходимо будет модернизация наборов данных. Если же задачи более рутинные, например, идентификация исключительных ситуаций вроде падения бетонного блока при подъеме краном, то технология может работать без апгрейда долгие годы.
Цена вопроса
Вопрос стоимости оснащения системой достаточно индивидуален и зависит от многих факторов. Прежде всего, от количества одновременно анализируемых звуковых каналов, интеграции системы с существующими решениям (видео-аналитикой, системами оповещения, учета и т.п.), уже применяемых потенциальным заказчиком. Наконец, наличием микрофонов, установленных вместе или отдельно от видеокамер - практически все существующие видеокамеры имеют вход для микрофона, чтобы передавать аудиопоток вместе с видео, но далеко не все имеют встроенных микрофон.
Дооснащение камер, либо установка отдельных микрофонов также должны приниматься во внимание. Вместе с тем стоит акцентировать внимание на том, что для базового мониторинга тех же строительных площадок, можно начать всего с нескольких чувствительных микрофонов, тогда как количество видеокамер, обычно устанавливаемых на объектах для детального видеонаблюдения обычно исчисляется десятками, а то и сотнями.
До обострения геополитической ситуации, например, профессиональные уличные микрофоны стоили около 100 долларов. Эксклюзивные погодостойкие и защищенные от вандализма приборы - примерно 1000-1500 долларов. Но сейчас в России наблюдается дефицит такого оборудования. В остальном же, камеры даже за 3000 рублей сейчас могут иметь встроенные микрофоны, ниже качества, чем специальные, но вполне достаточные для простых задач вроде идентификации громких контрастных звуков (вроде выстрела на улице при обычном городском шуме).
Прогнозы внедрения
Очевидно, что технология может быть полезна не только бизнесу, но и исполнительной власти всех уровней, так как обеспечит безопасность городов. В мегаполисах правонарушения частично попадают в поле зрения систем видеокамер наблюдения, но основная масса средств на базе машинного зрения все еще находится под ручным наблюдением операторов и не оснащена микрофонами для передачи звукового потока. Можно только надеяться, что вопрос времени и наступит момент, когда интеллектуальные системы для “умного” города, например, будут дополнять друг друга и делать жизнь и здоровье людей безопаснее, а окружающие процессы - эффективнее.