Компьютерное зрение: тренды, рынок, перспективы

Интеллектуальное видеонаблюдение, аналитика изображений и биометрия уже во многом превзошли возможности даже профессионально обученного человека. Компьютер не отвлекается и не устает, и тем самым дает возможность нивелировать влияние человеческого фактора на производственные, исследовательские и повседневные стороны нашей жизни. Фиксация нарушений ПДД, маски для селфи в соцсетях, перевод иностранного текста через камеру смартфона, FaceID на iPhone — это простые примеры того, как компьютер научился взаимодействовать с внешним миром, «понимая» события, «видя» объекты и отличая их друг от друга.

Компьютерное зрение (Computer Vision, CV) — область искусственного интеллекта, связанная с обработкой изображений и видео. Она включает в себя набор методов, которые позволяют компьютеру «видеть» и анализировать полученную информацию: идентифицировать предметы и людей, распознавать текст, фиксировать движения, выделять однородные элементы на изображениях и видео и многое другое.

В этой статье вместе с ML-командой SimbirSoft рассмотрим основные области применения компьютерного зрения, а также проблемы, тренды и перспективы развития CV-технологий.

Современные технологии компьютерного зрения позволяют компаниям из самых разных отраслей эффективно решать свои бизнес-задачи. Этому способствует наличие фреймворков и библиотек промышленного уровня качества, большое количество доступных наборов данных (далее – датасетов), доступностью предварительно обученных моделей разных архитектур, а также разнообразие эффективных вычислительных платформ (серверных, мобильных и встраиваемых).

Вот некоторые примеры традиционных сфер применения компьютерного зрения:

Автономные автомобили: контроль дорожной обстановки, навигация по маршруту, стимуляция управляющих воздействий.
Медицина: интерпретация КТ-, МРТ-, ультразвуковых и рентгеновских изображений.
Производство: контроль производственных процессов, обнаружение дефектов продукции.
Сельское и лесное хозяйство: контроль состояния посевов, роста сорняков, инвентаризация насаждений.

В последние годы совершенствование алгоритмов искусственного интеллекта привело к проникновению CV-технологий почти во все области повседневной жизни: контроль трафика на дорогах, распознавание лиц и поиск по базам преступников и пропавших людей, подсчет посетителей магазинов и анализ наличия товаров на полках, контроль ношения средств индивидуальной защиты и т.п.

Значительная доля рынка CV приходится на сферу развлечений и шопинг. Мобильное приложение ViewEvo, для которого мы разработали дизайн, позволяет выделить и распознать на фото или видео различные товары: одежду, обувь, аксессуары. После этого сервис подбирает товары или их аналоги в интернет-магазинах партнеров.

Успешное применение технологий компьютерного зрения для решения разнообразных задач позволяет переходить к полностью автоматическим системам, исключая участие человека в принятии решений. Наиболее известный пример таких систем — беспилотные автомобили.

Другой важный тренд – переход от анализа статичных изображений к анализу динамичных сцен. CV-технологи позволяют фиксировать модели поведения объектов, а затем анализировать то, как они взаимодействуют друг с другом с течением времени.

Самая распространенная технология компьютерного зрения сегодня – сверхточные нейронные сети. С их помощью можно выявить локальные признаки, характерные для разных объектов, а затем использовать их для решения прикладных задач: обнаружения объектов, их классификации и даже генерирования новых изображений.
Чтобы обеспечить необходимую эффективность вычислений и высокую скорость работы алгоритмов CV, особенно на мобильных и встраиваемых устройствах, часто применяются такие техники оптимизации, как квантизация, прунинг, дистилляция знаний.

Среди основных направлений исследований в компьютерном зрении выделим следующие:

Алгоритмы обучения без учителя (unsupervised) и самообучения (self-supervised). Они позволят ограничить применение или полностью отказаться от дорогой и времязатратной процедуры разметки данных в датасете.
Применение моделей архитектуры «трансформер», хорошо показавших себя в задачах обработки текстов. Механизм внимания (attention), используемый такими моделями, позволяет более гибко подходить к выявлению закономерностей в изображениях.
Надежность моделей – обеспечение их правильной работы в условиях наличия шумов на входных изображениях, намеренных атак на алгоритм с целью добиться от него определенного поведения (adversarial attacks), изменения статистических распределений во входных данных и др.
Интерпретируемость моделей – объяснение, почему модель выдала именно такой результат.

Сегодня технологии компьютерного зрения широко применяются как в производственных и исследовательских сферах, так и в повседневной жизни людей. Рассмотрим несколько примеров.

Безопасность

В 2018 году гонконгский стартап SenseTime привлек 600 млн долларов инвестиций, став самым дорогим частным проектом в области искусственного интеллекта. Разработчики представили системы распознавания лиц и дистанционного обнаружения, а также решение для беспилотных автомобилей. Спустя год после запуска, стоимость компании составляла, по разным оценкам, от 3 до 4,5 млрд долларов, а сам проект получил поддержку китайского правительства.

Помимо поиска и сравнения лиц людей, системы видеонаблюдения с использованием алгоритмов компьютерного зрения позволяют обнаруживать различные объекты, осуществлять мониторинг обстановки внутри помещений и на городских объектах, обеспечивать защиту работников опасных производств.

Тем не менее, вместе с очевидной пользой, которую компьютерное зрение несет для повышения безопасности жизни, есть факторы, сдерживающие развитие технологии распознавания лиц. Во-первых, законодательные ограничения, связанные с защитой персональных данных людей. Во-вторых, этические вопросы, затрагивающие проблему нарушения прав человека. Тот же SenseTime не раз упоминался в контексте использования технологий CV против мусульман, проживающих на территории Китая.

Несмотря на это, безопасность остается основной сферой использования компьютерного зрения как в России, так и в мире. Согласно исследованию TAdviser, проведенному в 2018 году, 32% решений в области CV приходится на видеонаблюдение и безопасность. Это направление специалисты назвали самым перспективным для области компьютерного зрения в ближайшем будущем.

Ритейл

Сегодня для большинства магазинов возможность получить информацию о покупательском опыте и обеспечить персонализированный подход — ключевые компоненты успеха. Технологии помогают ритейлерам собирать данные о клиентах и проводить аудит торговых точек, тем самым способствуют росту продаж. Рассмотрим на примерах, как CV помогает бизнесу повысить свои KPI.

On Shelf Availability (OSA) — контроль товаров на полке

Установленные в торговом зале камеры анализируют изображение стеллажей. Как только товар заканчивается на полке, нейросеть отправляет уведомление в систему. В плюсе остаются все: и продавец, чей покупатель не ушел за продуктом к конкуренту, и производитель, получивший ценную информацию о движении товара на полке.

Безопасность и защита от краж

Системы распознавания лиц могут сканировать лица покупателей на входе в торговую точку и сразу же сверять полученные данные с ‎«черными списками‎» известных магазинных воров. Эти решения также способны отличать сотрудников магазина от посторонних лиц, препятствуя проникновению последних в зоны ограниченного доступа.

Контроль очередей

Длинные очереди снижают лояльность покупателей, а плавающие показатели потока посетителей влияют на объективность KPI для сотрудников. В итоге все это сказывается на текучке кадров и вредит бизнесу. Нейросеть определяет, когда количество людей в очереди превышает допустимое значение, и отправляет уведомление в систему мониторинга торговой точки. Технология также позволяет определить среднее время, по истечении которого покупатель покидает очередь и отказывается от покупки. Полученные данные ритейлеры используют в том числе для оптимизации количества персонала в торговой точке.

Тепловые карты

Нейросеть анализирует данные о передвижении покупателей по торговому залу, показывая популярные и «холодные» зоны магазина. Они помогают подтвердить или опровергнуть принятые правила выкладки товара и привлечь покупателей к определенным полкам. «Тепловые карты» помогают маркетологам точнее планировать торговое пространство: от размещения информации об акциях в наиболее проходимых местах магазина до продажи площадей арендаторам в торговых центрах.

Промышленность

В 2015 году основатель Всемирного экономического форума Клаус Шваб впервые употребил термин «Четвёртая промышленная революция», или Индустрия 4.0. Это понятие включает в себя новый подход к производству, основанный на проникновении технологий во все сферы экономики.

Одна из характерных особенностей Индустрии 4.0 — внедрение в работу промышленных предприятий искусственного интеллекта. К технологиям компьютерного зрения, используемым на производстве, также применяется термин «машинное зрение‎» (Machine Vision). С помощью MV полностью автоматизируются процессы сборки, обнаружения дефектов, лазерной резки и других процессов, для которых раньше требовалась специальная подготовка специалистов.

Например, специалисты SimbirSoft приняли участие в разработке приложения, позволяющего вести учет сырья в лесной промышленности. Используя алгоритмы машинного обучения, система позволяет измерять диаметр стволов деревьев по фото с точностью до сантиметра. Подробнее о ходе реализации проекта мы рассказали здесь.

Безопасность и охрана труда – другая важная область применения машинного зрения в промышленном секторе. Системы распознавания лиц востребованы на пультах управления или на производственных линиях, где важно соблюдать высокий уровень концентрации. Так, системы помогают убедиться, что специалист контролирует производственный процесс в соответствии с регламентом. В случае аварии – информируют персонал о месте и степени критичности инцидента.

Медицина

Внедрение технологий компьютерного зрения в медицине открывает возможности для изучения широкого спектра заболеваний. Алгоритмы анализируют медицинские изображения (рентгеновские снимки, МРТ, УЗИ) и помогают повысить точность диагностики заболеваний. В частности, на изображении могут присутствовать мелкие детали, не заметные для человеческого глаза, которые система CV распознает практически безошибочно.

Например, разработанная Microsoft система InnerEye может анализировать наличие аномальных образований по данным компьютерной томографии и широко применяется при лучевой терапии в лечении рака. Компания также выступает за демократизацию CV-технологий в мединдустрии. В 2020 году пакет программ InnerEye был выложен в открытый доступ, позволив healthtech-провайдерам использовать модели машинного обучения для интегрирования в собственные системы.

Нейросетевые алгоритмы также используются в компьютерной диагностике для планирования персональной терапии и повышения верности принятых решений. В телемедицине CV-технологии помогают провести первичную диагностику некоторых заболеваний по фотографии без необходимости посещения кабинета врача.

Несмотря на свою прогрессивность и востребованность, компьютерное зрение неминуемо сталкивается с рядом технических проблем и ограничений:

Высокая потребность в размеченных данных. Среди всех этапов подготовки датасетов для разработки алгоритмов компьютерного зрения процесс разметки – наиболее длительный и затратный. Вместе с тем, количество изображений и качество разметки во многом определяют качество итоговых моделей.

Как следствие, внедрение алгоритмов компьютерного зрения может быть затруднено в областях, для которых сбор и разметка датасета нужного объема затруднены или невозможны.
Интерпретируемость результатов работы алгоритма. Традиционный подход к моделям машинного обучения — черный ящик. Мы видим вход и выход, но не можем сказать, почему на выходе получен именно такой результат. Такое отсутствие интерпретируемости порождает недоверие к алгоритмам CV, особенно в областях с высокой ценой ошибки (например, в медицине).

По предварительной оценке TAdviser, российский рынок CV может достигнуть объема в почти 40 млрд рублей к 2025 году, показав пятикратный рост с момента проведения исследования в 2019 году.

Сегодня можно выделить следующие тенденции развития CV-технологий:

Появление эффективных алгоритмов и способов обучения, которые позволят обучать качественные модели на небольших датасетах.

Сейчас для обучения модели под новую задачу требуется от нескольких сотен до нескольких тысяч размеченных изображений. Сбор и разметка такого датасета потребуют затрат, а в некоторых случаях это и вовсе невозможно. Таким образом, индустрии необходимо научиться работать с данными более эффективно.

Развитие мультимодальных моделей, способных обрабатывать данные нескольких типов одновременно — например, изображения и текст.

Существующие сегодня модели способны более-менее точно работать либо с текстами, либо с картинками. Однако эти типы данных часто встречаются вместе: текст с иллюстрациями, видео с субтитрами и комментариями и т.д. Есть все основания полагать, что обработка таких ситуаций одной моделью упростит процесс разработки алгоритма и значительно повысит точность результата.

Появление новых сценариев применения — например, ответы на вопросы по изображениям и видео, задаваемые и генерируемые на естественном языке.

Сейчас работа с картинками сводится, как правило, к ее классификации, сегментации или детекции объектов. Интерпретация результатов, их преобразование в понятный человеку результат, фильтрация и прочее реализуются отдельными алгоритмами или с использованием дополнительных моделей. Идея объединения модели и алгоритмов постобработки в единой модели видится вполне перспективной. Имеющееся на входе видео на выходе преобразуется в текстовое описание произошедших событий. На входе описание ситуации — на выходе набор картинок, изображающих эту ситуацию. На входе картинка и вопрос — на выходе ответ на вопрос на основе картинки. Такое решение позволит повысить качество получаемых результатов и упростить разработку.

Вместо вывода

Сфера применения CV-технологий расширяется год за годом. Остается все меньше отраслей бизнеса, где нейросети не смогли бы прийти на помощь человеку, а иногда и полностью заменить ручной труд или автоматизировать рутинные задачи.

Отношение к компьютерному зрению может быть неоднозначным. С одной стороны, технология поднимает много этических вопросов и регулируется на законодательном уровне во многих странах. С другой, она является мощным исследовательским инструментом, к которому все чаще обращается бизнес – на волне интереса к алгоритмам искусственного интеллекта. По всем прогнозам, в обозримом будущем стремительно развивающийся рынок компьютерного зрения ждет еще больший рост.

Здесь можете посмотреть, как мы уже более 10 лет используем Data Science для решения задач клиентов. А если остались вопросы, пишите в комментарии или в личку, постараюсь ответить.

Компьютерное зрение: тренды, рынок, перспективы

Тренды и направления исследований CV

Области применения CV

Современные проблемы CV

Будущее компьютерного зрения