Человеческое зрение — вызов для искусственного интеллекта

Достижение машинами уровня человеческого зрения — одна из главных задач в области разработки ИИ на сегодняшний день. В большинстве случаев мы распознаём окружающие нас объекты лучше, чем искусственный интеллект, однако он постепенно догоняет нас в этом навыке.

«Люди в течение дня могут без особого труда переключаться между разнообразными задачами, например – вождением автомобиля, дайвингом, чтением газеты и ходьбой по густому лесу. Но для роботов на современном этапе это немыслимо», – говорит Михаэль Фельсберг, профессор шведского Университета Линчёпинга и один из ведущих исследователей в области компьютерного зрения и искусственного интеллекта.

По различным оценкам, около 80% информации о мире люди получают именно благодаря зрению, что делает глаза самым важным органом чувств. Михаэль Фельсберг в своих разработках сосредоточен как раз на том, чтобы создать искусственную зрительную систему и научить компьютеры видеть так же хорошо, как и люди.

«Биологические системы работают сами по себе. Люди обладают замечательными способностями к общему восприятию и анализу – навыками, которым мы хотим научить компьютеры. Сегодня мы можем создавать системы, которые хорошо справляются только с конкретной задачей. Пример такой системы – беспилотные автомобили – они могут отслеживать и анализировать ситуацию на дороге. Однако в будущем мы хотим создать роботов, которые будут видеть мир так же, как и мы», – продолжает Михаэль Фельсберг.

Когда исследования ИИ только начинались, учёным казалось, что проблему компьютерного зрения можно решить с помощью простой камеры.

Теперь, спустя почти 60 лет с того момента, эта проблема стала одной из самых важных в исследованиях ИИ.
Михаэль Фельсберг

Михаэль Фельсберг и его коллеги тестируют свои разработки в лаборатории машинного зрения в университетском кампусе в шведском городе Линчёпинг. Здесь проходят испытания автономные дроны и небольшие беспилотные автомобили, оснащённые самыми современными датчиками и камерами. Но настоящий «мозг» компьютерного зрения находится вовсе не в камере.

«Камера — это просто датчик освещённости. Основную работу выполняют код и программное обеспечение камеры. Точно так же это происходит с людьми: глаз регистрирует световые сигналы, а мозг выполняет всю работу», – говорит Михаэль Фельсберг.

Разработчики ИИ постоянно (и с переменным успехом) предпринимают попытки подражать человеческому мозгу. Сегодня чаще всего используется метод машинного обучения, также называемый глубинным. Упрощённо его можно изложить так: компьютер сам изучает и на нескольких уровнях анализирует модели, организованные посредством нейронных сетей из большого объёма данных. Это может показаться сложным — и так оно и есть, поскольку даже среди разработчиков ИИ никто не может с точностью сказать, что происходит на «нижних уровнях» ИИ во время такого обучения.

Михаэль Фельсберг проводит параллели с человеческим мозгом:

«На сканировании мозга можно увидеть, какие участки реагируют на различные типы раздражителей. Но мы до сих пор не знаем, что на самом деле происходит в мозге при формировании мысли. Глубинное обучение работает примерно так же».

Почему же компьютерам так сложно видеть то же самое, что видим мы? Ответ кроется в способности нашего мозга быстро адаптироваться к различным ситуациям и постоянной связи между нашим восприятием окружающего мира и активной когнитивной деятельностью.

Взгляд через грязное оконное стекло – понятный пример того, почему зрение людей на порядки лучшего компьютерного. Несмотря на грязь на стекле, человек сразу видит и понимает, что именно происходит за окном.

В аналогичной ситуации компьютер сперва сфокусируется на грязи. И даже когда он настроит фокус на то, что происходит за стеклом, он всё равно не сможет полностью воспринять картину, поскольку грязь мешает полному обзору.

Тем не менее, уже сейчас компьютерное зрение превосходит человеческое, когда речь идёт о точных оценках температур и расстояний. Но в этом случае машинное зрение просто дополняет наше собственное, а не совершает на его основе свои выводы для дальнейших действий.
Михаэль Фельсберг

«Система работает хорошо, пока всё соответствует ожиданиям. Однако если она столкнётся с чем-то непредвиденным, будут проблемы. Мы должны трудиться над тем, чтобы сделать системы компьютерного зрения более надёжными», – добавляет Михаэль Фельсберг.

По его словам, общая ситуационная осведомлённость (понимание происходящего вокруг и прогнозирование возможных угроз) у компьютеров может появиться ещё при нашей жизни. Однако создание связи между осведомлённостью и процессом познания, вероятно, произойдёт только в далёком будущем.

Создание полноценного компьютерного зрения станет большим рывком для дальнейшего развития технологий. Более безопасные беспилотные автомобили, более функциональные роботы и программы, оптимизация производственных процессов.

Однако стоит помнить, что многие области использования ИИ рискуют нарушить приватность частной жизни при обработке больших объёмов персональных данных. Именно по этой причине Михаэль Фельсберг и его исследовательская группа, в первую очередь, сосредоточены на том, чтобы задействовать искусственный интеллект и постоянно улучшающееся компьютерное зрение в борьбе с изменением климата.