Новый взгляд на мир: как компьютерное зрение научилось понимать назначение предметов

Современные технологии компьютерного зрения достигли впечатляющих успехов в распознавании объектов. Системы способны с высокой точностью отличать кошку от собаки или чашку от чайника. Однако до сих пор им не хватало более глубокого понимания — зачем существует тот или иной предмет и как им пользоваться.

Новый взгляд на мир: как компьютерное зрение научилось понимать назначение предметов

Представьте себе робота на кухне, которому поручено заварить чай. Он может идентифицировать чайник, но не понимает, как его правильно взять, где находится носик для наливания воды или как открыть крышку. Эта ограниченность в функциональном понимании является серьезным препятствием на пути к созданию по-настоящему интеллектуальных роботов, способных к осмысленным действиям.

Решением этой проблемы стала разработка новой системы компьютерного зрения, способной не только распознавать объекты, но и понимать их назначение. Это достижение открывает двери для создания роботов, которые смогут самостоятельно выбирать необходимые инструменты и использовать их с такой же интуицией и эффективностью, как человек.

Ключевым прорывом в новой модели является ее способность улавливать функциональное сходство между объектами, даже если они имеют совершенно разный внешний вид. Например, система может понять, что носик чайника и горлышко бутылки выполняют одну и ту же функцию — наливание жидкости. «Наша модель способна анализировать изображения стеклянной бутылки и чайника, распознавать их носики и, что более важно, понимать, что эти носики используются для наливания», — поясняет Стефан Стоянов, постдокторант Стэнфорда и один из авторов исследования. «Наша цель — создать систему зрения, которая сможет обобщать знания, перенося навыки работы с одним объектом на другой для достижения той же цели».

Задача определения функционального соответствия между объектами является одной из наиболее сложных в области компьютерного зрения. До сих пор существующие системы могли лишь приблизительно определять ключевые точки на предметах. Команда специалистов из Стэнфорда добилась значительного прогресса, достигнув «плотного» соответствия. Их модель анализирует каждый пиксель изображения, позволяя точно сопоставлять функциональные части различных объектов.

Революционным шагом в разработке стало использование обучения с помощью других искусственных интеллектов. Чтобы избежать трудоемкой ручной разметки данных, ученые применили метод «слабого надзора». Крупные языковые модели помогали автоматически выявлять функциональные детали, такие как ручки, лезвия или носики, а эксперты лишь проверяли полученные результаты. Такой подход значительно ускорил процесс обучения и позволил системе развиваться без необходимости постоянного вмешательства человека. «В отличие от традиционного обучения, где люди вручную размечают изображения, человеку невозможно индивидуально выравнивать тысячи пикселей между двумя разными объектами», — отмечает соавтор технологии Линан Чжао. «Поэтому мы привлекли ИИ для помощи».

Потенциал практического применения этой технологии огромен. Домашний робот, оснащенный такой системой, сможет самостоятельно осваивать работу с различными инструментами. Он сможет понять, что хлебный нож и нож для масла, несмотря на внешние различия, оба предназначены для резки, но с разными целями. Робот-помощник сможет выбрать подходящий инструмент для конкретной задачи, например, мясной тесак вместо хлебного ножа или лопату вместо мастерка. Хотя на данный момент система протестирована только на изображениях, ее создатели уверены, что их подход кардинально изменит направление развития компьютерного зрения.

1
2 комментария