Когда компьютерное зрение работает как мозг, оно видит лучше, чем люди

Обучение искусственных нейронных сетей с использованием данных, полученных из реального мозга, может сделать компьютерное зрение более надежным.

Когда компьютерное зрение работает как мозг, оно видит лучше, чем люди

Многие современные технологии - от фотоаппаратов до самоуправляемых автомобилей - зависят от искусственного интеллекта, позволяющего извлекать смысл из визуальной информации.

В основе современных технологий искусственного интеллекта лежат искусственные нейронные сети, и в большинстве случаев мы можем доверять этим системам компьютерного зрения, которые видят вещи так же, как и мы, но иногда они дают сбои.

По мнению ученых из Массачусетского технологического института и IBM, один из способов улучшить компьютерное зрение - это научить искусственные нейронные сети, на которые они опираются, намеренно имитировать способ обработки зрительных образов биологической нейронной сетью мозга.

Один из способов улучшить компьютерное зрение - это научить искусственные нейронные сети, на которые они опираются, намеренно имитировать способ обработки зрительных образов биологической нейронной сетью мозга

Исследователи под руководством профессора Массачусетского технологического института Джеймса ДиКарло (James DiCarlo), директора MIT's Quest for Intelligence и члена MIT-IBM Watson AI Lab, сделали модель компьютерного зрения более надежной, обучив ее работать подобно той части мозга, на которую опираются люди и другие приматы при распознавании объектов.

В мае этого года на Международной конференции по изучению репрезентаций команда сообщила, что при обучении искусственной нейронной сети с использованием паттернов нейронной активности в нижней височной (IT) коре головного мозга искусственная нейронная сеть оказалась более надежной в распознавании объектов на изображениях, чем модель, не имеющая такой нейронной подготовки. При этом интерпретация изображений моделью более точно соответствовала тому, что видел человек, даже когда изображения содержали незначительные искажения, усложняющие задачу.

Сравнение нейронных схем

Создано в <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fkolersky.com%2Fmj&postId=764401" rel="nofollow noreferrer noopener" target="_blank">Midjourney</a>
Создано в Midjourney

Многие искусственные нейронные сети, используемые в компьютерном зрении, уже напоминают многослойные схемы мозга, обрабатывающие визуальную информацию у человека и других приматов. Как и в мозге, в них используются нейроноподобные блоки, которые работают вместе для обработки информации. При обучении решению конкретной задачи эти многослойные компоненты коллективно и постепенно обрабатывают визуальную информацию для выполнения задания - например, определяют, что на изображении изображен медведь, машина или дерево.

ДиКарло и другие исследователи ранее обнаружили, что когда такие системы компьютерного зрения с глубоким обучением находят эффективные способы решения визуальных задач, то в итоге получаются искусственные схемы, работающие аналогично нейронным схемам, обрабатывающим визуальную информацию в нашем мозге. То есть они оказываются удивительно хорошими научными моделями нейронных механизмов, лежащих в основе зрения приматов и человека.

Это сходство помогает нейробиологам глубже понять мозг. Демонстрируя способы обработки визуальной информации для осмысления изображений, вычислительные модели выдвигают гипотезы о том, как мозг может решать ту же задачу. По мере того как разработчики продолжают совершенствовать модели компьютерного зрения, нейробиологи находят новые идеи для своей работы.

"По мере того как системы технического зрения становятся все более совершенными в реальном мире, некоторые из них оказываются более похожими на человека по своим внутренним процессам. Это полезно с точки зрения понимания биологии", - говорит ДиКарло, который также является профессором кафедры мозга и когнитивных наук и исследователем в Институте Макговерна по изучению мозга.

Разработка более ''мозгоподобного'' ИИ

Несмотря на многообещающий потенциал, системы компьютерного зрения пока не являются совершенными моделями человеческого зрения. ДиКарло полагает, что одним из способов улучшения компьютерного зрения может быть включение в эти модели специфических особенностей, напоминающих мозг.

Чтобы проверить эту идею, он и его коллеги построили компьютерную модель зрения, используя нейронные данные, собранные ранее с нейронов, обрабатывающих зрение в IT-коре обезьян - ключевой части вентрального зрительного пути приматов, участвующей в распознавании объектов, - во время просмотра животными различных изображений. В частности, Джоэл Дапелло, аспирант Гарвардского университета и бывший стажер MIT-IBM Watson AI Lab, и Кохитидж Кар, доцент и заведующий кафедрой канадских исследований (Visual Neuroscience) в Йоркском университете и приглашенный ученый в MIT; в сотрудничестве с Дэвидом Коксом, вице-президентом IBM Research по моделям ИИ и директором лаборатории ИИ MIT-IBM Watson, и другими исследователями из IBM Research и MIT попросили искусственную нейронную сеть имитировать поведение нейронов, обрабатывающих зрительные сигналы приматов, пока сеть училась идентифицировать объекты в стандартной задаче компьютерного зрения.

По сути, мы сказали сети: "Пожалуйста, решите эту стандартную задачу компьютерного зрения, но при этом сделайте так, чтобы функция одного из ваших внутренних смоделированных "нейронных" слоев была максимально похожа на функцию соответствующего биологического нейронного слоя", - поясняет ДиКарло. "Мы попросили его сделать обе эти вещи как можно лучше". По его словам, это заставило искусственные нейронные цепи найти иной способ обработки визуальной информации, чем стандартный подход к компьютерному зрению.

После обучения искусственной модели на биологических данных команда ДиКарло сравнила ее активность с аналогичной по размеру нейросетевой моделью, обученной без нейронных данных, используя стандартный подход для компьютерного зрения. Они обнаружили, что новый, биологически информированный слой IT-модели - как и было предписано - лучше соответствовал нейронным данным IT. То есть для каждого тестируемого изображения популяция искусственных нейронов ИТ в модели реагировала более сходно с соответствующей популяцией биологических нейронов ИТ.

Исследователи также обнаружили, что модель ИТ лучше соответствовала нейронным данным, полученным от другой обезьяны, даже если модель никогда не видела данных от этого животного, и даже когда сравнение проводилось по реакции ИТ этой обезьяны на новые изображения. Это указывает на то, что новая компьютерная модель, "нейронно согласованная", может быть улучшенной моделью нейробиологической функции ИТ-коры приматов - интересный вывод, учитывая, что ранее было неизвестно, может ли объем нейронных данных, которые в настоящее время могут быть собраны в зрительной системе приматов, непосредственно направлять развитие модели.

Имея на руках новую компьютерную модель, команда задалась вопросом, приводит ли процедура "нейронного выравнивания ИТ" к каким-либо изменениям в общих поведенческих характеристиках модели. И действительно, оказалось, что нейронно-выровненная модель более похожа на человека по своему поведению - она, как правило, преуспевает в правильной категоризации объектов на тех изображениях, на которых преуспевает и человек, и терпит неудачу в тех случаях, когда человек также терпит неудачу.

Состязательные атаки

Группа исследователей также обнаружила, что нейросетевая модель оказалась более устойчивой к "атакам противника", которые разработчики используют для тестирования систем компьютерного зрения и ИИ. В компьютерном зрении атаки противника вносят в изображения небольшие искажения, которые призваны ввести искусственную нейронную сеть в заблуждение.

Допустим, у вас есть изображение, которое модель идентифицирует как кошку. Поскольку вы обладаете знаниями о внутреннем устройстве модели, вы можете внести очень небольшие изменения в изображение, чтобы модель вдруг решила, что это уже не кошка

ДиКарло

Такие незначительные искажения, как правило, не обманывают человека, но модели компьютерного зрения с трудом справляются с этими изменениями. Человек, который смотрит на слегка искаженную кошку, по-прежнему надежно и уверенно сообщает, что это кошка. Однако стандартные модели компьютерного зрения с большей вероятностью примут кошку за собаку или даже за дерево.

"Должны быть какие-то внутренние различия в том, как наш мозг обрабатывает изображения, которые приводят к тому, что наше зрение оказывается более устойчивым к такого рода атакам", - говорит ДиКарло. И действительно, команда обнаружила, что когда они сделали свою модель более нейронно согласованной, она стала более устойчивой, правильно идентифицируя больше изображений перед лицом враждебных атак. Модель все еще может быть обманута более сильными "атаками", но и люди тоже, говорит ДиКарло. В настоящее время его команда изучает пределы устойчивости к состязаниям у людей.

Несколько лет назад команда ДиКарло обнаружила, что можно также повысить устойчивость модели к атакам со стороны противника, разработав первый слой искусственной сети, имитирующий ранний слой визуальной обработки в мозге. Следующим ключевым шагом является комбинирование таких подходов - создание новых моделей, которые будут одновременно нейронно согласованы на нескольких слоях визуальной обработки.

Новая работа является еще одним доказательством того, что обмен идеями между нейронауками и компьютерными науками может способствовать прогрессу в обеих областях. "Каждый получает что-то от захватывающего цикла между естественным/биологическим интеллектом и искусственным интеллектом", - говорит ДиКарло. "В данном случае исследователи компьютерного зрения и искусственного интеллекта получают новые способы достижения надежности, а нейробиологи и когнитологи - более точные механистические модели человеческого зрения".

Исследование написано при поддержке лаборатории искусственного интеллекта MIT-IBM Watson, компании Semiconductor Research Corporation, стипендии MIT Shoemaker, Фонда Саймонса и программы Canada Research Chair.

PS. лайк, пожалуйста, он помогает продвижению статьи.

Ну и как положено на VC, канал телеграм))) Канал и чатик

Туда выкладываю статьи VC и то, что нет в VC. Мысли, идеи, опыт.

В закрепленных канале всегда telegram боты Kolersky для доступа в ChatGPT, GPT-4 без VPN, а так же генераторы изображений Midjourney, Dall-e, Stable Diffusion+ (все проекты: KolerskyAI).

66
3 комментария

передать ии чьи-то воспоминания или сны - "мир дикого запада" вам в помощь))

Ответить

Я в шоке (и в восторге) с того, как быстро развивается ИИ

Ответить

Интересно

Ответить