Ученые ищут способ обучения компьютеров для решения неопределенных ситуаций

Исследователи разрабатывают алгоритм, который решает, когда «студенческая» машина должна следовать за своим учителем, а когда она должна учиться самостоятельно.

Кто-то, кто учится играть в теннис, может нанять тренер, чтобы помочь ему учиться быстрее. Поскольку этот учитель (надеюсь) отличный теннисист, бывают случаи, когда попытка точно подражать учителю не поможет ученику учиться.

Возможно, тренер подпрыгивает высоко в воздух, чтобы ловко нанести ответный удар. Ученик, неспособный повторить это, может вместо этого попробовать несколько другие движения самостоятельно, пока не овладеет навыками, необходимыми для ответного удара.

Ученые-информатики также могут использовать системы «учителей», чтобы научить другую машину выполнять задачу. Но, как и в случае с человеческим обучением, машина-ученик сталкивается с дилеммой: когда следовать за учителем, а когда исследовать самостоятельно. С этой целью исследователи из Массачусетского технологического института и Техниона, Израильского технологического института, разработали алгоритм, который автоматически и независимо определяет, когда учащийся должен подражать учителю (известное как имитационное обучение), а когда вместо этого он должен учиться методом проб и ошибок (известное как имитационное обучение). как обучение с подкреплением).

Их динамический подход позволяет ученику отказаться от копирования учителя, когда тот слишком хорош или недостаточно хорош, но затем вернуться к следованию за учителем на более позднем этапе процесса обучения, если это позволит достичь лучших результатов и ускорить обучение.

Когда исследователи проверили этот подход на моделировании, они обнаружили, что их комбинация обучения методом проб и ошибок и имитационного обучения позволяет учащимся усваивать задания более эффективно, чем методы, использующие только один тип обучения.

Этот метод может помочь исследователям улучшить процесс обучения машин, которые будут задействованы в неопределенных реальных ситуациях, например, робота обучают перемещаться внутри здания, которого он никогда раньше не видел.

«Эта комбинация обучения методом проб и ошибок и следования за учителем очень эффективна. Это дает нашему алгоритму возможность решать очень сложные задачи, которые невозможно решить с помощью какой-либо техники по отдельности», — говорит Идан Шенфельд, аспирант по электротехнике и компьютерным наукам (EECS) и ведущий автор статьи об этой методике.

Шенфельд написал статью в соавторстве с Чжан-Вей Хун, аспирантом EECS; Авив Тамар; доцент электротехники и информатики в Технионе; и старший автор Пулкит Агравал, директор Improbable AI Lab и доцент Лаборатории компьютерных наук и искусственного интеллекта. Исследование будет представлено на Международной конференции по машинному обучению.

Многие существующие методы, которые стремятся найти баланс между имитационным обучением и обучением с подкреплением, делают это методом проб и ошибок методом грубой силы. Исследователи выбирают взвешенную комбинацию двух методов обучения, проводят всю процедуру обучения, а затем повторяют процесс, пока не найдут оптимальный баланс. Это неэффективно и зачастую настолько затратно с вычислительной точки зрения, что даже неосуществимо.

Нам нужны принципиальные алгоритмы, предусматривающие настройку как можно меньшего числа ручек и обеспечивающие высокую производительность — эти принципы лежат в основе наших исследований
Агравал

Чтобы достичь этого, команда подошла к проблеме иначе, чем в предыдущей работе. Их решение включает в себя обучение двух студентов: одного с взвешенной комбинацией обучения с подкреплением и имитационного обучения, а второго, который может использовать только обучение с подкреплением для выполнения той же задачи.

Основная идея состоит в том, чтобы автоматически и динамически регулировать взвешивание целей обучения с подкреплением и имитацией первого ученика. Здесь в игру вступает второй ученик. Алгоритм исследователей постоянно сравнивает двух студентов. Если тот, кто использует учителя, добивается большего успеха, алгоритм придает большее значение имитационному обучению для обучения ученика, но если тот, кто использует только метод проб и ошибок, начинает получать лучшие результаты, он будет больше фокусироваться на обучении с подкреплением.

Динамически определяя, какой метод дает лучшие результаты, алгоритм является адаптивным и может выбирать лучший метод на протяжении всего тренировочного процесса. По словам Шенфельда, благодаря этой инновации он может более эффективно обучать студентов, чем другие неадаптивные методы.

Одной из основных проблем при разработке этого алгоритма было то, что нам потребовалось некоторое время, чтобы понять, что мы не должны обучать двух студентов по отдельности. Стало ясно, что нам нужно связать агентов, чтобы они обменивались информацией, а затем найти правильный способ технически обосновать эту интуицию
Шенфельд

Чтобы проверить свой подход, исследователи поставили множество смоделированных обучающих экспериментов между учителем и учеником, таких как навигация по лабиринту лавы, чтобы добраться до другого угла сетки. В этом случае у учителя есть карта всей сетки, а ученик может видеть только участок перед ней. Их алгоритм достиг почти идеального показателя успеха во всех средах тестирования и был намного быстрее, чем другие методы.

Чтобы подвергнуть свой алгоритм еще более сложному испытанию, они организовали симуляцию, включающую роботизированную руку с сенсорными датчиками, но без зрения, которая должна переориентировать ручку в правильную позу. Учитель имел доступ к фактической ориентации пера, в то время как ученик мог использовать сенсорные датчики только для определения ориентации пера.

Их метод превзошел другие, которые использовали либо только имитационное обучение, либо только обучение с подкреплением.

Агравал добавляет, что переориентация объектов — одна из многих манипуляционных задач, которые должен будет выполнять домашний робот будущего, над чем работает лаборатория Improbable AI.

Обучение «учитель-ученик» успешно применялось для обучения роботов выполнять сложные манипуляции с объектами и передвижение в моделировании, а затем передавать полученные навыки в реальный мир. В этих методах учитель имеет привилегированную информацию, доступную из симуляции, которой не будет у ученика, когда она будет развернута в реальном мире. Например, учитель будет знать подробную карту здания, по которому обучается перемещаться робот-ученик, используя только изображения, снятые его камерой.

Существующие методы обучения робототехнике «ученик-учитель» не учитывают неспособность ученика подражать учителю и, таким образом, ограничены в производительности. Новый метод прокладывает путь к созданию превосходных роботов
Агравал

Исследователи считают, что помимо более совершенных роботов их алгоритм может повысить производительность в различных приложениях, где используется имитация или обучение с подкреплением. Например, большие языковые модели, такие как GPT-4, очень хорошо справляются с широким кругом задач, поэтому, возможно, можно использовать большую модель в качестве учителя для обучения меньшей модели ученика, чтобы она «лучше» справлялась с одной конкретной задачей. . Еще одно интересное направление — исследовать сходства и различия между машинами и людьми, которые учатся у своих учителей. Исследователи говорят, что такой анализ может помочь улучшить процесс обучения.

«Что интересно в этом подходе по сравнению с родственными методами, так это то, насколько надежным он кажется при выборе различных параметров, а также в различных областях, в которых он показывает многообещающие результаты», — говорит Абхишек Гупта, доцент Вашингтонского университета, не принимавший участия в исследованиях. эта работа. «Хотя текущий набор результатов в основном связан с моделированием, я очень взволнован будущими возможностями применения этой работы к проблемам, связанным с памятью и рассуждениями с различными модальностями, такими как тактильное восприятие».

«Эта работа представляет собой интересный подход к повторному использованию предыдущей вычислительной работы в обучении с подкреплением. В частности, предлагаемый ими метод может использовать неоптимальную политику учителя в качестве руководства, избегая при этом тщательных графиков гиперпараметров, требуемых предыдущими методами для балансировки целей имитации учителя и оптимизации вознаграждения за задание», — добавляет Ришаб Агарвал, старший научный сотрудник Google Brain, который также не участвовал в этом исследовании. «Надеюсь, эта работа сделает повторное обучение с подкреплением менее громоздким».

Это исследование было частично поддержано Лабораторией искусственного интеллекта Watson AI Lab MIT-IBM, Hyundai Motor Company, программой DARPA Machine Common Sense Program и Управлением военно-морских исследований.

PS. лайк, пожалуйста, он помогает продвижению статьи.

Ну и как положено на VC, канал телеграм))) Канал и чатик

Туда выкладываю статьи VC и то, что нет в VC. Мысли, идеи, опыт.

В закрепленных канале всегда telegram боты Kolersky для доступа в ChatGPT, GPT-4 без VPN, а так же генераторы изображений Midjourney, Dall-e, Stable Diffusion+ (все проекты: KolerskyAI).

Ученые ищут способ обучения компьютеров для решения неопределенных ситуаций

Нахождение баланса

Решение сложных проблем