Более быстрый и хороший способ обучения роботов общего назначения

Вдохновленные крупными языковыми моделями, исследователи разрабатывают методику обучения, которая объединяет разнообразные данные для обучения роботов новым навыкам.

Подпись:Исследователи сняли на видео несколько случаев, когда роботизированная рука кормит очаровательную собаку соавтора Цзяляна Чжао, Момо
Подпись:Исследователи сняли на видео несколько случаев, когда роботизированная рука кормит очаровательную собаку соавтора Цзяляна Чжао, Момо

В классическом мультфильме «Джетсоны» робот-горничная Рози плавно переключается с уборки дома на приготовление ужина и вынос мусора. Но в реальной жизни обучение универсального робота остается серьезной проблемой.

Обычно инженеры собирают данные, которые относятся к определенному роботу и задаче, которые они используют для обучения робота в контролируемой среде. Однако сбор этих данных является дорогостоящим и отнимает много времени, и роботу, скорее всего, будет трудно адаптироваться к средам или задачам, с которыми он раньше не сталкивался.

Для более качественной подготовки роботов общего назначения исследователи Массачусетского технологического института разработали универсальную методику, объединяющую огромный объем разнородных данных из множества источников в одну систему, способную обучить любого робота широкому спектру задач.

Их метод заключается в объединении данных из различных областей, таких как моделирование и реальные роботы, а также из множества модальностей, включая датчики зрения и датчики положения роботизированной руки, в общий «язык», который может обрабатывать генеративная модель ИИ.

Сгенерирована через сервис <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fkolersky.com%2Fmj&postId=1631841" rel="nofollow noreferrer noopener" target="_blank">KolerskyAI </a>(нейросеть Midjourney)
Сгенерирована через сервис KolerskyAI (нейросеть Midjourney)

Объединив такой огромный объем данных, этот подход можно использовать для обучения робота выполнению различных задач без необходимости каждый раз начинать его обучение с нуля.

Этот метод может быть быстрее и менее затратным, чем традиционные методы, поскольку он требует гораздо меньше данных, специфичных для конкретной задачи. Кроме того, он превзошел обучение с нуля более чем на 20 процентов в симуляциях и реальных экспериментах.

В робототехнике люди часто утверждают, что у нас недостаточно данных для обучения. Но, на мой взгляд, еще одна большая проблема заключается в том, что данные поступают из множества различных областей, модальностей и аппаратного обеспечения робота. Наша работа показывает, как можно обучить робота, если собрать их все вместе

Лируй Ван, аспирант кафедры электротехники и информатики (EECS)

Соавторами Вана являются аспирант EECS Цзялян Чжао; Синлей Чэнь, научный сотрудник Meta; и старший автор Каймин Хэ, доцент EECS и член Лаборатории компьютерных наук и искусственного интеллекта (CSAIL). Исследование будет представлено на конференции по системам обработки нейронной информации.

Вдохновлено LLM

Роботизированная «политика» учитывает данные датчиков, такие как изображения с камер или проприоцептивные измерения, которые отслеживают скорость и положение роботизированной руки, а затем сообщает роботу, как и куда двигаться.

Политики обычно обучаются с помощью имитационного обучения, то есть человек демонстрирует действия или телеуправляет роботом для генерации данных, которые подаются в модель ИИ, которая изучает политику. Поскольку этот метод использует небольшой объем данных, специфичных для задачи, роботы часто терпят неудачу, когда их среда или задача меняются.

Чтобы разработать лучший подход, Ван и его коллеги черпали вдохновение из крупных языковых моделей, таких как GPT-4.

Эти модели предварительно обучаются с использованием огромного количества разнообразных языковых данных, а затем настраиваются путем подачи им небольшого количества данных, специфичных для конкретной задачи. Предварительное обучение на таком большом количестве данных помогает моделям адаптироваться для эффективной работы с различными задачами.

В языковой области данные — это просто предложения. В робототехнике, учитывая всю неоднородность данных, если вы хотите проводить предварительную подготовку аналогичным образом, нам нужна другая архитектура

Ван

Роботизированные данные принимают множество форм: от изображений с камер до языковых инструкций и карт глубины. В то же время каждый робот механически уникален, с разным количеством и ориентацией рук, захватов и датчиков. Кроме того, среды, в которых собираются данные, сильно различаются.

Исследователи Массачусетского технологического института разработали новую архитектуру под названием «Гетерогенные предварительно обученные преобразователи» (HPT), которая объединяет данные из различных модальностей и доменов.

Они поместили модель машинного обучения, известную как трансформатор, в середину своей архитектуры, которая обрабатывает зрительные и проприоцептивные входы. Трансформатор — это тот же тип модели, который формирует костяк больших языковых моделей.

Исследователи выравнивают данные от зрения и проприоцепции в один и тот же тип ввода, называемый токеном, который может обрабатывать трансформатор. Каждый ввод представлен одним и тем же фиксированным числом токенов.

Затем преобразователь сопоставляет все входы в одно общее пространство, превращаясь в огромную, предварительно обученную модель по мере обработки и обучения на большем количестве данных. Чем больше становится преобразователь, тем лучше он будет работать.

Пользователю нужно только предоставить HPT небольшой объем данных о конструкции робота, настройке и задаче, которую он хочет, чтобы он выполнил. Затем HPT передает знания, полученные трансформатором во время предварительной подготовки, чтобы изучить новую задачу.

Обеспечение ловких движений

Одной из самых сложных задач при разработке HPT было создание огромного набора данных для предварительной подготовки трансформатора, который включал 52 набора данных с более чем 200 000 траекторий робота в четырех категориях, включая демонстрационные видеоролики с участием людей и моделирование.

Исследователям также необходимо было разработать эффективный способ преобразования необработанных проприорецептивных сигналов от массива датчиков в данные, которые мог бы обработать преобразователь.

Проприоцепция — это ключ к выполнению множества ловких движений. Поскольку количество токенов в нашей архитектуре всегда одинаково, мы придаем одинаковое значение проприоцепции и зрению

Ван

Когда они протестировали HPT, он улучшил производительность робота более чем на 20 процентов на симуляциях и реальных задачах по сравнению с обучением с нуля каждый раз. Даже когда задача сильно отличалась от данных до обучения, HPT все равно улучшил производительность.

«В этой статье представлен новый подход к обучению единой политики в нескольких вариантах роботов. Это позволяет проводить обучение в различных наборах данных, что позволяет методам обучения роботов значительно увеличивать размер наборов данных, на которых они могут обучаться. Это также позволяет модели быстро адаптироваться к новым вариантам роботов, что важно, поскольку постоянно производятся новые конструкции роботов», — говорит Дэвид Хелд, доцент Института робототехники Университета Карнеги-Меллона, который не принимал участия в этой работе.

В будущем исследователи хотят изучить, как разнообразие данных может повысить производительность HPT. Они также хотят улучшить HPT, чтобы он мог обрабатывать немаркированные данные, такие как GPT-4 и другие большие языковые модели.

Наша мечта — иметь универсальный мозг робота, который вы могли бы загрузить и использовать для своего робота без какой-либо подготовки. Пока мы находимся на ранних стадиях, мы продолжим упорно работать и надеяться, что масштабирование приведет к прорыву в робототехнической политике, как это было с большими языковыми моделями

ps. Комментируйте, пожалуйста! Это помогает продвижению статьи.

Ну и как положено, канал тг))) Канал и чатик

Там под сообщениями и в закрепленном боты KolerskyAi для генерации видео, а так же для доступа в Chat GPT+4 и Dalle-3 без VPN и другие нейросети.

Начать дискуссию