Робот π 0.5 способен ориентироваться в незнакомом пространстве как человек

Тоже мне достижение! – скажете вы. Но не спешите. Главная проблема для современных роботов - не ловкость, а способность к обобщению: умение правильно выполнить даже простую задачу в новой, незнакомой обстановке.

🔥 Еще больше интересного в моем канале Продуктовые штучки

Именно это отличает робота π 0.5, который действительно действует «как человек» в незнакомой местности, от большинства промышленных и бытовых роботов, которые работают только в строго определённых условиях

Почему это так сложно?

Разнообразие окружающей среды: каждый дом, офис или магазин уникален по планировке и наполнению предметами.

Необходимость многослойного понимания: робот должен не только физически уметь, например, поднять ложку за ручку или тарелку за край, даже если он видит их впервые, но и понимать, куда эти предметы положить (например, грязную посуду - в раковину, одежду - в корзину для белья).

Ограниченность данных: для обучения универсальных навыков не хватает разнообразных реальных данных, поэтому большинство роботов хорошо работают только там, где всё заранее известно и предсказуемо

Что нового в подходе π 0.5?

π 0.5 - это модель типа "vision-language-action" (VLA), которая учится на разнородных данных и способна выполнять задачи в совершенно новых, незнакомых помещениях, не встречавшихся в обучении.

Робот π 0.5 способен не только выполнять заранее заданные действия, но и самостоятельно разбираться, что и как делать, если он впервые попал в новую обстановку.

После обучения в ~100 разных средах π₀.5 достигает результатов, сопоставимых с системами, настроенными для конкретной локации

Как работает π 0.5

Модель обучается на сочетании изображений, текстовых описаний, команд, аннотированных объектов и реальных роботизированных действий. В обучение входят примеры, когда человек голосом поэтапно инструктирует робота при выполнении сложной задачи.

Схема обучения модели. <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fwww.pi.website%2Fblog%2Fpi05&postId=1960046" rel="nofollow noreferrer noopener" target="_blank">Источник</a>
Схема обучения модели. Источник

Робот делает высокоуровневые выводы (например, «убрать постель»), разбивает задачу на подзадачи («поднять подушку», «разровнять одеяло»), а затем генерирует низкоуровневые моторные команды для исполнения каждого шага.

Как модель обучается и разбивает вернеуровневую задачу на части. <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fwww.pi.website%2Fblog%2Fpi05&postId=1960046" rel="nofollow noreferrer noopener" target="_blank">Источник</a>.
Как модель обучается и разбивает вернеуровневую задачу на части. Источник.

Используются данные не только от мобильных и статичных роботов, но и от роботов с разными конструкциями (например, только с одной рукой), что расширяет спектр навыков и ситуаций

Такой робот способен реагировать на изменения и вмешательства в процессе работы, корректируя свои действия.

Благодаря обучению на данных из интернета и разнообразных сред, π 0.5 может распознавать и правильно обращаться с предметами, которых не было в его обучающей выборках.

Хотя робот ещё далёк от совершенства и иногда ошибается, он уже демонстрирует признаки гибкости и находчивости, характерные для человека, оказавшегося в новой обстановке

Примеры задач:

  • Уборка в новом доме, где робот никогда не был ранее.
  • Перемещение предметов (например, посуды в раковину, одежды в корзину).
  • Использование инструментов (например, губки для вытирания разлитой жидкости).
  • Следование как общим, так и очень детализированным голосовым командам

π₀.5 позволяет роботам действовать в домах, офисах, магазинах и других динамичных средах, где планировка и объекты непредсказуемы.

Это резко расширяет сферу применения роботов за пределы заводов и складов. Больше преимущество в том, что робот может выполнять задачи в новых помещениях без предварительного сканирования или настройки.

Например, убрать кухню в незнакомом доме, следуя голосовым командам типа «положи посуду в раковину»

Чем это может быть полезно нам?

Это разблокирует появление роботов для для бытовых задач: для промышленных нужд можно натренировать роботов особо, а вот для наших с вами домов этого, увы, (пока) никто делать не будет. И такое решение снимает проблему

Это фундамент для будущих универсальных помощников, которые смогут работать в домах, магазинах, больницах - везде, где требуется гибкость и самостоятельность, присущие человеку

Не только для уборки может быт полезен робот. Технология открывает путь к созданию универсальных помощников, например, для:

  • Ухода за пожилыми и людьми с ограниченными возможностями,
  • Обслуживания в гостиницах и больницах,
  • Логистики в магазинах

Почему π 0.5?

Название "модель π0.5" указывает на то, что модель полу-готова.

Буква π (пи) в названии - это отсылка к названию самой компании Physical Intelligence и её миссии: создавать фундаментальные модели искусственного интеллекта для физического мира, то есть для роботов и других устройств, действующих в реальной среде.

Числовое обозначение (0, 0.5) указывает на поколение или версию модели: π 0.5 - промежуточный, но значимый шаг вперёд по сравнению с π 0, демонстрирующий прогресс к универсальному, обобщающему ИИ для физического мира

Кто разработчики?

Основными разработчиками модели являются исследователи из компании Physical Intelligence (ex-Google). Цель компании - создать универсальный «мозг» для роботов: программное обеспечение, способное управлять различными типами роботов и выполнять широкий спектр физических задач в реальном мире, а не только в лабораторных условиях.

Компания фокусируется на создании фундаментального программного обеспечения (например, модели π0), которое может работать на разных платформах и с разными роботами.

Physical Intelligence уже привлекла значительные инвестиции (около $400 млн от таких инвесторов, как Джефф Безос и OpenAI), а её оценка достигла $2 млрд.

Пожалуйста, поддержите меня, поставьте лайк! 🙏

6
1
1
1 комментарий