Робот π 0.5 способен ориентироваться в незнакомом пространстве как человек
Тоже мне достижение! – скажете вы. Но не спешите. Главная проблема для современных роботов - не ловкость, а способность к обобщению: умение правильно выполнить даже простую задачу в новой, незнакомой обстановке.
🔥 Еще больше интересного в моем канале Продуктовые штучки
Именно это отличает робота π 0.5, который действительно действует «как человек» в незнакомой местности, от большинства промышленных и бытовых роботов, которые работают только в строго определённых условиях
Почему это так сложно?
Разнообразие окружающей среды: каждый дом, офис или магазин уникален по планировке и наполнению предметами.
Необходимость многослойного понимания: робот должен не только физически уметь, например, поднять ложку за ручку или тарелку за край, даже если он видит их впервые, но и понимать, куда эти предметы положить (например, грязную посуду - в раковину, одежду - в корзину для белья).
Ограниченность данных: для обучения универсальных навыков не хватает разнообразных реальных данных, поэтому большинство роботов хорошо работают только там, где всё заранее известно и предсказуемо
Что нового в подходе π 0.5?
π 0.5 - это модель типа "vision-language-action" (VLA), которая учится на разнородных данных и способна выполнять задачи в совершенно новых, незнакомых помещениях, не встречавшихся в обучении.
Робот π 0.5 способен не только выполнять заранее заданные действия, но и самостоятельно разбираться, что и как делать, если он впервые попал в новую обстановку.
После обучения в ~100 разных средах π₀.5 достигает результатов, сопоставимых с системами, настроенными для конкретной локации
Как работает π 0.5
Модель обучается на сочетании изображений, текстовых описаний, команд, аннотированных объектов и реальных роботизированных действий. В обучение входят примеры, когда человек голосом поэтапно инструктирует робота при выполнении сложной задачи.
Робот делает высокоуровневые выводы (например, «убрать постель»), разбивает задачу на подзадачи («поднять подушку», «разровнять одеяло»), а затем генерирует низкоуровневые моторные команды для исполнения каждого шага.
Используются данные не только от мобильных и статичных роботов, но и от роботов с разными конструкциями (например, только с одной рукой), что расширяет спектр навыков и ситуаций
Такой робот способен реагировать на изменения и вмешательства в процессе работы, корректируя свои действия.
Благодаря обучению на данных из интернета и разнообразных сред, π 0.5 может распознавать и правильно обращаться с предметами, которых не было в его обучающей выборках.
Хотя робот ещё далёк от совершенства и иногда ошибается, он уже демонстрирует признаки гибкости и находчивости, характерные для человека, оказавшегося в новой обстановке
Примеры задач:
- Уборка в новом доме, где робот никогда не был ранее.
- Перемещение предметов (например, посуды в раковину, одежды в корзину).
- Использование инструментов (например, губки для вытирания разлитой жидкости).
- Следование как общим, так и очень детализированным голосовым командам
π₀.5 позволяет роботам действовать в домах, офисах, магазинах и других динамичных средах, где планировка и объекты непредсказуемы.
Это резко расширяет сферу применения роботов за пределы заводов и складов. Больше преимущество в том, что робот может выполнять задачи в новых помещениях без предварительного сканирования или настройки.
Например, убрать кухню в незнакомом доме, следуя голосовым командам типа «положи посуду в раковину»
Чем это может быть полезно нам?
Это разблокирует появление роботов для для бытовых задач: для промышленных нужд можно натренировать роботов особо, а вот для наших с вами домов этого, увы, (пока) никто делать не будет. И такое решение снимает проблему
Это фундамент для будущих универсальных помощников, которые смогут работать в домах, магазинах, больницах - везде, где требуется гибкость и самостоятельность, присущие человеку
Не только для уборки может быт полезен робот. Технология открывает путь к созданию универсальных помощников, например, для:
- Ухода за пожилыми и людьми с ограниченными возможностями,
- Обслуживания в гостиницах и больницах,
- Логистики в магазинах
Почему π 0.5?
Название "модель π0.5" указывает на то, что модель полу-готова.
Буква π (пи) в названии - это отсылка к названию самой компании Physical Intelligence и её миссии: создавать фундаментальные модели искусственного интеллекта для физического мира, то есть для роботов и других устройств, действующих в реальной среде.
Числовое обозначение (0, 0.5) указывает на поколение или версию модели: π 0.5 - промежуточный, но значимый шаг вперёд по сравнению с π 0, демонстрирующий прогресс к универсальному, обобщающему ИИ для физического мира
Кто разработчики?
Основными разработчиками модели являются исследователи из компании Physical Intelligence (ex-Google). Цель компании - создать универсальный «мозг» для роботов: программное обеспечение, способное управлять различными типами роботов и выполнять широкий спектр физических задач в реальном мире, а не только в лабораторных условиях.
Компания фокусируется на создании фундаментального программного обеспечения (например, модели π0), которое может работать на разных платформах и с разными роботами.
Physical Intelligence уже привлекла значительные инвестиции (около $400 млн от таких инвесторов, как Джефф Безос и OpenAI), а её оценка достигла $2 млрд.