Google представила новую модель Gemini Robotics-ER 1.5 для робототехники
Google выпустила новую модель Gemini Robotics-ER 1.5 — это визуально-языковая модель (VLM), которая переносит агентные возможности Gemini в робототехнику. На вход можно подавать видео и изображения, чтобы робот мог «видеть», а также аудио, чтобы он мог «слышать» ваши команды.
Что она может:
- Рассуждать, адаптироваться и реагировать на изменения в открытых средах.
- Интерпретировать задания, данные на естественном языке, например: «найди банан».
- Понимать последовательности действий и то, как объекты взаимодействуют с окружением с течением времени.
- Возвращать координаты (точки или ограничивающие рамки), которые представляют местоположение объектов.
Уже доступна в AI Studio
Подписывайтесь на Telegram Силиконовый Мешок.
Начать дискуссию