Google представила новую модель Gemini Robotics-ER 1.5 для робототехники

Google выпустила новую модель Gemini Robotics-ER 1.5 — это визуально-языковая модель (VLM), которая переносит агентные возможности Gemini в робототехнику. На вход можно подавать видео и изображения, чтобы робот мог «видеть», а также аудио, чтобы он мог «слышать» ваши команды.

Что она может:

  • Рассуждать, адаптироваться и реагировать на изменения в открытых средах.
  • Интерпретировать задания, данные на естественном языке, например: «найди банан».
  • Понимать последовательности действий и то, как объекты взаимодействуют с окружением с течением времени.
  • Возвращать координаты (точки или ограничивающие рамки), которые представляют местоположение объектов.

Уже доступна в AI Studio

Подписывайтесь на Telegram Силиконовый Мешок.

Начать дискуссию