Как мы за полтора месяца создали робота-краба с AI для ЦИПР2025 и обошли всех с пультами

Как мы за полтора месяца создали робота-краба с AI для ЦИПР2025 и обошли всех с пультами

Привет, vc.ru! Мы - команда NIKTA.AI, и на конференции ЦИПР2025 решили выделиться, создав робота-краба, управляемого через Visual Language Model (VLM). Пока другие жали кнопки на пультах, наш краб сам анализировал окружение и искал объекты. Как мы уложились в полтора месяца и сделали это? Делимся опытом!

Цель: не просто робот, а умный робот

Мы хотели показать, что AI может сделать робота автономным и умным, без устаревших пультов управления. Времени было мало - всего полтора месяца, поэтому выбрали готовую платформу с ROS (Robot Operating System), чтобы не писать базовое управление с нуля.

Что внутри краба?

Робот пришел с сюрпризами: китайские датчики и документация. Мы разобрались, как работают сервоприводы, камера и навигация. ROS отвечал за среднеуровневое управление: движение вперед-назад, влево-вправо, сбор данных с камеры. Наша задача - добавить высокоуровневое управление через VLM, чтобы робот:

  1. Обрабатывал изображения с камеры.
  2. Принимал решения на основе увиденного.
  3. Выполнял команды без заранее прописанных сценариев.

Как работает VLM?

Visual Language Model - это AI, который анализирует картинку с камеры и решает, что делать. Например:

  • Движение: краб выполняет простые команды (вперед, назад, поворот) по заданным параметрам. VLM разбивает задачу на шаги и отправляет команды.
  • Поиск объектов: робот осматривает сцену, передает изображение в VLM, а та определяет, есть ли нужный объект, и описывает его.

Проблемы и решения

  1. Задержки обработки. Изначально VLM работала локально на компьютере, подключенном к роботу. Итог: задержка в несколько минут на кадр. Для реального времени это не годится. Решение: ограничили робота базовыми действиями (движение, повороты) и подключили облачную VLM через второй модем с доступом в интернет. Задержка сократилась до 2-3 секунд.
  2. Датчики и навигация. Датчики робота были несовершенны, навигация иногда сбоила. VLM не могла точно определить координаты объекта (ей нужны точные данные, а не просто "вон там стол"). Изначально мы хотели, чтобы краб сам шел к цели, но из-за ограничений упростили задачу до поиска и описания.
  3. Автономность. План был - краб видит цель и идет к ней, центрируя её в кадре. Но для этого нужна высокая скорость обработки изображений, чего наше оборудование не тянуло. Это оставили на доработку.

Результат на ЦИПР2025

Наш краб стал хитом конференции! Пока другие управляли роботами вручную, наш сам осматривал стенд, находил объекты и выполнял команды. Он умеет:

  • Выполнять простые действия.
  • Искать и описывать объекты в реальном времени.
  • Работать с облачной VLM с минимальной задержкой.

Зрители были впечатлены, а мы гордились, что уложились в сжатые сроки и сделали что-то действительно уникальное.

Что дальше?

Мы уже думаем о следующем этапе:

  • Доработать навигацию, чтобы краб сам подходил к объектам.
  • Ускорить локальную VLM или найти более мощное железо.
  • Добавить больше автономности для сложных задач.

Итог

Создание робота-краба для ЦИПР2025 - это вызов, который мы приняли и победили. Мы обошли конкурентов с пультами и доказали, что автономные решения - это новый стандарт.

Что думаете про таких роботов? Готовы внедрять AI в свои проекты? Пишите в комментариях, а за подробностями - на сайт NIKTA.AI!

Начать дискуссию