Как скоро роботы захватят мир?

В прошлом году мы увидели будущие базовые модели и платформы для роботов с мультимодальными LLM и роботизированными манипуляторами в качестве физического устройства ввода-вывода; RvT (NVIDIA), RT-1, RT-2, PaLM-E (Google), RoboCat (DeepMind) и т. д. Вероятно, до появления ChatGPT для физических агентов ИИ осталось несколько лет.

За последние десятилетия робототехника претерпела значительную эволюцию. Достижения, которые мы сейчас наблюдаем в области гуманоидов, ножных и мобильных роботов, а также компаний, имеющих производственную мощность 10 000 роботов в год, создаются годами.

В 2020 году мировые поставки промышленных роботов составили около 384 000, что немного больше, чем в 2019 году.

Ожидается, что в ближайшие годы поставки промышленных роботов резко вырастут, возможно, даже превысив пиковый 2018 год, когда по всему миру было отгружено около 422 000 промышленных роботов.

Прогнозируется, что к 2024 году мировые поставки промышленных роботов достигнут 518 000 единиц.

Недавно OpenAI анонсировали своего домашнего робота со встроенным GPT.

Растущее население мира и острая необходимость кормить людей устойчивым способом заставили сельскохозяйственную отрасль переосмыслить способы производства продуктов питания.

Повышение урожайности сельскохозяйственных культур, соблюдение экологически чистых методов и снижение зависимости от человеческого труда сейчас являются приоритетными задачами для большинства фермеров во всем мире. Это привело к быстро растущему рынку сельскохозяйственных роботов.

Мы начинаем видеть в физическом мире приложения, которые раньше и не думали об автоматизации: от наблюдения и инспекции до производства, помощи людям с ограниченными возможностями и многого другого. Поэтому от маленьких одноногих роботиков до андроидного мира оказалось далеко, но не так уж.

Да… Мы находим новые способы инструментализмами окружающего мира. Отрасль растет.

Обрезка, прополка, опрыскивание и мониторинг… Методы, в которых могут быть задействованы роботы, при этом последние тенденции сосредоточены на роботизированной навигации и системах принятия решений на основе видения, которые имитируют людей-фермеров.

Тем не менее высокие первоначальные затраты (в некоторых случаях более 200 000 долларов США), трудоемкое развертывание (известное как проблема последней мили) и высокие технические ноу-хау, необходимые для эксплуатации и обслуживания такой сложной техники, оставляют большинство сельскохозяйственных роботов недосягаемыми.

Роботы могут работать на складах, аккуратно перетаскивая коробки с товарами из маркетплейсов десятки лет. Бедным грузчикам больше не придется надрывать спины, но у всего есть свои проблемы. И это не только дороговизна производства, но и некоторые… общие проблемы.

Продвижение в робототехнике упирается не только в инженерные, сколько в буквально нейробиологические и философские проблемы наравне с условным AGI.

Роботы сталкиваются с проблемами точности сенсорных данных, их интеграции и контекстуализации, а также с ограничениями в обучении и адаптации. Кроме того, у роботов нет эмоционального восприятия, что делает их взаимодействие с миром менее глубоким и естественным по сравнению с человеком.

С точки зрения нейробиологии, адаптация — это способность нервной системы изменять свою реактивность в ответ на длительное воздействие стимула. Длительное – ключевое слово. И зачастую роботам нужна память, которая бы не была предобучена – формировалась в процессе жизнедеятельности робота.

Кстати, именно поэтому многие компании внедряют технологи 3D-контекстуализации – трансформерные технологии с “вниманием”. Вообще понятие контекста для человеческого мозга – одно из основных.

Multiview Transformer 3D (MVT-3D) от Nvidia — технология, которая использует принципы трансформеров, которые широко применяются в обработке естественного языка, для анализа и интерпретации визуальных данных из нескольких точек зрения.

И это только одна из проблем. Интерпретация – сложная задача, учитывая разнородность окружающего мира и изменяющиеся условия. Это не только проблема CV, ведь для AGI роботу придется буквально самостоятельно научиться инструментализировать вещи, как мы можем книгой забить молоток и понять “как именно нужно” держать книгу для лучшего “забивания” гвоздей.

ИИ + Робототехника – это и трансформеры, и обучение с подкреплением, и Computer Vision

Разработчики постоянно стремятся улучшить сенсорные системы и алгоритмы обработки данных в роботах, чтобы приблизить их восприятие к человеческому. Несмотря на достигнутый прогресс, полное воссоздание человеческого восприятия остается далекой целью, требующей дальнейших исследований и разработок.

Симуляция моторных движений и построение верной адаптации робота к миру – нетривиальная задача… Совсем. А дело все в сенсорной чувствительности человека…

Основная проблема: окружающий мир первоначально не уложен в структуру.

Поэтому аннотации, упорядочивание данных окружение – редукция и упрощение. Вопрос в том, как сам человеческий мозг упрощает окружающие аудио-визуальные сигналы и передает адекватные ответы… Как мы достигаем такой высокой степени адаптивности.

Наш стартап, который сегодня мы рассматриваем в обзоре работает над двумя задачами: подготовка физически корректных данных и предобучение роботов в виртуальных средах. Все, что нужно современным командам робототехники.

С чего начинаются проблемы в робототехнике? – на этапе первоначального обучения. И даже аннотации и сбора данных.

Обучение роботов в робототехнике опирается на несколько фундаментальных принципов, которые направлены на создание автономных систем, способных адаптироваться к изменяющимся условиям окружающей среды и выполнять задачи с высокой степенью точности и надежности.

Одним из ключевых принципов является принцип обучения с подкреплением, где робот учится на основе системы вознаграждений и наказаний. Но в целом, кажется, и очевидным, что здесь никаких систем бустинга быть не может.

В этом подходе робот, выполняя различные действия, получает положительное подкрепление за успешные действия и отрицательное за ошибки – медленно, но верно робот обучается.

Другой принцип – обучение с учителем, где робот получает обучающие данные от внешнего источника, например, от человека или другой системы. В этом случае робот анализирует предоставленные данные и строит модель поведения, которая соответствует заданным целям.

Этот метод часто используется в начальных этапах обучения, когда требуется передать роботу базовые навыки и знания.

Виртуальные среды позволяют тестировать и оптимизировать алгоритмы управления без риска повреждения реальных устройств, поэтому многие компании выбирают предварительное обучение…

Этот подход также ускоряет процесс обучения, поскольку симуляции могут выполняться в ускоренном времени и многократно повторяться. Интерактивное обучение, где робот взаимодействует с человеком или другими роботами в реальном времени, способствует более глубокому пониманию задач и улучшению навыков.

В этом контексте важен принцип обратной связи, позволяющий системе корректировать свои действия на основе анализа результатов и отзывов.

В реальности данные, используемые для обучения роботов по принципам обучения с учителем, часто содержат ошибки, пропуски или противоречивую информацию, что может серьезно снизить качество обучения и, как следствие, ухудшить производительность робота.

Например, проблема "шумных данных" (noisy data). Шум в данных вызывается различными причинами, включая ошибки при ручной аннотации, сбои в работе сенсоров или артефакты, возникающие при передаче данных.

Скажем так, наши данные начинают напоминать “шумную” фотографию, в которой уже сложно различить, что на ней находится из-за красно-белых пикселей по всей площади экрана…

Низкое качество изображения или недостаточное освещение могут привести к неправильной аннотации объектов. Шумные данные могут сбить с толку модель, приводя к тому, что она будет обучаться на неправильных примерах и, как следствие, давать ошибочные предсказания. Да, не на всех роботах стоят очки ночного видения…

“Пропущенные значения" (missing values). Пропуски в данных могут возникать по различным причинам, включая сбои в сборе данных или неполную запись информации.

В случае машинного обучения, пропущенные значения могут вызвать проблемы при обработке данных, так как многие алгоритмы не могут работать с неполными наборами данных.

Для решения этой проблемы часто применяются методы заполнения пропусков – импьютация (imputation), где пропущенные значения заменяются на средние или медианные значения соответствующих признаков, или использование более сложных моделей для прогнозирования пропущенных значений.

Но иногда, особенно в робототехнике, нужны другие комплексные подходы…

Иногда разные аннотаторы дают противоречивые метки для одного и того же примера или когда данные из разных источников не совпадают.

Противоречия могут привести к тому, что модель будет получать смешанные сигналы, что затруднит процесс обучения. В таких случаях могут применяться методы разрешения конфликтов, такие как мажоритарное голосование (majority voting) или использование более сложных моделей, учитывающих надежность каждого источника данных.

Серьезной проблемой является также "смещение данных" (data bias). Смещение может возникнуть, когда обучающие данные не являются репрезентативными для всех возможных ситуаций, с которыми робот может столкнуться в реальной жизни.

Например, если робот обучается на данных, которые в основном включают изображения объектов, снятые при дневном свете, он может плохо работать в условиях низкой освещенности.

Для решения этой проблемы необходимо собирать более разнообразные и репрезентативные данные, а также использовать техники, такие как аугментация данных (data augmentation), для искусственного увеличения разнообразия обучающего набора.

"Оверсэмплинг" (oversampling) и "андерсэмплинг" (undersampling) часто используют для борьбы с несбалансированными данными, где некоторые классы сильно преобладают над другими.

Оверсэмплинг– создание дополнительных копий примеров недостаточно представленных классов, тогда как андерсэмплинг уменьшает количество примеров из доминирующих классов. Эти методы помогают сбалансировать данные и улучшить производительность модели.

Также стоит упомянуть проблему "сдвига концепции" (concept drift), которая возникает, когда статистические свойства целевых переменных, которые модель должна предсказывать, изменяются со временем.

Это особенно актуально для роботов, работающих в динамичных средах, где условия могут быстро меняться. Для борьбы со сдвигом концепции могут применяться методы: адаптивное обучение (adaptive learning) или регулярное обновление моделей на основе новых данных. Это все как раз про обучение роботов в сложной адаптивной среде.

Вот здесь хорошо помогает метод transfer learning под сложную разметку данных.

На основе выхода и переориентации многих компаний в сторону робототехники можно сделать вывод: всем придется решать инженерно одни и те же задачи, так как первоначальной целью корпораций становится “домашний”/человечный робот. Отдающий яблоки, моющий посуду и убирающий мусор.

Самое главное – стартапам по робототехнике нужно много грамотно аннотированных данных, возможность предварительного обучения роботов. Полезные роботы должны учиться на огромных объемах точных данных о физическом мире.

Acumino устраняет ограничения текущего сбора данных о физическом мире, собирая данные более естественно и эффективно – это про широкомасштабное и квалифицированное внедрение роботов.

Разработчик обучающей платформы, позволяющей производителям роботов и пользователям роботов выполнять задачи.

Платформа компании обучает и предварительно тренирует действия роботов, значительно расширяя диапазон задач, которые роботы могут выполнять, и помогает роботам работать более эффективно и безопасно вместе с людьми в различных секторах, помогая разработчикам роботов создавать интеллектуальных роботов.

В мае стартап умудрился собрать 4 млн. долларов, но мы ждем новых инвестиций и раундов.

Хотите узнать больше? – заходите на сайт стартапа и читайте статью от ресерчеров по робототехнике.

Почему робототехника – новая веха в сфере ИИ?

Как одни стартапы будут помогать другим?