Что такое ИИ-модели мира и почему они важны?

Что такое ИИ-модели мира и почему они важны?

Эксперты называют модели мира, также известные как симуляторы мира, следующим крупным прорывом в области искусственного интеллекта. Лаборатория World Labs, основанная пионером в области ИИ Фей-Фей Ли, привлекла 230 миллионов долларов на разработку «больших моделей мира», а DeepMind наняла одного из создателей генератора видео Sora от OpenAI для работы над симуляторами мира.

Модель мира — что это вообще такое?

Цифровые модели мира черпают вдохновение в ментальных моделях мира, которые люди развивают естественным образом. Наш мозг берет абстрактные сигналы от наших органов чувств и формирует их в более конкретное понимание окружающего мира, создавая то, что мы называли «моделями» задолго до того, как этот термин был принят в ИИ. Предположения и прогнозы, которые делает наш мозг на основе этих моделей, влияют на наше мировосприятие.

В статье исследователей искусственного интеллекта Дэвида Ха и Юргена Шмидхубера приводится пример бейсболиста. У бьющего есть миллисекунды, чтобы решить, как управлять битой — этот отрезок короче времени, необходимого для того, чтобы зрительные сигналы достигли мозга. Но все-таки игроки могут отбить мяч, летящий со скоростью 100 миль в час, благодаря способности инстинктивно предсказывать, куда он полетит, говорят Ха и Шмидхубер.

«Для профессиональных игроков все это происходит подсознательно, — пишут исследователи. — Их мышцы рефлекторно направляют биту в нужный момент и в нужное место в соответствии с предположением их внутренних моделей. Они могут быстро действовать на основе своих автоматических предсказаний будущего, не нуждаясь в сознательном разворачивании потенциальных сценариев для составления плана». Именно эти подсознательные аспекты рассуждений в моделях мира некоторые считают необходимыми условиями для достижения человеческого уровня интеллекта.

Моделирование мира

Хотя концепция существует уже несколько десятилетий, модели мира недавно приобрели популярность отчасти благодаря своим многообещающим применениям в области генеративного видео. Большинство, если не все, видео, сгенерированные ИИ, попадают в так называемую «зловещую долину» (явление, основанное на гипотезе, что робот или другой объект, выглядящий или действующий как человек вызывает неприязнь и отвращение у людей-наблюдателей). Просматривая такие видео на протяжение определенного времени, зритель заметит некие странности, например, скрученные или сливающиеся друг с другом конечности.

Хотя генеративная модель, обученная на многолетнем видеоматериале, может точно предсказывать, как отскочит баскетбольный мяч, она не понимает причину — так же, как языковые модели не совсем понимают концепции, стоящие за словами и фразами. Но модель мира, даже с базовым пониманием того, почему баскетбольный мяч отскакивает именно так, будет лучше отображать этот процесс. Для реализации такого понимания модели мира обучаются на разнообразных данных, включая фотографии, аудио, видео и текст, с целью создания у машины внутренних представлений о том, как работает мир, и способности рассуждать о последствиях действий.

«Зритель ожидает, что мир, который он наблюдает, будет вести себя так же, как и его реальность, — утверждает Алекс Машрабов, бывший главный специалист по ИИ в компании Snap и генеральный директор Higgsfield, компании, разрабатывающей генеративные модели для видео. — Если перо падает с тяжестью наковальни или шар для боулинга взлетает на сотни футов в воздух, это вызывает резкую реакцию и выбивает зрителя из реальности. С развитой моделью мира вместо того чтобы автор видео определял, как должен двигаться каждый объект — что утомительно, громоздко и нерационально — этим будет заранее заниматься модель».

Но улучшение генерации видео — это лишь верхушка айсберга для применения моделей мира. Исследователи, включая главного специалиста по ИИ в Meta Янна ЛеКуна, говорят, что модели могут когда-нибудь использоваться для сложного прогнозирования и планирования как в цифровом, так и в физическом мире.

В своем выступлении в этом году ЛеКун описал, как модель мира может помочь достичь желаемой цели путем рассуждения. Модель с базовым представлением мира — например, видео грязной комнаты, получив задачу сделать комнату чистой, могла бы придумать последовательность действий для достижения этой цели: использовать пылесос, вымыть посуду, вынести мусор, но не потому, что это образец, который она наблюдала, а потому что она знает на более глубоком уровне, как перейти от грязи к чистоте.

«Нам нужны машины, которые понимают мир и запоминают вещи; машины, обладающие интуицией и здравым смыслом, которые могут рассуждать и планировать на том же уровне, что и люди, — сказал ЛеКун. — Несмотря на высказывания самых восторженных людей, современные системы ИИ не способны ни на что из этого». Хотя по оценкам ЛеКун до моделей мира, которые он описывает, нам нужно как минимум десять лет, сегодняшние технологии перспективны в качестве элементарных симуляторов физики.

OpenAI отмечает в своем блоге, что Sora, которую они считают моделью мира, может имитировать действия, такие как нанесение мазков кистью на холст художником. Модели, подобные Sora — и сама Sora — также могут эффективно симулировать видеоигры. Например, Sora может отобразить пользовательский интерфейс и игровой мир в стиле Minecraft.

По словам соучредителя World Labs Джастина Джонсона в эпизоде подкаста a16z будущие модели мира могут создавать 3D-миры по запросу для игр, виртуальной фотографии и многого другого. «У нас уже есть возможность создавать виртуальные интерактивные миры, но это стоит сотни миллионов долларов и требует огромного времени на разработку, — сказал Джонсон. — Модели мира позволят вам получить не просто изображение или клип, а полностью смоделированный, яркий и интерактивный 3D-мир».

Серьезные препятствия

Хотя концепция заманчива, на пути стоит множество технических проблем. Обучение и запуск моделей мира требуют намного больших вычислительных мощностей даже по сравнению с объемами, используемыми в настоящее время для генеративных моделей. В то время как некоторые из последних языковых моделей могут работать на современном смартфоне, для обучения и запуска Sora — если рассматривать ее в качестве одной из ранних моделей мира, потребуются тысячи графических процессоров, особенно если использование подобных моделей станет обычным явлением.

Модели мира, как и все модели ИИ, также подвержены галлюцинациям — и в том числе усваивают предубеждения из своих обучающих данных. Например, модель мира, в основном обученная на видео солнечной погоды в европейских городах, может испытывать трудности с пониманием или изображением заснеженных корейских городов или просто делать это некорректно.

Общий недостаток обучающих данных угрожает усугубить эти проблемы, говорит Машрабов. «Действительно, мы видели, что модели ограничены в генерации людей определенного типа или расы, — сказал он. — Обучающие данные для модели мира должны быть достаточно широкими, чтобы охватывать разнообразный набор сценариев, но также и высокоспецифичными, чтобы ИИ мог глубоко понимать нюансы этих сценариев».

В недавнем посте генеральный директор ИИ-стартапа Runway Кристобаль Валенсуэла говорит, что проблемы с данными и проектированием мешают современным моделям точно отражать поведение обитателей мира: людей и животных. «Модели должны будут генерировать согласованные карты окружающей среды, — сказал он, — и быть способными перемещаться и взаимодействовать в этих средах».

Однако если все основные препятствия будут преодолены, Машрабов считает, что модели мира смогут более надежно связать ИИ с реальным миром, а это приведет к прорывам не только в генерации виртуальных миров, но и в робототехнике, и принятии решений на основе искусственного интеллекта. Они также могут породить более способных роботов.

Сегодняшние роботы ограничены в своих возможностях, потому что у них нет понимания окружающего мира или собственного тела. Модели мира могли бы дать им это понимание, сказал Машрабов — по крайней мере, до определенной степени. «С помощью продвинутой модели мира ИИ мог бы развить личное понимание любой ситуации, в которой он находится, — сказал он, — и начать рассуждать о возможных решениях».

Комментарий

Для нас в Шерпа Роботикс, как вендора платформ для создания умных роботов, очень важно, чтобы ИИ развивался и был приближен к реальности. Особенно той искусственно созданной реальности которая сформировалась и развивается в бизнес-среде.

Если ИИ будет обучаться на грамотно построенных моделях бизнес-реальности, то возможности наших роботов кратно возрастут. На данный момент роботов можно обучить на уникальном контенте корпораций. Но что, если робот сможет не только обучаться на предоставленном контенте, но и автоматически предлагать улучшения для него, опираясь на собственные встроенные знания о конкретных ситуациях на основе заложенных моделей?

Спонсор материала - Sherpa Robotics

Sherpa Robotics – ведущий российский вендор программных решений для роботизации бизнес-процессов на предприятии с помощью программных роботов RPA и LLM.

Продуктовая линейка компании: Sherpa RPA, Sherpa Process Discovery, Sherpa AI Server.

Платформа Sherpa RPA — это экосистема, которая объединяет классических программных роботов и современные технологии искусственного интеллекта. С помощью платформы автоматизируются не только рутинные бизнес-процессы в самых разных областях, но и интеллектуальные задачи, которые до недавнего времени считались прерогативой человека.

Sherpa Process Discovery — инструмент на базе искусственного интеллекта для анализа и выявления бизнес-процессов для последующей роботизации.

Sherpa AI Server - платформа для работы с генеративными нейросетями в закрытом контуре компании.

Sherpa AI – это первая российская оффлайн платформа для использования нейросетей в корпоративной среде в закрытом контуре. Sherpa AI позволяет решать задачи с помощью искусственного интеллекта в компаниях, где политикой информационной безопасности и требованиями ФСТЭК запрещено использование облачных нейросетей.

Интеграция Sherpa RPA и Sherpa AI Server позволяет совмещать преимущества классической RPA автоматизации и технологий искусственного интеллекта при решении сложных бизнес-задач.

Ключевые преимущества Sherpa RPA

  • Встроенные инструменты интеллектуального распознавания сложных структурированных и неструктурированных документов из сканов, фото, PDF-файлов.
  • Поддержка машинного обучения и применение искусственного интеллекта для обработки естественного языка.
  • Нативная интеграция с популярными корпоративными системами - SAP, Oracle, Java, 1C, RDP, Citrix и другими.
  • Разнообразные опции разработки роботов: от полного No-Code до использования .NET, C++, C#, JavaScript, Python, PowerShell.
  • Мощный Оркестратор для централизованного управления роботами, сценариями, очередями, пользователями, логированием, правами, безопасностью.
  • Гибкая ценовая политика с возможностью неограниченного использования роботов без привязки к количеству внедренных сценариев.

Решения экосистемы Sherpa RPA включены в реестр российского ПО.

1515
33
11
реклама
разместить
17 комментариев

Как развитие технологий может повлиять на доступность обучения сложных моделей, таких как Sora, для небольших компаний или исследователей?

С одной стороны, общие вычислительные мощности становятся доступнее благодаря развитию облачных сервисов и новых аппаратных решений. Появляются более эффективные алгоритмы обучения и методы оптимизации, которые снижают требования к ресурсам.

С другой стороны, прямо сейчас модели масштаба Sora требуют колоссальных инвестиций в обучение и инфраструктуру. Текущие оценки затрат на обучение таких моделей находятся в диапазоне десятков миллионов долларов, что делает их разработку доступной только для крупных технологических компаний.

1

230 миллионов на разработку модели мира? Офигеть

Это область которую они хотят активно развивать или уже продвинутые разработки?

На данный момент моделирование мира - это активно развивающаяся область с большим потенциалом, но еще находящаяся на относительно ранних стадиях. Крупные компании вроде DeepMind, OpenAI и Google Research вкладывают значительные ресурсы в это направление, поскольку оно рассматривается как ключевой шаг к более продвинутому ИИ.

Крупные технологические компании располагают огромными массивами данных, которые потенциально могут быть использованы для развития моделей мира.
Apple собирает данные через свои устройства о том, как люди взаимодействуют с физическим миром, включая движение, жесты, голосовые команды. Google через свои сервисы имеет доступ к огромному количеству визуальной информации (Google Photos, Street View), текстовым данным и поведенческим паттернам пользователей. Meta через свои социальные платформы накапливает данные о социальном взаимодействии, а через проекты виртуальной реальности - о том, как люди воспринимают и взаимодействуют с трехмерным пространством.
Эти данные в сочетании с вычислительными мощностями и финансовыми ресурсамидают этим компаниям серьезное преимущество в разработке систем, способных моделировать различные аспекты реального мира.

А не будет ли проблема в том что ИИ будет саморазвиваться?