V-JEPA 2: у роботов наконец-то появится опора в реальности и они перестанут галлюцинировать

Meta* открыла доступ к новой версии своей модели — V-JEPA-2. Это не просто еще одна нейросеть. Это попытка ответить на главный вопрос: как научить искусственный интеллект не только говорить, но действовать осознанно, в новых для него ситуациях.

Большинство нынешних AI-моделей, включая ChatGPT, Gemini, Claude и других не планируют. Они воспроизводят подобие планирования.

Когда мы просим их решить задачу, они не разбираются в сути. Они берут похожие примеры из того, что уже видели и сшивают ответ, который статистически похож на правильный.

Иногда это работает. Иногда — нет. Потому что они не мыслят в категориях цели, состояния и действия. У них нет представления о ситуации, в которой они находятся.

Это особенно заметно, если поместить такую модель в новую среду — например, в физический мир или игру. ИИ начинает вести себя случайным образом, без понимания и стратегии. Потому что ей не на что опереться, кроме того текста из интернета, который она читала.

V-JEPA — это модель другого типа. JEPA расшифровывается как Joint Embedding Predictive Architecture.

arxiv.org

Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture

Это архитектура, в которой модель учится предсказывать будущее состояние среды, не полагаясь на поверхностные шаблоны или текст. Такой подход намного ближе к пространственному мышлению.

en.wikipedia.org

Visual thinking

Пространственное мышление. Источник: <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fmel.fm%2Fucheba%2Ffakultativ%2F264319-spatial_thinking_app&postId=2041261" rel="nofollow noreferrer noopener" target="_blank">Мел</a>

На вход модель получает:

текущее состояние (например, положение объектов)
конечную цель (какой результат должен быть достигнут)

На выходе — предсказание, что должно произойти или что нужно сделать, чтобы приблизиться к цели. И это не просто генерация текста, а формирование внутреннего плана — с опорой на представление о мире вокруг и объектах в нём.

V-JEPA не использует текст как основную единицу мышления. Она работает с представлениями (embeddings), которые ближе к тому, как люди воспринимают пространство, действия и изменения.

У этой модели есть то, чего не хватает большинству языковых моделей — так называемое «заземление» (grounding). Это способность связывать внутреннее представление с реальными объектами, ситуациями, действиями.

Это делает V-JEPA похожей не на ChatGPT, а на когнитивного агента. Модель не повторяет, как другие действовали в похожих ситуациях. Она оценивает обстановку и сама предлагает, что делать дальше. Это уже ближе к понятию «интеллекта» — пусть и в узком смысле.

Такой подход давно используется в языковых моделях: именно так они понимают текстовые документы, которые им отправляют в чате. Также они «запоминают» историю общения с пользователем. Он называется RAG (retrieval-augmented generation).

ru.wikipedia.org

Генерация, дополненная поиском

Этот подход усиливает языковые модели, добавляя внешний поиск. Например, вы спрашиваете про известного художника, модель ищет текст на Википедии и отвечает, используя найденную информацию. Это попытка «заземлить» ответ, чтобы он был точным.

V-JEPA делает то же самое — но не с текстами, а с реальным миром. Она достраивает то, что должно быть в среде, чтобы цель была достигнута. Это может быть траектория движения робота, порядок действий или просто логическое продолжение сцены.

Робототехника — вместо жёстко заданных скриптов, агент может сам решать, как поднять предмет, обойти препятствие или достичь цели
Игровые агенты ИИ — смогут обучаться планированию самостоятельно, а не просто запоминать шаблоны прохождения
Интерактивные ассистенты — могут не просто выдавать совет, а строить план действий, опираясь на контекст и цель
Обучающие среды — где важно, чтобы агент не просто выполнил задание, а понял, почему оно так решается

Meta* выложила модель в открытый доступ. Это означает, что любой разработчик или исследователь может начать использовать эту архитектуру в своих проектах. Не просто читать статьи, а смотреть, как она работает, тестировать, встраивать, модифицировать.

Кстати, модель довольно небольшая — от 100 миллионов до 1 миллиарда параметров, так что, скорее всего, ее можно запустить на любом устройстве и почти в реальном времени. Это особенно важно для робототехники.

Это контрастирует с тем, как другие гиганты в сфере ИИ в это время строят гигантские дата-центры, призванные удовлетворить растущие потребности ChatGPT в энергии.

Идея JEPA мне особенно блика ещё и потому, что сейчас я разрабатываю 🟢 Neira — AI-мастермайнд, чат с искусственным интеллектом, где можно будет общаться сразу с несколькими экспертами одновременно.

Чтобы дать этим экспертам возможность не только писать текстовые сообщения, но и совершать полезные действия, мне понадобятся технологии, которых ещё нет и JEPA приближает эту реальность.

В своём блоге «Код без тайн» я рассказываю о процессе разработки своих проектов, а также делюсь своими мыслями и идеями о науке и технике, технологиях, которые меня вдохновляют.

Если вам интересно не просто пользоваться современными технологиями, но и знать, как они устроены — присоединяйся:

t.me

Код без тайн

* Meta признана экстремистской организацией в России

V-JEPA 2: у роботов наконец-то появится опора в реальности и они перестанут галлюцинировать

Почему это важно?

Что делает V-JEPA

Не путая болтовная: ИИ принимает решения на основе реальных данных

Чем это отличается от RAG

Где это применяется

Почему открытый релиз — это событие