V-JEPA 2: у роботов наконец-то появится опора в реальности и они перестанут галлюцинировать
Meta* открыла доступ к новой версии своей модели — V-JEPA-2. Это не просто еще одна нейросеть. Это попытка ответить на главный вопрос: как научить искусственный интеллект не только говорить, но действовать осознанно, в новых для него ситуациях.
Почему это важно?
Большинство нынешних AI-моделей, включая ChatGPT, Gemini, Claude и других не планируют. Они воспроизводят подобие планирования.
Когда мы просим их решить задачу, они не разбираются в сути. Они берут похожие примеры из того, что уже видели и сшивают ответ, который статистически похож на правильный.
Иногда это работает. Иногда — нет. Потому что они не мыслят в категориях цели, состояния и действия. У них нет представления о ситуации, в которой они находятся.
Это особенно заметно, если поместить такую модель в новую среду — например, в физический мир или игру. ИИ начинает вести себя случайным образом, без понимания и стратегии. Потому что ей не на что опереться, кроме того текста из интернета, который она читала.
Что делает V-JEPA
V-JEPA — это модель другого типа. JEPA расшифровывается как Joint Embedding Predictive Architecture.
Это архитектура, в которой модель учится предсказывать будущее состояние среды, не полагаясь на поверхностные шаблоны или текст. Такой подход намного ближе к пространственному мышлению.
На вход модель получает:
- текущее состояние (например, положение объектов)
- конечную цель (какой результат должен быть достигнут)
На выходе — предсказание, что должно произойти или что нужно сделать, чтобы приблизиться к цели. И это не просто генерация текста, а формирование внутреннего плана — с опорой на представление о мире вокруг и объектах в нём.
V-JEPA не использует текст как основную единицу мышления. Она работает с представлениями (embeddings), которые ближе к тому, как люди воспринимают пространство, действия и изменения.
Не путая болтовная: ИИ принимает решения на основе реальных данных
У этой модели есть то, чего не хватает большинству языковых моделей — так называемое «заземление» (grounding). Это способность связывать внутреннее представление с реальными объектами, ситуациями, действиями.
Это делает V-JEPA похожей не на ChatGPT, а на когнитивного агента. Модель не повторяет, как другие действовали в похожих ситуациях. Она оценивает обстановку и сама предлагает, что делать дальше. Это уже ближе к понятию «интеллекта» — пусть и в узком смысле.
Чем это отличается от RAG
Такой подход давно используется в языковых моделях: именно так они понимают текстовые документы, которые им отправляют в чате. Также они «запоминают» историю общения с пользователем. Он называется RAG (retrieval-augmented generation).
Этот подход усиливает языковые модели, добавляя внешний поиск. Например, вы спрашиваете про известного художника, модель ищет текст на Википедии и отвечает, используя найденную информацию. Это попытка «заземлить» ответ, чтобы он был точным.
V-JEPA делает то же самое — но не с текстами, а с реальным миром. Она достраивает то, что должно быть в среде, чтобы цель была достигнута. Это может быть траектория движения робота, порядок действий или просто логическое продолжение сцены.
Где это применяется
- Робототехника — вместо жёстко заданных скриптов, агент может сам решать, как поднять предмет, обойти препятствие или достичь цели
- Игровые агенты ИИ — смогут обучаться планированию самостоятельно, а не просто запоминать шаблоны прохождения
- Интерактивные ассистенты — могут не просто выдавать совет, а строить план действий, опираясь на контекст и цель
- Обучающие среды — где важно, чтобы агент не просто выполнил задание, а понял, почему оно так решается
Почему открытый релиз — это событие
Meta* выложила модель в открытый доступ. Это означает, что любой разработчик или исследователь может начать использовать эту архитектуру в своих проектах. Не просто читать статьи, а смотреть, как она работает, тестировать, встраивать, модифицировать.
Кстати, модель довольно небольшая — от 100 миллионов до 1 миллиарда параметров, так что, скорее всего, ее можно запустить на любом устройстве и почти в реальном времени. Это особенно важно для робототехники.
Это контрастирует с тем, как другие гиганты в сфере ИИ в это время строят гигантские дата-центры, призванные удовлетворить растущие потребности ChatGPT в энергии.
Идея JEPA мне особенно блика ещё и потому, что сейчас я разрабатываю 🟢 Neira — AI-мастермайнд, чат с искусственным интеллектом, где можно будет общаться сразу с несколькими экспертами одновременно.
Чтобы дать этим экспертам возможность не только писать текстовые сообщения, но и совершать полезные действия, мне понадобятся технологии, которых ещё нет и JEPA приближает эту реальность.
В своём блоге «Код без тайн» я рассказываю о процессе разработки своих проектов, а также делюсь своими мыслями и идеями о науке и технике, технологиях, которые меня вдохновляют.
Если вам интересно не просто пользоваться современными технологиями, но и знать, как они устроены — присоединяйся:
* Meta признана экстремистской организацией в России