World Models - следующий шаг ИИ после ChatGPT. Учёные MIT обсудили, как заставить нейросети понимать реальность

21 мая 2026 года MIT Technology Review провёл круглый стол с экспертами по новому направлению ИИ - World Models, или моделям мира. Это попытка научить нейросети не просто жонглировать словами и пикселями, а реально понимать, как устроена реальность. Если получится, то ИИ-агенты перестанут спотыкаться о банальные физические законы и начнут действовать в мире осмысленно.

Разбираем, что такое World Models, зачем они нужны после ChatGPT и Claude, и почему этот скачок может оказаться важнее всех предыдущих обновлений языковых моделей.

Большие языковые модели вроде ChatGPT, Claude или Gemini хорошо предсказывают, какое слово должно идти следующим. Они анализируют миллиарды текстов и выдают связные ответы. Но у них нет встроенного представления о том, что вода течёт вниз, что если толкнуть чашку - она упадёт, что человек не может находиться в двух местах одновременно. Они знают это как факты из текстов, но не как структуру мира.

World Models - попытка построить внутреннюю модель реальности прямо в нейросети. Не словарь фактов, а механизм, который умеет предсказывать, что произойдёт через секунду, если толкнуть мяч, открыть кран или включить свет. Идея простая - научить ИИ видеть мир как непрерывный процесс с причинами и следствиями, а не как поток слов или картинок.

За последние два года стало понятно, где LLM упираются в потолок. Они отлично пишут тексты и код, но любые задачи, где нужно действовать в реальном мире - управлять роботом, водить машину, разбираться в физических системах - даются им со скрипом. Агентные сценарии, где модель сама принимает серию решений на основе обратной связи от среды, требуют именно понимания того, что эта среда делает в ответ на действия.

Эксперты MIT отдельно отмечают, что World Models могут стать недостающим звеном для долгожданных самообучающихся агентов. Если у модели есть внутренний симулятор мира, она может прогонять сценарии в голове, проверять гипотезы и учиться без миллиардов реальных примеров. То, что сейчас требует огромных датасетов, потенциально решается через воображение - модель сама себе придумывает обучающие ситуации.

Первые рабочие прототипы World Models уже есть. Genie от Google DeepMind учится генерировать целые игровые миры с физикой по одной картинке. Sora и Veo от OpenAI и Google умеют моделировать движение объектов в видео так, что нарушения физики становятся редкостью. Wayve тренирует World Model для беспилотных машин - модель прогнозирует, как себя поведут другие участники движения.

Это пока не AGI и не суперинтеллект. Это узкие модели, которые умеют моделировать свой кусочек реальности. Но направление выбрано - вместо того чтобы пичкать ИИ ещё большим количеством текста, исследователи переключаются на физическое и визуальное понимание. Через год-два этих кусочков сложится больше, и появятся универсальные модели мира.

Если коротко - ближайшие 1-2 года продуктовый ИИ будет постепенно становиться умнее в задачах с физикой и пространством. Голосовые ассистенты начнут лучше понимать инструкции вроде "переставь книгу на верхнюю полку". Видеогенераторы перестанут забывать про гравитацию. Игры с ИИ-персонажами начнут вести себя адекватно в непредсказуемых ситуациях.

Долгосрочно - изменится сама работа с нейросетями. Сейчас, чтобы получить нужный результат, надо учиться формулировать промпт - точно описывать сцену, стиль, композицию. Когда у модели появится модель мира, ей можно будет просто описать ситуацию словами или эскизом, и она сама достроит правдоподобный результат. Порог входа в нейросети станет ниже, а качество результата выше.

Пока World Models дозревают в лабораториях, обычные модели для текста, фото и видео тоже становятся всё умнее. Главная проблема для пользователя из России - доступ. Большинство западных сервисов либо не пускают по IP, либо не принимают карты РФ. ВПЭН помогает не всегда, а подписки в долларах не у всех есть возможность оплатить.

Удобный путь - собрать всё в одном месте через бот Cyber AI. Там в одном Telegram-интерфейсе доступны GPT-5, Claude 4.5, Gemini 3, Suno, ElevenLabs, генераторы фото и видео - в сумме больше 80 моделей. Оплата картой РФ, без ВПЭН и без подписок в долларах. Свежие модели подключают сразу после релизов.

Попробовать актуальные нейросети в боте 👉 TG | MAX

World Models - не очередной хайп вроде prompt engineering или AI-агентов в чате. Это смена парадигмы. Если предыдущая волна ИИ была про понимание языка и картинок, то следующая - про понимание мира. Сначала в узких задачах вроде беспилотников и видеогенерации, потом в универсальных моделях, которые смогут планировать и действовать в физической реальности.

До этого ещё несколько лет работы. Но направление уже задано, и крупные лаборатории двигаются в одну сторону. Через год-два станет понятно, кто из игроков выходит вперёд - OpenAI, DeepMind, Anthropic или новые лаборатории, которых пока не слышно.

Больше новостей про ИИ каждый день 👉 TG | MAX

World Models - следующий шаг ИИ после ChatGPT. Учёные MIT обсудили, как заставить нейросети понимать реальность

В чём суть World Models

Почему это нужно после языковых моделей

Где это уже работает

Что это значит для обычного пользователя

Как пользоваться нейросетями уже сейчас

Что в итоге