World Models - следующий шаг ИИ после ChatGPT. Учёные MIT обсудили, как заставить нейросети понимать реальность
21 мая 2026 года MIT Technology Review провёл круглый стол с экспертами по новому направлению ИИ - World Models, или моделям мира. Это попытка научить нейросети не просто жонглировать словами и пикселями, а реально понимать, как устроена реальность. Если получится, то ИИ-агенты перестанут спотыкаться о банальные физические законы и начнут действовать в мире осмысленно.
Разбираем, что такое World Models, зачем они нужны после ChatGPT и Claude, и почему этот скачок может оказаться важнее всех предыдущих обновлений языковых моделей.
В чём суть World Models
Большие языковые модели вроде ChatGPT, Claude или Gemini хорошо предсказывают, какое слово должно идти следующим. Они анализируют миллиарды текстов и выдают связные ответы. Но у них нет встроенного представления о том, что вода течёт вниз, что если толкнуть чашку - она упадёт, что человек не может находиться в двух местах одновременно. Они знают это как факты из текстов, но не как структуру мира.
World Models - попытка построить внутреннюю модель реальности прямо в нейросети. Не словарь фактов, а механизм, который умеет предсказывать, что произойдёт через секунду, если толкнуть мяч, открыть кран или включить свет. Идея простая - научить ИИ видеть мир как непрерывный процесс с причинами и следствиями, а не как поток слов или картинок.
Почему это нужно после языковых моделей
За последние два года стало понятно, где LLM упираются в потолок. Они отлично пишут тексты и код, но любые задачи, где нужно действовать в реальном мире - управлять роботом, водить машину, разбираться в физических системах - даются им со скрипом. Агентные сценарии, где модель сама принимает серию решений на основе обратной связи от среды, требуют именно понимания того, что эта среда делает в ответ на действия.
Эксперты MIT отдельно отмечают, что World Models могут стать недостающим звеном для долгожданных самообучающихся агентов. Если у модели есть внутренний симулятор мира, она может прогонять сценарии в голове, проверять гипотезы и учиться без миллиардов реальных примеров. То, что сейчас требует огромных датасетов, потенциально решается через воображение - модель сама себе придумывает обучающие ситуации.
Где это уже работает
Первые рабочие прототипы World Models уже есть. Genie от Google DeepMind учится генерировать целые игровые миры с физикой по одной картинке. Sora и Veo от OpenAI и Google умеют моделировать движение объектов в видео так, что нарушения физики становятся редкостью. Wayve тренирует World Model для беспилотных машин - модель прогнозирует, как себя поведут другие участники движения.
Это пока не AGI и не суперинтеллект. Это узкие модели, которые умеют моделировать свой кусочек реальности. Но направление выбрано - вместо того чтобы пичкать ИИ ещё большим количеством текста, исследователи переключаются на физическое и визуальное понимание. Через год-два этих кусочков сложится больше, и появятся универсальные модели мира.
Что это значит для обычного пользователя
Если коротко - ближайшие 1-2 года продуктовый ИИ будет постепенно становиться умнее в задачах с физикой и пространством. Голосовые ассистенты начнут лучше понимать инструкции вроде "переставь книгу на верхнюю полку". Видеогенераторы перестанут забывать про гравитацию. Игры с ИИ-персонажами начнут вести себя адекватно в непредсказуемых ситуациях.
Долгосрочно - изменится сама работа с нейросетями. Сейчас, чтобы получить нужный результат, надо учиться формулировать промпт - точно описывать сцену, стиль, композицию. Когда у модели появится модель мира, ей можно будет просто описать ситуацию словами или эскизом, и она сама достроит правдоподобный результат. Порог входа в нейросети станет ниже, а качество результата выше.
Как пользоваться нейросетями уже сейчас
Пока World Models дозревают в лабораториях, обычные модели для текста, фото и видео тоже становятся всё умнее. Главная проблема для пользователя из России - доступ. Большинство западных сервисов либо не пускают по IP, либо не принимают карты РФ. ВПЭН помогает не всегда, а подписки в долларах не у всех есть возможность оплатить.
Удобный путь - собрать всё в одном месте через бот Cyber AI. Там в одном Telegram-интерфейсе доступны GPT-5, Claude 4.5, Gemini 3, Suno, ElevenLabs, генераторы фото и видео - в сумме больше 80 моделей. Оплата картой РФ, без ВПЭН и без подписок в долларах. Свежие модели подключают сразу после релизов.
Что в итоге
World Models - не очередной хайп вроде prompt engineering или AI-агентов в чате. Это смена парадигмы. Если предыдущая волна ИИ была про понимание языка и картинок, то следующая - про понимание мира. Сначала в узких задачах вроде беспилотников и видеогенерации, потом в универсальных моделях, которые смогут планировать и действовать в физической реальности.
До этого ещё несколько лет работы. Но направление уже задано, и крупные лаборатории двигаются в одну сторону. Через год-два станет понятно, кто из игроков выходит вперёд - OpenAI, DeepMind, Anthropic или новые лаборатории, которых пока не слышно.