Прогресс в AI не замедлился, а мчит на всех парах
А если кто-то не верит — покажите ему картинку выше. На ней результат GPT-5 в такой “ерунде”, как старенькая видеоигра Pokemon Red от Nintendo. Скорость прохождения — почти в три раза выше, чем у модели предыдущего поколения, GPT o3. Почему это важно? Сейчас будет целый пост, в трех словах не расскажешь.
Следующим этапом обучения ИИ станут модели мира — виртуальные пространства, в которых ИИ учатся, как действовать в реальности. Видеоигры — фактически модели мира, в которых можно тренироваться уже сейчас. В них есть понятные стартовые правила, растущая сложность и множество случайных событий, требующих адаптироваться на ходу и осваивать новые навыки.
Для прохождения Pokemon Red (и аналогичной Blue) ИИ используют так называемый scaffolding — набор инструментов, позволяющих моделям понимать карту, прокладывать маршрут, записывать свои долговременные задачи и так далее. Без инструментария ИИ пока с игрой не справляются, за что их критикуют - и мне кажется, зря. Приезжая в командировку в незнакомый город, мы тоже пользуемся “Яндекс-картами”, календарем, блокнотом и многими другими инструментами. Инструменты будут частью арсенала ИИ-агентов, а главная задача сейчас — обучить модель понимать, когда нужно использовать какой-то из них. Подобный scaffolding как раз помогает набрать опыт в этой области.
То, что GPT-5 потратила на Pokemon Red почти в три раза меньше ходов, чем “предшественница”, говорит и о лучшем использовании инструментов, и о прогрессе навыка планирования. Новая модель меньше блуждает по карте, не ввязывается в ненужные драки, выполняет только те задания, которые реально важны для прогресса и так далее.
Планирование - базовый навык для ИИ в любой сфере. Те же принципы “не блуждай, не берись за лишнее, делай только важное” переносятся на офисные агенты: навигация по интерфейсам, заполнение форм, покупка билетов. А позже это понадобится и ИИ, который управляет роботами в реальном мире…
Кстати, Демис Хассабис, глава Google DeepMind, в недавнем интервью Логану Килпатрику рассказал, что считает игры одним из важнейших будущих бенчмарков для ИИ. Не особо удивительно, ведь Хассабис начинал с разработки игр (и дошел до Нобелевской премии!), но интересные идеи у него есть.
Например, проблема современных бенчмарков в том, что многие из них “пройдены” ИИ почти на 100%. А собрать новые не так и просто — в некоторых областях осталось совсем мало вопросов, на которые не могут ответить современные модели. Библиотека игр насчитывает десятки тысяч наименований во множестве жанров, где требуются разные навыки — от шахмат до сетевых шутеров. Тут можно тестировать и обучать ИИ годами.
Особый интерес у Хассабиса вызывают проекты, в которых ИИ могут играть друг против друга. Ведь это бенчмарк, сложность которого растет сама по себе, с выходом новых, более совершенных моделей.
С этой целью Google запустила Kaggle Game Arena — первой игрой стали шахматы, где в финале GPT o3 обыграла Grok 4 (Gemini 2.5 Pro от Google дошла до полуфинала). Дальше планируется добавление новых игр, а Хассабис уже мечтает, как в определенный момент в будущем ИИ начнут на лету создавать игры друг для друга.
P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.