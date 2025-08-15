Она делала меньше ненужных шагов, пишут те, кто смотрел трансляцию на Twitch.Проект «GPT-5 Plays Pokemon» запустил энтузиаст, «не связанный» с OpenAI. Модели дали управлять виртуальной приставкой для игры Pokemon Red 1990-х. В левой части экрана транслируются её «мысли» во время боёв и решения головоломок.Скринкаст vc.ruОна прошла игру за семь дней и 6470 действий. o3 от OpenAI понадобилось 15 дней и 16 тысяч шагов — иногда она не могла понять, куда идти или как обойти препятствие.Первый такой стрим запустила компания Anthropic. Она тестировала «рассуждающую» Claude 3.7 Sonnet на умение адаптироваться в новой среде и «стрессовых» ситуациях вроде битв, где нужна быстрая реакция. Claude доходил до последнего уровня, но не до победы.Gemini 2.5 прошла версию Pokemon Blue примерно за 30 дней.Исследователи заметили у неё поведение, похожее на «панику», она хуже «рассуждала» и нажимала кнопки «случайным образом» во время битв.Время прохождения o3 и GPT-5. Скриншот со страницы проекта GPT-5 Plays Pokemon со статистикойАся КарповаAI3 июняПроводят выборы в Minecraft, но не могут играть в Doom и «Цивилизацию»: тесты ИИ-моделей в играх Anthropic, Google и частные исследователи анализируют, как модели решают головоломки в одиночку и работают в команде.#новости