Google DeepMind открыл доступ к Project Genie: генерация игр из картинок и текста
Google DeepMind начал развертывание публичного доступа к Project Genie — экспериментальному сервису, который позволяет генерировать интерактивные виртуальные миры с помощью искусственного интеллекта.
Первыми протестировать технологию смогут подписчики Google AI Ultra в США, позже географию планируют расширить.
Главная особенность Project Genie — это не генерация видео, а создание полноценной «играбельной» среды. Пользователь может управлять персонажем внутри сгенерированного видеоряда в реальном времени.
Чем это отличается от Sora и других генераторов видео
В основе проекта лежит исследовательская модель Genie 3. В отличие от классических генераторов видео, которые создают пассивный контент, Genie работает как «модель мира» (World Model).
Нейросеть предсказывает каждый следующий кадр, основываясь не только на предыдущем изображении, но и на действиях пользователя (нажатиях клавиш). Система имитирует физику объектов, освещение и взаимодействия на лету, позволяя «играть» в сгенерированный мир.
Основные возможности сервиса
В текущей версии доступны три ключевых режима:
1. World Sketching (Создание)
Пользователь описывает идею текстом (промптом) или загружает грубый набросок/изображение. Встроенная модель Nano Banana Pro детализирует идею и превращает её в стартовую точку для генерации.
Можно настроить вид (от первого или третьего лица) и тип перемещения (ходьба, полет, езда).
2. World Exploration (Исследование)
Статичная картинка оживает. Нейросеть генерирует окружение по мере движения игрока. Если вы направите персонажа вперед, система «дорисует» локацию в этом направлении, пытаясь сохранить логику пространства.
3. World Remixing (Ремикс)
Пользователи могут брать за основу миры, созданные другими людьми, и видоизменять их, добавляя новые промпты или стили.
Текущие ограничения
Google DeepMind подчеркивает, что это ранний исследовательский прототип, поэтому у технологии есть лимиты:
- Длительность: Генерация ограничена короткими сессиями до 60 секунд.
- Артефакты: Возможны «галлюцинации» (нелогичное поведение объектов) и несоответствие реальной физике.
- Управление: Может наблюдаться задержка (input lag) между нажатием клавиши и реакцией на экране.
Зачем это нужно?
Проект является частью глобальной стратегии Google по созданию общего искусственного интеллекта (AGI). Обучая нейросеть понимать физические законы и последствия действий в виртуальной среде, разработчики создают базу для более сложных систем, которые в будущем смогут управлять роботами или решать задачи в реальном мире.
А оплатить любой зарубежный сервис в рублях, включая Gemini или ChatGPT, за 10-15 минут можно тут 👇