Nano Banana Pro: Что скрывается под капотом?

Google представила значительное обновление своей модели - Nano Banana Pro. Я считаю, что это фундаментальный скачок, он вобрал в себя все последние достижения в области искусственного интеллекта.

Nano Banana Pro: Что скрывается под капотом?

Как Nano Banana Pro "думает" над изображениями

Обновление включает интеграцию с языковой моделью Gemini 3 Pro. Эта функция обеспечивает понимание контекста, позволяет ИИ логически анализировать сцены, объекты и их связи. Теперь нейронка понимает намерения пользователя, это очень важно для редактирования, например, для исправления повреждений или замены фона, сохраняя при этом реалистичность освещения.

Текст в картинке: Nano Banana Pro побеждает "абракадабру"

Раньше ИИ-генераторы часто не могли создавать читаемый текст в картинке. Nano Banana Pro решал эту проблему, используя обучающие данные, содержащие типографику и инфографику. Теперь модель генерирует четкий и стилистически правильный текст на изображениях, что удобно, например для создания маркетингового контента.

Визуальный конструктор: объединение до 14 изображений в одно

Работа с изображениями была ограничена 2-3 загруженными картинками. Увеличение лимита до 14 источников — считаю огромным прорывом. Модель может одновременно учитывать параметры и стиль всех этих изображений, объединяя их в единую, композицию.

Nano Banana Pro запоминает персонажей

Проблема сохранения идентичности персонажей — сложная задача для ИИ-генерации. Nano Banana Pro использует механизмы сохранения идентичности, позволяя "запомнить" до 5 уникальных персонажей. Модель научилась выделять и сохранять ключевые черты лица и стиля человека как отдельный вектор, который затем последовательно применяет к разным сценам, обеспечивая узнаваемость.

Полный контроль над изображением

В новой версии изображения уже получаются студийного уровня:

  • Локальное редактирование: Изменение конкретных областей изображения.
  • Управление камерой: Настройка угла обзора, глубины резкости и фокуса.
  • Динамическое освещение: Изменение освещения сцены с сохранением реалистичности.

Ограничения и лимиты

Несмотря на улучшения и отрывшиеся перспективы в генерации изображений, есть и ограничения. Высокая производительность требует больших затрат, поэтому модель, будет доступна по подписке или с ограничениями. Также сохраняются этические фильтры, ограничивающие генерацию определенного контента. Создание сложных поз с первого раза остается сложной задачей.

Где попробовать возможности Nano Banana Pro?

Новая модель уже доступна через API Gemini, можно найти в Google AI Studio, Vertex AI, а также в Adobe Firefly и Photoshop.

1 комментарий