Компания Google выпустила практические советы по генерации изображений в Gemini

Google опубликовала подробные рекомендации о том, как правильно составлять запросы для генерации и редактирования изображений в Gemini. Эти советы помогут лучше использовать новые возможности модели.

Компания Google выпустила практические советы по генерации изображений в Gemini

Что изменилось в Gemini

В обновлении улучшили несколько ключевых функций:

  • Сохранение внешности персонажа — теперь модель способна удерживать узнаваемые черты объекта или героя при смене поз, освещения или фона.
  • Точечное редактирование — можно менять отдельные детали с помощью простых текстовых инструкций, без сложных инструментов.
  • Комбинирование сцен — разные изображения можно объединять в одно, создавая необычные композиции.
  • Смена стиля — есть возможность преобразовать готовое изображение в другой визуальный формат (например, из фотографии в рисунок).
  • Логика и рассуждения — модель умеет строить сцены, исходя из контекста, и даже предсказывать последствия действий.

Шесть элементов хорошего запроса

Google рекомендует учитывать в промпте шесть составляющих:

  1. Субъект — кто или что изображено.
  2. Композиция — ракурс, план, точка зрения.
  3. Действие — что происходит в кадре.
  4. Локация — место или окружение.
  5. Стиль — визуальный язык (реализм, акварель, 3D и т. д.).
  6. Инструкция по редактированию — если нужно изменить существующее изображение.

Даже короткий запрос из одного-двух предложений работает, но чем точнее заданы детали, тем предсказуемее результат.

Примеры

  • Сохранение персонажа: сначала описать героя подробно, затем использовать его в разных сценах — модель будет узнавать облик и повторять его.
  • Точечные правки: например, изменить цвет дивана или убрать объект на фоне.
  • Совмещение идей: взять космонавта и заросшую баскетбольную площадку, а затем объединить их в один кадр.
  • Смена стиля: преобразовать фото мотоцикла в архитектурный чертёж.
  • Использование логики: показать не только действие, но и последствия — например, как упадёт торт, если человек споткнётся.

Ограничения

Google отмечает, что у модели пока есть слабые места: нестабильная стилизация, ошибки в написании текста на картинках, редкие сбои в сохранении внешности персонажей и сложности с точным соблюдением пропорций.

Доступность Gemini в России

На данный момент Gemini официально недоступен в России — нужно использовать VPN.

При этом сами функции генерации изображений работают полноценно: можно писать запросы как на английском, так и на русском. Модель корректно понимает русские промпты и выдаёт качественные результаты. Английский может быть полезен, если запрос связан со специфическими терминами или стилями, но в повседневных сценариях русский язык поддерживается без проблем.

А вы уже пробовали генерировать или редактировать изображения с помощью Gemini?

1
Начать дискуссию