Компания Google выпустила практические советы по генерации изображений в Gemini

Google опубликовала подробные рекомендации о том, как правильно составлять запросы для генерации и редактирования изображений в Gemini. Эти советы помогут лучше использовать новые возможности модели.

В обновлении улучшили несколько ключевых функций:

Сохранение внешности персонажа — теперь модель способна удерживать узнаваемые черты объекта или героя при смене поз, освещения или фона.
Точечное редактирование — можно менять отдельные детали с помощью простых текстовых инструкций, без сложных инструментов.
Комбинирование сцен — разные изображения можно объединять в одно, создавая необычные композиции.
Смена стиля — есть возможность преобразовать готовое изображение в другой визуальный формат (например, из фотографии в рисунок).
Логика и рассуждения — модель умеет строить сцены, исходя из контекста, и даже предсказывать последствия действий.

Google рекомендует учитывать в промпте шесть составляющих:

Субъект — кто или что изображено.
Композиция — ракурс, план, точка зрения.
Действие — что происходит в кадре.
Локация — место или окружение.
Стиль — визуальный язык (реализм, акварель, 3D и т. д.).
Инструкция по редактированию — если нужно изменить существующее изображение.

Даже короткий запрос из одного-двух предложений работает, но чем точнее заданы детали, тем предсказуемее результат.

Сохранение персонажа: сначала описать героя подробно, затем использовать его в разных сценах — модель будет узнавать облик и повторять его.
Точечные правки: например, изменить цвет дивана или убрать объект на фоне.
Совмещение идей: взять космонавта и заросшую баскетбольную площадку, а затем объединить их в один кадр.
Смена стиля: преобразовать фото мотоцикла в архитектурный чертёж.
Использование логики: показать не только действие, но и последствия — например, как упадёт торт, если человек споткнётся.

Google отмечает, что у модели пока есть слабые места: нестабильная стилизация, ошибки в написании текста на картинках, редкие сбои в сохранении внешности персонажей и сложности с точным соблюдением пропорций.

На данный момент Gemini официально недоступен в России — нужно использовать VPN.

При этом сами функции генерации изображений работают полноценно: можно писать запросы как на английском, так и на русском. Модель корректно понимает русские промпты и выдаёт качественные результаты. Английский может быть полезен, если запрос связан со специфическими терминами или стилями, но в повседневных сценариях русский язык поддерживается без проблем.

А вы уже пробовали генерировать или редактировать изображения с помощью Gemini?

#ai #aitools #google #gemini #искусственныйинтеллект #технологии #технологиибудущего #генерацияизображений #редактирование #полезное

Компания Google выпустила практические советы по генерации изображений в Gemini

Что изменилось в Gemini

Шесть элементов хорошего запроса

Примеры

Ограничения

Доступность Gemini в России