Компания Google выпустила практические советы по генерации изображений в Gemini
Google опубликовала подробные рекомендации о том, как правильно составлять запросы для генерации и редактирования изображений в Gemini. Эти советы помогут лучше использовать новые возможности модели.
Что изменилось в Gemini
В обновлении улучшили несколько ключевых функций:
- Сохранение внешности персонажа — теперь модель способна удерживать узнаваемые черты объекта или героя при смене поз, освещения или фона.
- Точечное редактирование — можно менять отдельные детали с помощью простых текстовых инструкций, без сложных инструментов.
- Комбинирование сцен — разные изображения можно объединять в одно, создавая необычные композиции.
- Смена стиля — есть возможность преобразовать готовое изображение в другой визуальный формат (например, из фотографии в рисунок).
- Логика и рассуждения — модель умеет строить сцены, исходя из контекста, и даже предсказывать последствия действий.
Шесть элементов хорошего запроса
Google рекомендует учитывать в промпте шесть составляющих:
- Субъект — кто или что изображено.
- Композиция — ракурс, план, точка зрения.
- Действие — что происходит в кадре.
- Локация — место или окружение.
- Стиль — визуальный язык (реализм, акварель, 3D и т. д.).
- Инструкция по редактированию — если нужно изменить существующее изображение.
Даже короткий запрос из одного-двух предложений работает, но чем точнее заданы детали, тем предсказуемее результат.
Примеры
- Сохранение персонажа: сначала описать героя подробно, затем использовать его в разных сценах — модель будет узнавать облик и повторять его.
- Точечные правки: например, изменить цвет дивана или убрать объект на фоне.
- Совмещение идей: взять космонавта и заросшую баскетбольную площадку, а затем объединить их в один кадр.
- Смена стиля: преобразовать фото мотоцикла в архитектурный чертёж.
- Использование логики: показать не только действие, но и последствия — например, как упадёт торт, если человек споткнётся.
Ограничения
Google отмечает, что у модели пока есть слабые места: нестабильная стилизация, ошибки в написании текста на картинках, редкие сбои в сохранении внешности персонажей и сложности с точным соблюдением пропорций.
Доступность Gemini в России
На данный момент Gemini официально недоступен в России — нужно использовать VPN.
При этом сами функции генерации изображений работают полноценно: можно писать запросы как на английском, так и на русском. Модель корректно понимает русские промпты и выдаёт качественные результаты. Английский может быть полезен, если запрос связан со специфическими терминами или стилями, но в повседневных сценариях русский язык поддерживается без проблем.
А вы уже пробовали генерировать или редактировать изображения с помощью Gemini?