Google научила Gemini 2.0 Flash генерировать и редактировать изображения

В соцсетях протестировали, как модель заменяет фон, добавляет детали и раскрашивает чёрно-белые фотографии по текстовому запросу.

Gemini 2.0 Flash — это «универсальная» модель, которая может писать код, создавать аудио, озвучивать текст и анализировать изображения. Теперь Google научила её генерировать картинки.
Модель может создать или отредактировать изображение по текстовому запросу, а также дополнить ответ генерациями для наглядности, например при запросе кулинарного рецепта.

Запрос: «Мне нужен рецепт шоколадного печенья. Добавь иллюстрацию к каждому шагу». Источник: <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2F9to5google.com%2F2025%2F03%2F12%2Fgemini-2-0-flash-native-image-output%2F&postId=1862879" rel="nofollow noreferrer noopener" target="_blank">9to5Google</a>

Обычно в ответ на просьбу исправить или дополнить картинку модели создают новую генерацию — и она может сильно отличаться от предыдущей. Gemini 2.0 Flash же редактирует первоначальное изображение.

Автор попросил изменить выражение лица персонажа. Gemini 2.0 Flash сохранила все детали, перерисовала только брови и рот. Источник: <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fx.com%2Fkenn%2Fstatus%2F1900071004736806929&postId=1862879" rel="nofollow noreferrer noopener" target="_blank">Kenn Ejima</a>

Один из пользователей протестировал, сможет ли модель заставить героев известных полотен есть мороженое, не изменяя сами картины.

Google научила Gemini 2.0 Flash генерировать и редактировать изображения

В другом примере Gemini 2.0 Flash попросили создать персонажа, поместить его в игру и сгенерировать несколько сцен, где он выполняет задания.

Модель может генерировать не только картинки, но и последовательность кадров для GIF-анимации в едином стиле.

Пользователь просит создать последовательность изображений для растущего цветка. Источник: Cristian Penas

Итоговая GIF. Источник: Cristian Penas

Также Gemini 2.0 Flash раскрашивает чёрно-белые рисунки и фотографии, меняет фон изображений и объединяет несколько снимков в один.

Модель создала рисунок из наброска. Источник: Linaqruf

Затем раскрасила его на добавила тени. Источник: Linaqruf

Пользователь раскрасил фотографию с помощью Gemini 2.0 Flash. Источник: <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fx.com%2Fmarouane53%2Fstatus%2F1900153414987743504&postId=1862879" rel="nofollow noreferrer noopener" target="_blank">Marouane Lamharzi Alaoui</a>

Пример замены фона на фотографии. Источник: <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fx.com%2Fbilawalsidhu%2Fstatus%2F1899904526284710371&postId=1862879" rel="nofollow noreferrer noopener" target="_blank">Bilawal Sidhu</a>

Модель объединила героя с одной фотографии и игрушку с другой в одно изображение. Источник: <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fx.com%2Findigo11%2Fstatus%2F1900063414996918635&postId=1862879" rel="nofollow noreferrer noopener" target="_blank">indigo</a>

Протестировать Gemini 2.0 Flash Experimental можно в AI Studio от Google (сервис не открывается с российских IP-адресов). Для этого в поле Output format нужно выбрать Image and text.
Компания запустила модель 11 декабря 2024 года. Она может использовать сторонние приложения, чтобы распознавать предметы через камеру, человеческую речь, просматривать, что пользователь делает в приложениях, и давать подсказки, например, для написания кода.

#новости #google

1616

2424

разместить

22 комментария

Покушай булочек

13 мар

Когда же уже Яндекс скопирует?.. не поспевают ребята

Сможет лучше?

На 34 секунде очень красивый кадр

Ответить

Двойное дно

14 мар

Окей, я не выкупаю, это нейросеть или реальная реклама

Ответить

Klonin DevApp

13 мар

"Модель объединила героя с одной фотографии и игрушку с другой в одно изображение." - ну всё, маркетплейсы теперь будут кишмя-кишить "моделями с [нужное_вставить]". В принципе почему-бы и нет.

Ответить

Дмитрий Пинчук

13 мар

а рука у девушки на которой она держит медведя всё же странная

Ответить

Мимо проходивший

13 мар

Последовательные изображения вот что огонь, инди-гейм-разрабы давно ждали

Google выпустила модель Gemma 3 для разработчиков — её можно запустить на «одном графическом процессоре»

Нейросеть создана на базе тех же технологий, что и «самая продвинутая» модель компании Gemini 2.0.

Производительность моделей DeepSeek-R1, DeepSeek-V3, o3-mini, Gemma 3 и других. Точками показано, сколько процессоров нужно для их работы. Источник: Google

разместить

NeuroЭнтузиаст (Алексей)

15 мар

Gemini 2.0 Flash от Google теперь позволяет редактировать изображения с использованием естественного языка

Модель Gemini 2.0 Flash от Google теперь позволяет редактировать изображения с помощью естественного языка. В отличие от более ранних мультимодальных систем, в которых использовалось сочетание отдельных моделей (например, использование языковой модели вместе с Imagen 3 для генерации изображений), Gemini 2.0 Flash работает в мультимодальном режиме,…

1919

Вредные советы для рекламодателей: как работать с digital-агентством, чтобы гарантированно слить бюджет

В этой статье в формате «вредных советов» разберем распространенные ошибки, которые возникают у рекламодателей при взаимодействии с digital-агентством как на этапе подготовки к сотрудничеству, так и уже в ходе самой работы. Как их избежать и сделать партнерство выгодным для обеих сторон — читайте в материале.

Ася Карпова

3 мар

Google добавит в голосового помощника Gemini возможность просматривать камеру и экран смартфона в марте 2025 года

Функции будут доступны на устройствах Android подписчикам One AI Premium.

NeuroЭнтузиаст (Алексей)

вчера

Google представила функцию Canvas в Gemini: что это такое, как получить доступ и чем она полезна

Google выпустила новую функцию Gemini под названием Canvas, которая представляет собой интерактивное рабочее пространство, призванное сделать процесс написания текстов и программирования более комфортным и эффективным.

Таня Боброва

14 мар

Google открыла пользователям без платной подписки доступ к функции Deep research в Gemini

И добавила в бота экспериментальную версию персонализации: помощник будет обращаться к истории поиска пользователя, чтобы давать более релевантные рекомендации.