реклама
разместить

Google научила Gemini 2.0 Flash генерировать и редактировать изображения

В соцсетях протестировали, как модель заменяет фон, добавляет детали и раскрашивает чёрно-белые фотографии по текстовому запросу.

  • Gemini 2.0 Flash — это «универсальная» модель, которая может писать код, создавать аудио, озвучивать текст и анализировать изображения. Теперь Google научила её генерировать картинки.
  • Модель может создать или отредактировать изображение по текстовому запросу, а также дополнить ответ генерациями для наглядности, например при запросе кулинарного рецепта.
Запрос: «Мне нужен рецепт шоколадного печенья. Добавь иллюстрацию к каждому шагу». Источник: <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2F9to5google.com%2F2025%2F03%2F12%2Fgemini-2-0-flash-native-image-output%2F&postId=1862879" rel="nofollow noreferrer noopener" target="_blank">9to5Google</a>
Запрос: «Мне нужен рецепт шоколадного печенья. Добавь иллюстрацию к каждому шагу». Источник: 9to5Google
  • Обычно в ответ на просьбу исправить или дополнить картинку модели создают новую генерацию — и она может сильно отличаться от предыдущей. Gemini 2.0 Flash же редактирует первоначальное изображение.
Автор попросил изменить выражение лица персонажа. Gemini 2.0 Flash сохранила все детали, перерисовала только брови и рот. Источник: <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fx.com%2Fkenn%2Fstatus%2F1900071004736806929&postId=1862879" rel="nofollow noreferrer noopener" target="_blank">Kenn Ejima</a> 
Автор попросил изменить выражение лица персонажа. Gemini 2.0 Flash сохранила все детали, перерисовала только брови и рот. Источник: Kenn Ejima 
  • Один из пользователей протестировал, сможет ли модель заставить героев известных полотен есть мороженое, не изменяя сами картины.
  • В другом примере Gemini 2.0 Flash попросили создать персонажа, поместить его в игру и сгенерировать несколько сцен, где он выполняет задания.
  • Модель может генерировать не только картинки, но и последовательность кадров для GIF-анимации в едином стиле.
Пользователь просит создать последовательность изображений для растущего цветка. Источник: Cristian Penas
Итоговая GIF. Источник: Cristian Penas 
  • Также Gemini 2.0 Flash раскрашивает чёрно-белые рисунки и фотографии, меняет фон изображений и объединяет несколько снимков в один.
Пользователь раскрасил фотографию с помощью Gemini 2.0 Flash. Источник: <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fx.com%2Fmarouane53%2Fstatus%2F1900153414987743504&postId=1862879" rel="nofollow noreferrer noopener" target="_blank">Marouane Lamharzi Alaoui</a>
Пользователь раскрасил фотографию с помощью Gemini 2.0 Flash. Источник: Marouane Lamharzi Alaoui
Пример замены фона на фотографии. Источник: <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fx.com%2Fbilawalsidhu%2Fstatus%2F1899904526284710371&postId=1862879" rel="nofollow noreferrer noopener" target="_blank">Bilawal Sidhu</a>
Пример замены фона на фотографии. Источник: Bilawal Sidhu
Модель объединила героя с одной фотографии и игрушку с другой в одно изображение. Источник: <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fx.com%2Findigo11%2Fstatus%2F1900063414996918635&postId=1862879" rel="nofollow noreferrer noopener" target="_blank">indigo</a>
Модель объединила героя с одной фотографии и игрушку с другой в одно изображение. Источник: indigo
  • Протестировать Gemini 2.0 Flash Experimental можно в AI Studio от Google (сервис не открывается с российских IP-адресов). Для этого в поле Output format нужно выбрать Image and text.
  • Компания запустила модель 11 декабря 2024 года. Она может использовать сторонние приложения, чтобы распознавать предметы через камеру, человеческую речь, просматривать, что пользователь делает в приложениях, и давать подсказки, например, для написания кода.
1616
66
11
11
реклама
разместить
22 комментария

Когда же уже Яндекс скопирует?.. не поспевают ребята

1
1

Сможет лучше?

1

На 34 секунде очень красивый кадр

2

Окей, я не выкупаю, это нейросеть или реальная реклама

"Модель объединила героя с одной фотографии и игрушку с другой в одно изображение." - ну всё, маркетплейсы теперь будут кишмя-кишить "моделями с [нужное_вставить]". В принципе почему-бы и нет.

а рука у девушки на которой она держит медведя всё же странная

Последовательные изображения вот что огонь, инди-гейм-разрабы давно ждали

Раскрывать всегда
Google выпустила модель Gemma 3 для разработчиков — её можно запустить на «одном графическом процессоре»

Нейросеть создана на базе тех же технологий, что и «самая продвинутая» модель компании Gemini 2.0.

Производительность моделей DeepSeek-R1, DeepSeek-V3, o3-mini, Gemma 3 и других. Точками показано, сколько процессоров нужно для их работы. Источник: Google
99
22
11
реклама
разместить
Gemini 2.0 Flash от Google теперь позволяет редактировать изображения с использованием естественного языка
Gemini 2.0 Flash от Google теперь позволяет редактировать изображения с использованием естественного языка

Модель Gemini 2.0 Flash от Google теперь позволяет редактировать изображения с помощью естественного языка. В отличие от более ранних мультимодальных систем, в которых использовалось сочетание отдельных моделей (например, использование языковой модели вместе с Imagen 3 для генерации изображений), Gemini 2.0 Flash работает в мультимодальном режиме,…

1919
Вредные советы для рекламодателей: как работать с digital-агентством, чтобы гарантированно слить бюджет

В этой статье в формате «вредных советов» разберем распространенные ошибки, которые возникают у рекламодателей при взаимодействии с digital-агентством как на этапе подготовки к сотрудничеству, так и уже в ходе самой работы. Как их избежать и сделать партнерство выгодным для обеих сторон — читайте в материале.

Вредные советы для рекламодателей: как работать с digital-агентством, чтобы гарантированно слить бюджет
Google добавит в голосового помощника Gemini возможность просматривать камеру и экран смартфона в марте 2025 года

Функции будут доступны на устройствах Android подписчикам One AI Premium.

44
11
Google представила функцию Canvas в Gemini: что это такое, как получить доступ и чем она полезна
Google представила функцию Canvas в Gemini: что это такое, как получить доступ и чем она полезна

Google выпустила новую функцию Gemini под названием Canvas, которая представляет собой интерактивное рабочее пространство, призванное сделать процесс написания текстов и программирования более комфортным и эффективным.

11
Google открыла пользователям без платной подписки доступ к функции Deep research в Gemini

И добавила в бота экспериментальную версию персонализации: помощник будет обращаться к истории поиска пользователя, чтобы давать более релевантные рекомендации.

Источник: Google
22
Миллион лайков — ноль продаж? О том, как креатив становится бесполезным
Миллион лайков — ноль продаж? О том, как креатив становится бесполезным
22
Теперь в Gemini есть Canvas – кодим, редактируем и запускаем в одном окне!

Google подтянулся к OpenAI и Anthropic – в Gemini теперь есть Canvas, объединяющий написание кода, редактирование и просмотр результата в одном окне.

Google начал тестировать ИИ-режим в поисковике: нейросеть отвечает на длинные запросы, прикрепляя ссылки и медиа

Экспериментальную функцию называют «расширением» AI Overviews, пока она доступна подписчикам One AI Premium.

22
реклама
разместить
«Память» в чат-боте Google Gemini стала доступна пользователям без платной подписки

Можно попросить нейросеть запомнить факт или предпочтение или внести эти данные вручную.

55
22
11
😭 Текстовый фотошоп от Google
😭 Текстовый фотошоп от Google
11
Дайджест нейроновостей за февраль
Дайджест нейроновостей за февраль
33
22
[]