Анонсирован Imagen 2 от Google: ИИ-изображения с шокирующим фотореализмом

Анонсирован Imagen 2 от Google: ИИ-изображения с шокирующим фотореализмом

После 15 месяцев полного молчания Google наконец-то выпустила обновление своего генератора изображений с искусственным интеллектом Imagen, и результаты выглядят превосходно.

Еще больше про генерацию изображений - в моем хобби-канале Миджорниум и хобби-канал про нейросети.

Imagen 2.0 был тихо анонсирован на конференции Google I/O в мае 2023 года. Сегодня он наконец-то появился, но доступен только для клиентов Google Cloud, использующих Vertex AI.

Что такое Google Imagen?

Google Imagen - это модель искусственного интеллекта, позволяющая создавать фотореалистичные изображения на основе текстового описания. Как и другие ИИ-генераторы изображений, такие как DALL-E 3 или Midjourney, Imagen основан на диффузионной модели, которая представляет собой тип нейронной сети, способной постепенно улучшать изображения в соответствии с заданным промптом.

Imagen обучается на огромном наборе данных текстов и изображений, что позволяет ему генерировать точные и детализированные изображения.

Анонсирован Imagen 2 от Google: ИИ-изображения с шокирующим фотореализмом

Если вы хотите подробнее узнать о том, как работает Imagen, ознакомьтесь с техническим описанием здесь.

Что нового в Google Imagen 2?

Вот основные улучшения в Imagen 2.0:

  • Улучшенное понимание подписи к изображению
  • Более реалистичное создание изображений
  • Плавное формирование стиля
  • Расширенные возможности inpainting/outpainting

Давайте разберемся с каждой из этих функций.

Улучшенное понимание подписей к изображениям

Чтобы генерировать более качественные и точные изображения, которые лучше соответствуют промптам, в обучающей базе данных Imagen 2 были более подробные подписи к изображениям. Это помогает Imagen 2 лучше понять связь между изображениями и словами, улучшая понимание контекста и нюансов.

Возьмем для примера этот промпт:

An image of: Consider the subtleness of the sea; how its most dreaded creatures glide under water, unapparent for the most part, and treacherously hidden beneath the loveliest tints of azure

Анонсирован Imagen 2 от Google: ИИ-изображения с шокирующим фотореализмом

Промпт - отрывок из "Моби-Дика" Германа Мелвилла. Таким образом, Imagen 2 создал абстрактную картину с изображением кита. В то время как DALL-E 3 просто сгенерировал случайную подводную сцену.

Более реалистичная генерация изображений

Imagen 2 стал значительно лучше при генерации того, большинство генераторов изображений с искусственным интеллектом испытывают трудности, - руки. Кроме рук, значительно улучшилась симметрия и детализация лица.

Анонсирован Imagen 2 от Google: ИИ-изображения с шокирующим фотореализмом

Для создания более привлекательных изображений Imagen 2 был обучен с помощью модели эстетики изображений, которая оценивает изображения по таким качествам, как освещение, кадрирование и резкость, которые человек считает более привлекательными. Эта система оценок позволяет Imagen 2 придавать большее значение обучающим изображениям, которые соответствуют эстетическим предпочтениям человека.

Inpainting/outpainting

Imagen 2 также поддерживает возможности редактирования изображений - инпайтинг и аутпайтинг.

  • Inpainting - это функция, которая позволяет редактировать часть изображения, добавляя маску и позволяя искусственному интеллекту автоматически заполнять эту часть.
  • Outpainting - это техника, позволяющая расширить исходное изображение за его пределы. Это позволяет расширить изображение до любого соотношения сторон.

Вот пример:

Как получить доступ к Imagen 2

В настоящее время Imagen доступен в Google Vertex AI, доступ к которому имеют только избранные пользователи. Перейдите в Google Cloud Console и найдите Vertex AI. На вкладке Vision вы увидите панель управления, позволяющую генерировать изображения.

Анонсирован Imagen 2 от Google: ИИ-изображения с шокирующим фотореализмом

Другие примеры изображений

Вот еще примеры из блога Google Deepmind:

Промпт: A shot of a 32-year-old female, up and coming conservationist in a jungle; athletic with short, curly hair and a warm smile

Анонсирован Imagen 2 от Google: ИИ-изображения с шокирующим фотореализмом

Это невероятно фотореалистичное изображение. Серьезно, если этот ИИ-инструмент получит возможность копировать лицо с эталонного изображения, это станет началом конца карьеры профессиональных фотографов.

Промпт: The robin flew from his swinging spray of ivy on to the top of the wall and he opened his beak and sang a loud, lovely trill, merely to show off. Nothing in the world is quite as adorably lovely as a robin when he shows off — and they are nearly always doing it.

Анонсирован Imagen 2 от Google: ИИ-изображения с шокирующим фотореализмом

Это изображение также олицетворяет опасность ддя фотографов животных. Вы можете определить, что это не настоящее изображение? Уверен, что нет.

Фокус на брендинге и логотипах

Еще один конкретный пример, который привлек мое внимание, - это то, насколько хорошо он генерирует логотипы и названия брендов. Хотя другие конкуренты, например DALL-E 3, также способны разборчиво добавлять тексты к изображению, качество результата впечатляет больше.

Анонсирован Imagen 2 от Google: ИИ-изображения с шокирующим фотореализмом
Анонсирован Imagen 2 от Google: ИИ-изображения с шокирующим фотореализмом

Как видно на этих изображениях, DALL-E 3 иногда не может правильно написать слова, в то время как Imagen идеально добавляет текст на продукт даже при косых углах. Дизайнеры и владельцы брендов, несомненно, будут рады получить в свои руки эту технологию.

Цены

Давайте поговорим о ценах.

На странице цен Google указано, что стоимость генерации изображений составляет 0,020 долл. Но я не могу проверить, относится ли эта цена к v1 или v2 модели ИИ.

Анонсирован Imagen 2 от Google: ИИ-изображения с шокирующим фотореализмом

Если кто-то может сообщить цены на каждую модель AI, я буду очень признателен.

Google полностью посвящает себя искусственному интеллекту. Изображения Imagen 2 впечатляют, даже лучше, чем результаты DALL-E 3 и Midjourney. Не могу дождаться, когда получу в свои руки этот инструмент.

Что касается безопасности, то повышенная фотореалистичность Imagen 2, несомненно, вызовет вопросы у политиков. В настоящее время Google предпочитает не говорить о наборе данных, который использовался для обучения модели искусственного интеллекта, пока соответствующие иски все еще рассматриваются в судах.

И последнее замечание для Google: им крайне необходимо привести в порядок свою платформу и документацию. Невероятно сложно использовать любые из их новых ИИ-инструментов и моделей.

Что вы думаете о новом генераторе изображений ИИ? Что беспокоит вас больше всего?

Еще больше про генерацию изображений - в моем хобби-канале Миджорниум и хобби-канал про нейросети.

Оригинал статьи на английском - здесь.

6161
38 комментариев

А какой смысл восторгаться несколькими удачными изображениями, выложенными Гугл? Как откроют доступ, тогда и видно будет, как хорошо это работает.

8
Ответить

Учитывая как наебали всех на презентации Gemini, я бы не стал верить их пресс-релизам

4
Ответить

Ну заранее тоже ведь можно порадоваться и попускать слюни :)

1
Ответить

А потом скажут - "Ну эти изображения созданы на фотоаппарат, это просто для примера"
Как было с презентацией Gemini.

6
Ответить

Комментарий недоступен

1
Ответить

Ну да, могут вполне.

Ответить

Я не думал, что это будет настолько реалистично!

3
Ответить