Что лучше: Google Imagen 3 или MidJourney V6? Сравнение двух генераторов изображений

Что лучше: Google Imagen 3 или MidJourney V6? Сравнение двух генераторов изображений

На мероприятии Google IO 2024 компания Google анонсировала множество новых продуктов и огромные обновления в области искусственного интеллекта. Одним из главных анонсов стала новая версия инструмента ИИ для преобразования текста в изображение, Imagen 3.

Еще больше полезностей - в моем телеграм-канале про нейросети и канале про генерацию изображений Миджорниум.

Судя по тому, что было показано во время анонса, качество визуализации значительно улучшилось. Imagen 3 достиг уровня, позволяющего ему легко конкурировать с MidJourney v6.

Давайте сравним эти два генератора изображений.

ChatGPT - бот, который работает в Телеграм без ВПН.

С помощью бота вы можете пользоваться ChatGPT на русском языке. Здесь все как обычно - пишете запрос, и быстро получаете ответ.

Промпт 1: Три женщины смеются

Three women stand together laughing, with one woman slightly out of focus in the foreground. The sun is setting behind the women, creating a lens flare and a warm glow that highlights their hair and creates a bokeh effect in the background. The photography style is candid and captures a genuine moment of connection and happiness between friends. The warm light of golden hour lends a nostalgic and intimate feel to the image

Что лучше: Google Imagen 3 или MidJourney V6? Сравнение двух генераторов изображений

Оба изображения выглядят великолепно, а люди в кадрах невероятно фотореалистичны. Если бы мне пришлось выбирать между ними, я бы предпочел изображение, созданное MidJourney. Спекулярное отражение выглядит лучше, а текстура кожи более гладкая, что придает откровенному моменту более естественный вид.

Промпт №2: Букет цветов

A large, colorful bouquet of flowers in an old blue glass vase on the table. In front is one beautiful peony flower surrounded by various other blossoms like roses, lilies, daisies, orchids, fruits, berries, green leaves. The background is dark gray. Oil painting in the style of the Dutch Golden Age.

Что лучше: Google Imagen 3 или MidJourney V6? Сравнение двух генераторов изображений

Здесь побеждает Imagen 3. Более мягкие и теплые тона изображения вызывают желание повесить его на стену. Хотя MidJourney также проделал отличную работу, он часто использует слишком насыщенные цвета, которые могут лишить результат натурализма.

Промпт № 3: Цифровой мультфильм

A weathered, wooden mech robot covered in flowering vines stands peacefully in a field of tall wildflowers, with a small bluebird resting on its outstretched hand. Digital cartoon, with warm colors and soft lines. A large cliff with a waterfall looms behind.

Что лучше: Google Imagen 3 или MidJourney V6? Сравнение двух генераторов изображений

Imagen 3 справился с этой задачей лучше. Несмотря на несколько попыток, MidJourney постоянно не удается полностью следовать промпту - робот не вытягивает руку и не смотрит на птицу, что снижает эмоциональное воздействие, присутствующее на первом изображении.

Промпт № 4: Человеческие руки

A view of a person’s hand as they hold a little clay figurine of a bird in their hand and sculpt it with a modeling tool in their other hand. You can see the sculptor’s scarf. Their hands are covered in clay dust. a macro DSLR image highlighting the texture and craftsmanship.

Что лучше: Google Imagen 3 или MidJourney V6? Сравнение двух генераторов изображений

Я помню времена, когда все говорили о том, как плохо генераторы изображений отображают руки и конечности. Сегодня почти все модели ИИ значительно продвинулись в этом аспекте, и приведенные выше примеры демонстрируют этот прогресс.

Сравнивая эти два изображения, можно заметить, что рука скульптора покрыта глиняной пылью на изображении, сгенерированном MidJourney, в то время как в версии Imagen 3 она очень чистая.

Промпт № 5: Рендеринг текста

A single comic book panel of a boy and his father on a grassy hill, staring at the sunset. A speech bubble points from the boy’s mouth and says: ‘The sun will rise again’. Muted, late 1990s coloring style

Что лучше: Google Imagen 3 или MidJourney V6? Сравнение двух генераторов изображений

В этом примере, чтобы быть честным с MidJourney, я попробовал сгенерировать изображение пять раз, но так и не смог добиться правильного отображения текста. Даже после добавления кавычек к тексту, чтобы соответствовать правилам рендеринга текста MidJourney, он не смог правильно отрисовать текст.

Промпт № 6: Мелкие детали

Elephant amigurumi walking in savanna, a professional photograph, blurry background

Что лучше: Google Imagen 3 или MidJourney V6? Сравнение двух генераторов изображений

Оба результата потрясающие, с умопомрачительным уровнем детализации петель пряжи. Их легко принять за настоящие фотографии. Однако, если бы мне пришлось выбирать, какой из них лучше, я бы сказал, что в данном случае результат MidJourney превосходит Imagen 3. Вы согласны?

Промпт № 7: Рендеринг текста из перьев

Word “light” made from various colorful feathers, black background

Что лучше: Google Imagen 3 или MidJourney V6? Сравнение двух генераторов изображений

Это хороший пример того, насколько Imagen 3 лучше в плане рендеринга текста. Это была хорошая попытка от MidJourney, но результат не очень разборчив и содержит нежелательные артефакты.

Впрочем, это демонстрационное изображение из Imagen. Я не знаю, сколько раз им пришлось генерировать изображение с одним и тем же промптом, чтобы получить это потрясающее изображение.

Промпт № 8: Иллюстрация

Detailed illustration of majestic lion roaring proudly in a dream-like jungle, purple white line art background, clipart on light violet paper texture

Что лучше: Google Imagen 3 или MidJourney V6? Сравнение двух генераторов изображений

Сравнивая эти два изображения, можно сказать, что Imagen 3 демонстрирует большую последовательность в качестве линейного арта, а его цвета гораздо ближе к желаемому светло-фиолетовому, чем у MidJourney. Тем не менее, оба рисунка выглядят очень круто, и это впечатляет, когда ИИ справляется с различными художественными стилями.

Промпт #9: Сцена из мультфильма

Claymation scene. A medium wide shot of an elderly woman. She is wearing flowing clothing. She is standing in a lush garden watering the plants with an orange watering can

Что лучше: Google Imagen 3 или MidJourney V6? Сравнение двух генераторов изображений

Оба изображения соответствуют промпту, но изображение, сгенерированное в Imagen 3, выглядит более отточенным. В версии MidJourney рука пожилой женщины, держащая лейку, выглядит не совсем правильно, а вода не вытекает прямо из носика лейки.

Промпт № 10: Существа

Photographic portrait of a real life dragon resting peacefully in a zoo, curled up next to its pet sheep. Cinematic movie still, high quality DSLR photo.

Что лучше: Google Imagen 3 или MidJourney V6? Сравнение двух генераторов изображений

Хотя Imagen 3 значительно улучшилась в плане генерации существ, MidJourney по-прежнему остается королем в этой категории. Только посмотрите, как мило смотрятся вместе дракон и овечка на изображении, полученном в MidJourney.

Как получить доступ

Перейдите в официальный блог Google, посвященный Imagen 3, и нажмите на кнопку "Зарегистрироваться, чтобы попробовать ImageFX".

Что лучше: Google Imagen 3 или MidJourney V6? Сравнение двух генераторов изображений

ImageFX является частью тестовой лаборатории Google для своих ИИ-инструментов.

Что лучше: Google Imagen 3 или MidJourney V6? Сравнение двух генераторов изображений

Также вы можете запросить доступ к Imagen 3 с панели управления ImageFX.

Что лучше: Google Imagen 3 или MidJourney V6? Сравнение двух генераторов изображений

Вот и все. Надеюсь, эта сравнительная статья была вам полезна. Если вы хотите, чтобы я сравнил Imagen 3 с другими генераторами изображений, такими как Dall-E 3 или Adobe Firefly 2.0, напишите в комментариях.

В целом, приятно видеть, что эти две модели изображений работают очень хорошо. Изображения очень детализированные, целостные и в целом потрясающие.

С эстетической точки зрения я по-прежнему считаю MidJourney лучше, но мы достигли точки насыщения в моделях "текст-изображение", и рендеринг текста находится на уровне Dall-E 3.

Хотя важно помнить, что примеры изображений были отобраны Google и могут не полностью отражать производительность Imagen 3, когда он станет общедоступным, я должен признать, что впечатлен тем, что я видел до сих пор.

Еще больше полезностей - в моем телеграм-канале про нейросети и канале про генерацию изображений Миджорниум.

Источник статьи на английском - здесь.

33
9 комментариев

Очень хорошо!

1
Ответить

Согласен. Главное- чтобы и в реальности после релиза так генерировал, а то гугл умеет в фейки )

Ответить

технологии уже шагнули так далеко что сравнивать особо нечего, большинство работает вполне удовлетворительно

1
Ответить

Ещё есть куда расти, но в принципе основные лидеры рынка вырисовываются.

Ответить
Комментарий удалён модератором

Отличная статья. Спасибо.

1
Ответить