Dall-E 3 VS MidJourney 5.2 VS Stable Diffusion XL - одинаковые промты, разные результаты

Dall-E 3 VS MidJourney 5.2 VS Stable Diffusion XL - одинаковые промты, разные результаты

Еще больше полезностей - в моем хобби-блоге про нейросети в Телеграм.

Dall-E 3 - новейший и недавно выпущенный генератор изображений от компании OpenAI, который благодаря своим впечатляющим возможностям набирает обороты в области ИИ. Это значительное улучшение по сравнению с предыдущей версией Dall-E, с лучшей согласованностью и качеством изображения.

Но как Dall-E 3 выглядит в сравнении со своими ближайшими конкурентами - MidJourney 5.2 и Stable Diffusion XL?

В этой статье я сравню эти три модели, используя шесть различных промтов, чтобы выяснить, какая из них дает лучшие результаты.

1. Когерентность (согласованность)

Промт: An astronaut riding a steel horse on the moon. The astronaut is wearing a medieval armor with a party hat and a green sword.

Dall-E 3 VS MidJourney 5.2 VS Stable Diffusion XL - одинаковые промты, разные результаты

Когерентность - одна из самых ярких особенностей Dall-E 3. В Dall-E 3 она реализована на все сто процентов, до мельчайших деталей. Остальные? Они немного забыли про настроение вечеринки (забыли про колпак и меч).

2. Сюрреалистический пейзаж

Промт: A dreamy landscape where clouds are made of cotton candy and rivers flow with liquid gold

Dall-E 3 VS MidJourney 5.2 VS Stable Diffusion XL - одинаковые промты, разные результаты

В данном случае я хотел посмотреть, смогут ли эти модели искусственного интеллекта немного пофантазировать и внести разнообразие. Все дело в том, чтобы превратить безумие в "вау, как красиво".

По тому, как они получились, я бы сказал, что Dall-E 3 по-прежнему выглядит лучше всех из трех. Задавая сочетание узнаваемых элементов в непривычном виде, можно оценить, насколько хорошо каждый ИИ понимает и строит сцены с нуля.

3. Историческая фантастика

Промт: Ancient Egyptian pharaoh using a modern smartphone while riding a dinosaur.

Dall-E 3 VS MidJourney 5.2 VS Stable Diffusion XL - одинаковые промты, разные результаты

Так, результат MidJourney выглядит наиболее круто в этом примере, но в него не удалось включить древнеегипетского фараона. В этом раунде побеждает Dall-E 3.

В этом промте я хотел объединить разные временные периоды и проверить, насколько ИИ владеет исторической достоверностью, чтобы не допустить анахронизма. Хороший генератор изображений должен обеспечить сочетание, которое при этом будет выглядеть правдоподобно.

4. Передача эмоций

Промт: A portrait of a woman holding a wilted rose, her expression one of profound sadness and longing.

Dall-E 3 VS MidJourney 5.2 VS Stable Diffusion XL - одинаковые промты, разные результаты

Это был тест на то, "можете ли вы вообще понимать чувства?". Ведь иногда дело не только во внешнем виде, но и в настроении. В этом раунде победил Stable Diffusion XL.

Этот промт проверяет способность ИИ передавать эмоции с помощью мимики и символических элементов, позволяя понять нюансы человеческих эмоций.

5. Дизайн существ

Промт: An image of a ‘thunderbird,’ a mythical creature that controls storms, depicted in its natural habitat during a fierce thunderstorm

Dall-E 3 VS MidJourney 5.2 VS Stable Diffusion XL - одинаковые промты, разные результаты

Dall-E 3 был близок к победе, но трофей достался MidJourney. Птица была эпической, шторм был диким - это было целое настроение!

Этот промт требует творческого подхода к созданию несуществующих вещей, проверяя границы воображения ИИ. Кроме того, в задании используются элементы окружающей среды и погоды, добавляются слои сложности, и можно увидеть, как ИИ генерирует специальные эффекты (например, молнию).

6. Архитектурный дизайн

Промт: Design an eco-friendly futuristic city floating on the ocean, with advanced technology and harmony between nature and artificial structures

Dall-E 3 VS MidJourney 5.2 VS Stable Diffusion XL - одинаковые промты, разные результаты

В этой номинации победили все, но мне больше нравится вариант, созданный Dall-E2. Мягкие тона и симметрия элементов создают впечатление классного места, в котором хотелось бы жить.

Как получить доступ к Dall E-3

Dall-E 3 теперь является частью ChatGPT и доступен только платным пользователям. Вы также можете использовать Dall-E 3 бесплатно в чате Bing, но я не знаю, как долго он будет бесплатным.

Dall-E 3 VS MidJourney 5.2 VS Stable Diffusion XL - одинаковые промты, разные результаты

Как получить доступ к MidJourney 5.2

Единственным способом использования MidJourney в настоящее время является канал Discord. Щелкните на этой ссылке, чтобы присоединиться к каналу и начать создавать свои собственные образы AI.

Dall-E 3 VS MidJourney 5.2 VS Stable Diffusion XL - одинаковые промты, разные результаты

Как получить доступ к Stable Diffusion XL

Существует несколько способов использования Stable Diffusion XL, включая HuggingFace, ClipDrop и настройку на своем компьютере. Я рекомендую использовать Playground.AI для бесплатного использования SDXL.

Dall-E 3 VS MidJourney 5.2 VS Stable Diffusion XL - одинаковые промты, разные результаты

Я впечатлен качеством изображений, создаваемых этими тремя генераторами AI-изображений, но у каждого из них есть свои сильные и слабые стороны.

MidJourney по-прежнему остается королем визуальной эстетики, создавая изображения, которые часто бывают потрясающими и креативными. Однако он может быть менее последовательным в плане согласованности, а также иногда создавать нереалистичные или нелепые изображения.

Dall-E 3 лучше, чем MidJourney, в плане согласованности, но его образы могут быть менее привлекательными. Dall-E 3 также лучше выполняет инструкции и генерирует изображения, соответствующие конкретным описаниям.

SDXL - хороший универсальный генератор AI-образов, но он отстает от MidJourney и Dall-E 3 как по визуальной эстетике, так и по согласованности.

В целом, я думаю, что выбор лучшего генератора AI-изображений будет зависеть от ваших конкретных потребностей.

Если вы не заметили, компания Adobe только что выпустила обновление своего собственного генератора AI-изображений под названием Firefly 2.0.

Чтобы не пропустить мои новые статьи, не забудьте подписаться на мой ТГ-канал о нейросетях.

Оригинал на английском языке

17
25 комментариев
Комментарий удалён модератором

Это уже вопрос удобства и привычки, а также целей.

1
Ответить

Комментарий недоступен

3
Ответить

Это да, у каждого варианта свои плюсы и минусы, но выбирать вам.

Ответить

Интересно было бы узнать? Нейросети разные, промты в принципе одинаковые а по результатам генерации разное качество изображения. Я вот думаю, что если качество примерно одинаковое, то зачем платить больше или вообще платить, если можно пользоваться бесплатными нейросетями.

2
Ответить

Согласен. Главное - чтобы затраты на сервисы себя оправдывали.

1
Ответить

Соглашусь частично) Каждый кому интересна данная тема, есть время и возможности найдет оптимальный вариант именно "под себя"... Ведь как говорила злодейка: Что норма для паука, хаос для мухи ;)

Ответить