{"id":14283,"url":"\/distributions\/14283\/click?bit=1&hash=8766cc03cba44a6d934ee26f882971a64223452448548d2fc3a5f37339e77cfa","title":"\u0412\u0438\u0434\u0435\u043b\u0438 \u0432 \u0421\u043e\u0447\u0438 \u0443\u0436\u0435 \u0432\u0441\u0451? \u0412\u043e\u0442 \u043d\u0435\u043e\u0431\u044b\u0447\u043d\u0430\u044f \u0438\u0434\u0435\u044f \u0434\u043b\u044f \u043e\u0442\u0434\u044b\u0445\u0430 \u043d\u0430 \u043a\u0443\u0440\u043e\u0440\u0442\u0435 ","buttonText":"","imageUuid":""}

Open AI выпускают DALL·E 3. Сравниваем обновленную нейросеть с Midjourney

Вчера Open AI поделились новостью о выходе модели DALL·E 3, и хотя официальный релиз запланирован на октябрь, мы уже сегодня можем взглянуть на сгенерированные в ней изображения и сравнить их с результатами других популярных нейросетей :)

По словам разработчиков, DALL·E 3 — это настоящий прорыв в области генерации изображений и понимания текстовых запросов. Обновленная модель нейросети обещает не только генерировать более качественные изображения, но и более точно понимать текстовые промпты, уделяя внимание каждому слову в процессе генерации.

Если DALL·E 3 реально сможет понимать и генерировать все, что мы запрашиваем, это будет безумно круто. Иногда нейросетки могут испытывать сложности с тем, чтобы отразить на изображении все детали наших промптов — так что иногда приходится устраивать фокусы с формулировками, правильно расставлять веса и все тому подобное.

Пока затестить DALL·E 3 напрямую мы не можем — доступа еще ни у кого нет. Но вот зато Open AI в своем вчерашнем анонсе поделились примерами генераций, на которые способна нейросеть — и выложили к ним промпты. Так что у нас есть возможность затестить те же промпты на других нейросетках :)

Пример 1

"An illustration of a human heart made of translucent glass, standing on a pedestal amidst a stormy sea. Rays of sunlight pierce the clouds, illuminating the heart, revealing a tiny universe within. The quote 'Find the universe within you' is etched in bold letters across the horizon"

Иллюстрация человеческого сердца, сделанного из полупрозрачного стекла, стоящего на пьедестале среди бурного моря. Лучи солнца проникают сквозь облака, освещая сердце и раскрывая маленькую вселенную внутри. Над горизонтом выгравирована цитата «найди вселенную внутри себя» жирными буквами

DALLE-3

Потестим Midjourney, Stable Diffusion XL и Leonardo соответственно:

  • Midjourney, сколько бы ни генерировали, так и не выдал нам человеческого сердца, да и текст пока писать не умеет
  • SDXL смог в человеческое сердце! Но на мини-вселенную и надпись на пьедестале его уже не хватило :(
  • А Леонардо... ну, он хотя бы пытался

Пример 2

A 2D animation of a folk music band composed of anthropomorphic autumn leaves, each playing traditional bluegrass instruments, amidst a rustic forest setting dappled with the soft light of a harvest moon

2D-анимация музыкальной фолк-группы, состоящей из антропоморфных осенних листьев, каждый из которых играет на традиционных инструментах блюграсса, среди деревенской лесной обстановки, освещенной мягким светом урожайной луны

(Кстати, если вы не знали, что такое блюграсс, — то это жанр американской сельской музыки кантри!)

DALL-E 3

Теперь очередь Midjourney, Stable Diffusion XL и Leonardo:

  • Midjourney понял задачу про антропоморфность, но на листья эти ребята совсем не похожи. Пришлось изрядно помучиться с генерацией — из-за количества персонажей и музыкальных инструментов, часто получалось что попало
  • У SDXL и Leonardo, конечно, что-то пошло совсем не так

Пример 3

A middle-aged woman of Asian descent, her dark hair streaked with silver, appears fractured and splintered, intricately embedded within a sea of broken porcelain. The porcelain glistens with splatter paint patterns in a harmonious blend of glossy and matte blues, greens, oranges, and reds, capturing her dance in a surreal juxtaposition of movement and stillness. Her skin tone, a light hue like the porcelain, adds an almost mystical quality to her form

Среднего возраста женщина азиатской национальности, ее темные волосы с прожилками серебра, представлена в виде раздробленной и расколотой фигуры, сложно вплетенной в море разбитого фарфора. Фарфор сияет блестящими узорами красок, гармонично смешивая глянцевые и матовые оттенки синего, зеленого, оранжевого и красного, запечатлевая ее танец в сюрреалистическом сочетании движения и неподвижности. Оттенок ее кожи, такой же светлый, как и фарфор, добавляет почти мистическое качество ее облику

И снова Midjourney, Stable Diffusion XL и Leonardo:

  • Midjourney тут сотворил какую-то невероятную красоту. Да и в целом близко к изначальному промпту — даже сложно сказать, кто здесь выигрывает. Как думаете? Пишите в комменты ✨
  • Leonardo и SDXL тоже нагенерировали что-то невероятное, но все-таки не совсем то, что просили

Пример 4

Close-up photograph of a hermit crab nestled in wet sand, with sea foam nearby and the details of its shell and texture of the sand accentuated

Крупный план фотографии краба-отшельника, уютно устроившегося в мокром песке, с морской пеной рядом и с акцентом на детали его панциря и текстурой песка

Простенький промпт!

Midjourney, Stable Diffusion XL и Leonardo:

  • Midjourney и SDXL справились хорошо — только что у второго с морской пеной в итоге так ничего и не получилось
  • Мы не биологи, но существо на третьем изображении не совсем похоже на краба. И пену морскую забыл!

Понятное дело, что для анонса Open AI взяли самые удачные генерации, и мы не знаем, сколько раз им приходилось генерировать один и тот же промпт. Мы для чистоты эксперимента везде сохраняли изначальный текстовый запрос, ничего не меняли и устраивали по несколько кругов генераций на каждый промпт.

Судя по четырем примерам выше — DALL·E 3 и правда выигрывает в генерации максимально близко к запросу. Если еще и качество подтянуть, то у Midjourney может появиться достойный соперник. А нам наконец не нужно будет постоянно делать так :

И еще одна причина ждать DALL·E 3 — его интеграция с ChatGPT. Как все это будет выглядеть, нам тоже показали:

В общем, релиз в октябре. Нейронка будет доступна для подписчиков ChatGPT Plus — на этом подробности заканчиваются. Какие у вас мысли? Ждете? Обязательно делитесь в комментах — всегда любопытно почитать!

Подписывайтесь на наш телеграм-канал: мы следим за новостями в сфере нейросетей и рассказываем только самое главное. А еще устраиваем разные интерактивы, проводим прямые эфиры и тестируем нейросетки вместе с подписчиками ⚡

0
1 комментарий
Roman Bannov

Если это такого качества, да ещё и в совместной подписке за 20 баксов, то несомненно взлетит

Ответить
Развернуть ветку
-2 комментариев
Раскрывать всегда