Open AI выпускают DALL·E 3. Сравниваем обновленную нейросеть с Midjourney
Вчера Open AI поделились новостью о выходе модели DALL·E 3, и хотя официальный релиз запланирован на октябрь, мы уже сегодня можем взглянуть на сгенерированные в ней изображения и сравнить их с результатами других популярных нейросетей :)
По словам разработчиков, DALL·E 3 — это настоящий прорыв в области генерации изображений и понимания текстовых запросов. Обновленная модель нейросети обещает не только генерировать более качественные изображения, но и более точно понимать текстовые промпты, уделяя внимание каждому слову в процессе генерации.
Если DALL·E 3 реально сможет понимать и генерировать все, что мы запрашиваем, это будет безумно круто. Иногда нейросетки могут испытывать сложности с тем, чтобы отразить на изображении все детали наших промптов — так что иногда приходится устраивать фокусы с формулировками, правильно расставлять веса и все тому подобное.
Пока затестить DALL·E 3 напрямую мы не можем — доступа еще ни у кого нет. Но вот зато Open AI в своем вчерашнем анонсе поделились примерами генераций, на которые способна нейросеть — и выложили к ним промпты. Так что у нас есть возможность затестить те же промпты на других нейросетках :)
Пример 1
Иллюстрация человеческого сердца, сделанного из полупрозрачного стекла, стоящего на пьедестале среди бурного моря. Лучи солнца проникают сквозь облака, освещая сердце и раскрывая маленькую вселенную внутри. Над горизонтом выгравирована цитата «найди вселенную внутри себя» жирными буквами
Потестим Midjourney, Stable Diffusion XL и Leonardo соответственно:
- Midjourney, сколько бы ни генерировали, так и не выдал нам человеческого сердца, да и текст пока писать не умеет
- SDXL смог в человеческое сердце! Но на мини-вселенную и надпись на пьедестале его уже не хватило :(
- А Леонардо... ну, он хотя бы пытался
Пример 2
2D-анимация музыкальной фолк-группы, состоящей из антропоморфных осенних листьев, каждый из которых играет на традиционных инструментах блюграсса, среди деревенской лесной обстановки, освещенной мягким светом урожайной луны
(Кстати, если вы не знали, что такое блюграсс, — то это жанр американской сельской музыки кантри!)
Теперь очередь Midjourney, Stable Diffusion XL и Leonardo:
- Midjourney понял задачу про антропоморфность, но на листья эти ребята совсем не похожи. Пришлось изрядно помучиться с генерацией — из-за количества персонажей и музыкальных инструментов, часто получалось что попало
- У SDXL и Leonardo, конечно, что-то пошло совсем не так
Пример 3
Среднего возраста женщина азиатской национальности, ее темные волосы с прожилками серебра, представлена в виде раздробленной и расколотой фигуры, сложно вплетенной в море разбитого фарфора. Фарфор сияет блестящими узорами красок, гармонично смешивая глянцевые и матовые оттенки синего, зеленого, оранжевого и красного, запечатлевая ее танец в сюрреалистическом сочетании движения и неподвижности. Оттенок ее кожи, такой же светлый, как и фарфор, добавляет почти мистическое качество ее облику
И снова Midjourney, Stable Diffusion XL и Leonardo:
- Midjourney тут сотворил какую-то невероятную красоту. Да и в целом близко к изначальному промпту — даже сложно сказать, кто здесь выигрывает. Как думаете? Пишите в комменты ✨
- Leonardo и SDXL тоже нагенерировали что-то невероятное, но все-таки не совсем то, что просили
Пример 4
Крупный план фотографии краба-отшельника, уютно устроившегося в мокром песке, с морской пеной рядом и с акцентом на детали его панциря и текстурой песка
Простенький промпт!
Midjourney, Stable Diffusion XL и Leonardo:
- Midjourney и SDXL справились хорошо — только что у второго с морской пеной в итоге так ничего и не получилось
- Мы не биологи, но существо на третьем изображении не совсем похоже на краба. И пену морскую забыл!
Понятное дело, что для анонса Open AI взяли самые удачные генерации, и мы не знаем, сколько раз им приходилось генерировать один и тот же промпт. Мы для чистоты эксперимента везде сохраняли изначальный текстовый запрос, ничего не меняли и устраивали по несколько кругов генераций на каждый промпт.
Судя по четырем примерам выше — DALL·E 3 и правда выигрывает в генерации максимально близко к запросу. Если еще и качество подтянуть, то у Midjourney может появиться достойный соперник. А нам наконец не нужно будет постоянно делать так :
И еще одна причина ждать DALL·E 3 — его интеграция с ChatGPT. Как все это будет выглядеть, нам тоже показали:
В общем, релиз в октябре. Нейронка будет доступна для подписчиков ChatGPT Plus — на этом подробности заканчиваются. Какие у вас мысли? Ждете? Обязательно делитесь в комментах — всегда любопытно почитать!
Подписывайтесь на наш телеграм-канал: мы следим за новостями в сфере нейросетей и рассказываем только самое главное. А еще устраиваем разные интерактивы, проводим прямые эфиры и тестируем нейросетки вместе с подписчиками ⚡
Если это такого качества, да ещё и в совместной подписке за 20 баксов, то несомненно взлетит