Неужели Stable Diffusion 3 только что обошла Midjourney V6 и Dall-E3?
Компания Stability AI только что сбросила бомбу на мир искусственного интеллекта для создания изображений: Stable Diffusion 3 (SD3). На данный момент это самый продвинутый и мощный генератор изображений, который они выпустили, с огромными улучшениями по сравнению с уже впечатляющей Stable Diffusion 2.1, выпущенной более года назад.
Если вам интересна тема нейросетей, подпишитесь пожалуйста на мой канал про нейросети, а если вы хотите больше узнать про генерацию изображений, добро пожаловать в этот канал!
Итак, что же нового в Stable Diffusion 3?
- Поддержка рендеринга текста
- Улучшенная производительность
- Многосубъектные промпты
- Улучшенное качество изображения
SD3 также использует архитектуру диффузионного трансформатора, которая похожа на Sora от OpenAI. Позволяет ли это предположить, что SD3 также способен генерировать видео? Эта интригующая возможность - тема для другого разговора.
В этой статье я собираюсь сравнить изображения, сгенерированные SD3, с двумя самыми популярными и мощными генераторами изображений для ИИ - Midjourney V6 и Dall-E 3.
Давайте приступим.
Промпт №1
Photo of a red sphere on top of a blue cube. Behind them is a green triangle, on the right is a dog, on the left is a cat
Вот изображение, полученное с помощью Stable Diffusion 3:
Больше всего меня привлекает зеленый оттенок на шеях кошки и собаки. Похоже, SD3 умеет понимать окружающую обстановку и имитировать отражения.
Я не могу не задаться вопросом, не научилась ли она этому трюку втайне от всех, используя данные о закулисных фотосессиях с зелеными экранами.
В отличие от этого, изображения Midjourney V6 и Dall-E 3, хотя и впечатляют, но по-разному.
Midjourney V6 странно расположил животных на синих кубиках, в то время как результаты Dall-E 3 были обескураживающе бессвязными. SD3 побеждает в этом раунде за то, что результат соответствует промпту.
Промпт №2
Resting on the kitchen table is an embroidered cloth with the text ‘good night’ and an embroidered baby tiger. Next to the cloth there is a lit candle. The lighting is dim and dramatic
Вот что получилось у SD3:
Это прекрасная фотография крупным планом. Мне нравится, как размыты боковые стороны и сфокусированы на тигре и тексте. Детализация вышивки также фантастическая. Вы можете практически почувствовать колючую текстуру стежка, а также то, как он становится более пушистым по мере удаления.
А вот как выглядят результаты конкурентов:
Midjourney, как и ожидалось, отличается фирменными темными тонами и точным освещением. Dall-E 3 также отлично справился с этой работой, хотя оба они добавили несколько других элементов, которых нет в промпте.
Кому-то это кажется обманом? Для меня победителем стал SD3, строго придерживающийся промпта... хотя я бы не стал осуждать никого за то, что он был сражен художественной интерпретацией Midjourney.
Промпт № 3
Photo of an 90’s desktop computer on a work desk, on the computer screen it says “welcome”. On the wall in the background we see beautiful graffiti with the text “SD3” very large on the wall.
Вот как SD3 интерпретировал промпт:
Огромный текст так органично сочетается с фоном. И обратите внимание, насколько единообразен шрифт. Это выглядит как иллюстрация, созданная прямо в Photoshop.
А теперь давайте посмотрим, что получилось у Midjourney и Dall-E 3:
С точки зрения стиля и деталей, Midjourney - лучший выбор. Но промпт требовал очень большого текста на стене - Midjourney этого не сделал. Поэтому с точки зрения согласованности здесь лучший вариант - SD3. Результат Dall-E 3 оставляет желать лучшего.
Промпт № 4
Three transparent glass bottles on a wooden table. The one on the left has red liquid and the number 1. The one in the middle has blue liquid and the number 2. The one on the right has green liquid and the number 3.
SD3 прекрасно справился с промптом.
Вот результаты Midjourney и Dall-E 3:
Изображения, сгенерированные в Midjourney и Dall-E 3 также впечатляют, причем каждый генератор обладает своими уникальными эстетическими качествами. Лично я считаю, что Midjourney изображает ссохшийся стол и ржавые бутылки особенно захватывающе.
Вот и все. Чтобы получить большее представление о том, на что она способна, обязательно загляните в профиль X генерального директора Stability AI Эмада. Он часто публикует изображения, созданные с помощью SD3.
Честно говоря, где SD3 занимает первое место, так это в своем безумно точном понимании промптов. Когда вы хотите получить именно то, что описали, она это делает. Но Midjourney все еще держит свои позиции, когда дело доходит до уникальной, художественной выразительности, которая может поднять изображения на новый уровень.
Что вы думаете об этой новой модели с открытым исходным кодом? Считаете ли вы, что она достаточно хороша, чтобы превзойти других конкурентов, таких как Adobe Firefly, Amazon Titan G1 или Imagen 2 от Google?
Глядя на примеры изображений, становится ясно, что SD3 превосходит своих крупнейших конкурентов в генерации текста и согласованности промптов. Однако с точки зрения качества изображения я по-прежнему считаю Midjourney лидером.
Но почему это так важно?
В отличие от своих основных конкурентов, Stable Diffusion всегда был и остается программой с открытым исходным кодом, совершенно бесплатной для использования! Это значит, что скоро вы сможете бесплатно скачать SD3 и запустить его локально. Такая свобода очень важна.
Но есть и огромный минус - она также вызывает серьезные, и я имею в виду серьезные, этические проблемы. Представьте себе, что можно получить еще более правдоподобные изображения и видео с дипфейком.
Технология SD3 также намекает на то, что ее потенциал выходит за рамки изображений. Неужели мы стоим на пороге конкуренции с такими генераторами видео, как Sora от OpenAI или Genie от LumaLab? Теперь все становится по-настоящему интересным.
Если вам интересна тема нейросетей, подпишитесь пожалуйста на мой канал про нейросети, а если вы хотите больше узнать про генерацию изображений, добро пожаловать в этот канал!
Источник - здесь.
главный плюс SD - что он может генерить порнуху
в версии 1.5 во второй уже выпилили
Но кое кто всё же успел сделать бэкапы прежних версий ;)
не, ну версию 1.5 никто не удалял и она развивается, только она технически уже отстает от следующих версий
но комьюнити у ней самое большое, и моделей под нее больше всего, в отличии от следующих версий, как раз потому что она без цензуры
SD 2 , SD 2.1 , SD XL тоже без цензуры , и код менять не нужно
они уже с цензурой,
1.5 это последняя без цензуры
https://the-decoder.com/stable-diffusion-v2-removes-nude-images-and-causes-protests/
https://civitai.com/models/119202?modelVersionId=131960
и? "Attempt to uncensor SDXL" – это только попытка исправить, основная-то модель испорчена, а что там пилят отдельные энтузиасты, это не будет на таком же уровне, как если бы изначальная модель была без цензуры
Незнаю , как по мне , дык со своей задачей они справились не хуже чем Stability AI. И нет , совершенно необязательно , такова природа нейросетей. Ваше утверждение было бы лучше , если бы изначально - в корне не верно , потому что нейросети способны меняться. Они как пластелин , способны приобретать любую форму
да причем тут пластелин?)
дело банально в ресурсах, у энтузиастов на civitai нет таких же ресурсов как у кор разработчиков и их модели никогда не будут на таком же уровне, как если бы изначально модель сделали нормально
про какие ресурсы речь? чего у них такого чего нет у разработчиков? модель полностью открыта. если не понимаете о чём я , пропускайте , значит это не для вас
линукс тоже польность открыт и что дальше? однако в одиночку там дистрибутивы не пилят
если вы не имеете никакого понятия о разработке, то пропускайте что я пишу, это не для вас
не факт)
ну так это открытый код, там половина фишек реализована как раз энтузиастами, если не больше. а уж взломать или изменить код, убрав надстройку с цензурой которая не является исходным кодом а просто ограничитель, всяко проще чем разработать модель с нуля
Кто не хочет - ищет причины , кто хочет - ищет возможности
кто хочет возможнсотей nsfw, сидят на 1.5
Нет :)
кто поумнее , и не столь консервативен , и не такой старпёр - переходит на SD XL
кто поумнее, и не инфантильная школота, пользуется чем удобно, а не оскорбляет других людей
согласен , вот я и пользуюсь чем захочу , и никого не оскорбляю. Если вы оскорбляетесь , что-ж , не моя вина , что кто-то старпёр 90 летний , который до сих пор сидит на SD 1.5 )
ну я и говорю, вы мыслите как инфантильная школота)
NSFW имеет полноценную реализацию на SDXL
SD 3 тоже будет без цензуры , вообще всё семейство SD. Это возможно благодоря открытости , MJ не в руках пользователя - его исправить или переобучить невозможно