{"id":14285,"url":"\/distributions\/14285\/click?bit=1&hash=346f3dd5dee2d88930b559bfe049bf63f032c3f6597a81b363a99361cc92d37d","title":"\u0421\u0442\u0438\u043f\u0435\u043d\u0434\u0438\u044f, \u043a\u043e\u0442\u043e\u0440\u0443\u044e \u043c\u043e\u0436\u043d\u043e \u043f\u043e\u0442\u0440\u0430\u0442\u0438\u0442\u044c \u043d\u0430 \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u0435 \u0438\u043b\u0438 \u043f\u0443\u0442\u0435\u0448\u0435\u0441\u0442\u0432\u0438\u044f","buttonText":"","imageUuid":""}

Неужели Stable Diffusion 3 только что обошла Midjourney V6 и Dall-E3?

Компания Stability AI только что сбросила бомбу на мир искусственного интеллекта для создания изображений: Stable Diffusion 3 (SD3). На данный момент это самый продвинутый и мощный генератор изображений, который они выпустили, с огромными улучшениями по сравнению с уже впечатляющей Stable Diffusion 2.1, выпущенной более года назад.

Если вам интересна тема нейросетей, подпишитесь пожалуйста на мой канал про нейросети, а если вы хотите больше узнать про генерацию изображений, добро пожаловать в этот канал!

Итак, что же нового в Stable Diffusion 3?

  • Поддержка рендеринга текста
  • Улучшенная производительность
  • Многосубъектные промпты
  • Улучшенное качество изображения

SD3 также использует архитектуру диффузионного трансформатора, которая похожа на Sora от OpenAI. Позволяет ли это предположить, что SD3 также способен генерировать видео? Эта интригующая возможность - тема для другого разговора.

В этой статье я собираюсь сравнить изображения, сгенерированные SD3, с двумя самыми популярными и мощными генераторами изображений для ИИ - Midjourney V6 и Dall-E 3.

Изображения из Stable Diffusion 3, которые я использовал в этой статье, были сгенерированы другими людьми, получившими ранний доступ к предварительной версии модели.

Давайте приступим.

Промпт №1

Photo of a red sphere on top of a blue cube. Behind them is a green triangle, on the right is a dog, on the left is a cat

Вот изображение, полученное с помощью Stable Diffusion 3:

Больше всего меня привлекает зеленый оттенок на шеях кошки и собаки. Похоже, SD3 умеет понимать окружающую обстановку и имитировать отражения.

Я не могу не задаться вопросом, не научилась ли она этому трюку втайне от всех, используя данные о закулисных фотосессиях с зелеными экранами.

В отличие от этого, изображения Midjourney V6 и Dall-E 3, хотя и впечатляют, но по-разному.

Midjourney V6
Dall-E 3

Midjourney V6 странно расположил животных на синих кубиках, в то время как результаты Dall-E 3 были обескураживающе бессвязными. SD3 побеждает в этом раунде за то, что результат соответствует промпту.

Промпт №2

Resting on the kitchen table is an embroidered cloth with the text ‘good night’ and an embroidered baby tiger. Next to the cloth there is a lit candle. The lighting is dim and dramatic

Вот что получилось у SD3:

Это прекрасная фотография крупным планом. Мне нравится, как размыты боковые стороны и сфокусированы на тигре и тексте. Детализация вышивки также фантастическая. Вы можете практически почувствовать колючую текстуру стежка, а также то, как он становится более пушистым по мере удаления.

А вот как выглядят результаты конкурентов:

Midjourney V6
Dall-E 3

Midjourney, как и ожидалось, отличается фирменными темными тонами и точным освещением. Dall-E 3 также отлично справился с этой работой, хотя оба они добавили несколько других элементов, которых нет в промпте.

Кому-то это кажется обманом? Для меня победителем стал SD3, строго придерживающийся промпта... хотя я бы не стал осуждать никого за то, что он был сражен художественной интерпретацией Midjourney.

Промпт № 3

Photo of an 90’s desktop computer on a work desk, on the computer screen it says “welcome”. On the wall in the background we see beautiful graffiti with the text “SD3” very large on the wall.

Вот как SD3 интерпретировал промпт:

Огромный текст так органично сочетается с фоном. И обратите внимание, насколько единообразен шрифт. Это выглядит как иллюстрация, созданная прямо в Photoshop.

А теперь давайте посмотрим, что получилось у Midjourney и Dall-E 3:

Midjourney V6
Dall-E 3

С точки зрения стиля и деталей, Midjourney - лучший выбор. Но промпт требовал очень большого текста на стене - Midjourney этого не сделал. Поэтому с точки зрения согласованности здесь лучший вариант - SD3. Результат Dall-E 3 оставляет желать лучшего.

Промпт № 4

Three transparent glass bottles on a wooden table. The one on the left has red liquid and the number 1. The one in the middle has blue liquid and the number 2. The one on the right has green liquid and the number 3.

SD3 прекрасно справился с промптом.

Вот результаты Midjourney и Dall-E 3:

Midjourney V6
Dall-E 3

Изображения, сгенерированные в Midjourney и Dall-E 3 также впечатляют, причем каждый генератор обладает своими уникальными эстетическими качествами. Лично я считаю, что Midjourney изображает ссохшийся стол и ржавые бутылки особенно захватывающе.

Вот и все. Чтобы получить большее представление о том, на что она способна, обязательно загляните в профиль X генерального директора Stability AI Эмада. Он часто публикует изображения, созданные с помощью SD3.

Честно говоря, где SD3 занимает первое место, так это в своем безумно точном понимании промптов. Когда вы хотите получить именно то, что описали, она это делает. Но Midjourney все еще держит свои позиции, когда дело доходит до уникальной, художественной выразительности, которая может поднять изображения на новый уровень.

Что вы думаете об этой новой модели с открытым исходным кодом? Считаете ли вы, что она достаточно хороша, чтобы превзойти других конкурентов, таких как Adobe Firefly, Amazon Titan G1 или Imagen 2 от Google?

Глядя на примеры изображений, становится ясно, что SD3 превосходит своих крупнейших конкурентов в генерации текста и согласованности промптов. Однако с точки зрения качества изображения я по-прежнему считаю Midjourney лидером.

Но почему это так важно?

В отличие от своих основных конкурентов, Stable Diffusion всегда был и остается программой с открытым исходным кодом, совершенно бесплатной для использования! Это значит, что скоро вы сможете бесплатно скачать SD3 и запустить его локально. Такая свобода очень важна.

Но есть и огромный минус - она также вызывает серьезные, и я имею в виду серьезные, этические проблемы. Представьте себе, что можно получить еще более правдоподобные изображения и видео с дипфейком.

Технология SD3 также намекает на то, что ее потенциал выходит за рамки изображений. Неужели мы стоим на пороге конкуренции с такими генераторами видео, как Sora от OpenAI или Genie от LumaLab? Теперь все становится по-настоящему интересным.

Если вам интересна тема нейросетей, подпишитесь пожалуйста на мой канал про нейросети, а если вы хотите больше узнать про генерацию изображений, добро пожаловать в этот канал!

Stability AI наконец-то представила сайт для Stable Video, на котором можно генерировать видео

Но как быть тем, у кого нет мощного GPU или технических навыков для установки всего этого? На этой неделе компания Stability AI наконец-то запустила свой сайт со Stable Video, и теперь каждый может попробовать сгенерировать видео.

Источник - здесь.

0
91 комментарий
Написать комментарий...
0YLQsNC90YzQutCwINC00YPRgNCw 1

А требования по ram какие у sd3 известно?

Ответить
Развернуть ветку
Robert47

SD 3 от 800 млн до 8 млрд параметров , для сравнения - SD XL - 6.6 млрд параметров. Памяти нужно будет даже меньше чем для SD XL

Ответить
Развернуть ветку
Fenfel

Откуда вы взяли 6,6 млрд?

Ответить
Развернуть ветку
Robert47

данные разняться , гуглите , не меньше 3,5 миллиардов для 0.9 SDXL , до 6,6 для последней версии

Ответить
Развернуть ветку
Fenfel

6,6 млрд параметров составляет связка SDXL + Refiner.
Скорее всего самая большая модель SD 3 не влезет в 12гб (именно поэтому они и сделали несколько вариантов)

"SDXL 0.9 has one of the largest parameter counts of any open source image model, boasting a 3.5B parameter base model and a 6.6B parameter model ensemble pipeline (the final output is created by running on two models and aggregating the results). The second stage model of the pipeline is used to add finer details to the generated output of the first stage."

Ответить
Развернуть ветку
Robert47

Ну , лично я вооружен P100 :) Там 16 Гб , так что делаем : 🎉🎉🥳🎉🎉

Ответить
Развернуть ветку
Fenfel

есть ли какая-та существенная разница между p40 и p100? ( 24gb GDDR5 vs 16bg HBM2). Какая у неё производительность в LLM, SD? И нужна ли для неё специальная стойка/мать или просто в пк можно засунуть?

Подумываю тоже взять одну из них в дополнение к 4070

Ответить
Развернуть ветку
Robert47

И P40 и P100 обе хороши. Но у P100 есть возможность гонять нейронки SD в 2 раза быстрее за счёт 16 precision float , но памяти меньше аж на 8Гб. P40 - универсал , для LLM и SD. У P100 отсутствует INT8 , что критический необходимо для LLM. К слову , LLM не обязательно иметь много памяти , их можно с успехом запускать и просто на CPU , никаких проблем. У меня на CPU 256 Гб Опер памяти и я запускаю GPT3.5 , скорость мгновенная за счёт копеечного Xeon. Т.е. видеокарты не так уж и нужны для использования LLM. Видеокарты для LLM нужны для тренировки этих самых моделей, это уже другое. Поэтому техногиганты сейчас гоняться за скоростями. Как-то так :)

Ответить
Развернуть ветку
Fenfel

Ну у меня совсем не серверный i7-13700k + 64GB DDR5 и он начинает сдавать уже на 70B Лламе (при любой точности не больше 1,5 t/s)

Ответить
Развернуть ветку
Robert47

На алике за копейки Xeon 26XX (В пределах от 2-8 К) , там же память ECC Machinist 8x32 Gb , и X-99 от той же компании , с 8 DIMM слотами... Там же есть 2ух сокетные , 2 Xeon в одной матке. Для выполнения LLM моделей важна память память и ещё раз память! Можно поискать что нибудь от Micron , до 1 Тб RAM Памяти

Ответить
Развернуть ветку
Fenfel

Сколько у вас t/s выдаёт LLaMa 2 70B? Такого чисто физически не может быть что i7-13700k и DDR5 5600 проигрывают ксеону за 5 копеек даже несмотря на огромные (но медленные) запасы RAM. Я проверял - в GGUF q_2 модель полностью влезает в оперативную память, не использует диск для подгрузки, и выдаёт 1,5 t/s ( хотя в то же время не помню какой модели на маке 196GB q_4km выдаёт ~5-6)

Ответить
Развернуть ветку
Robert47

Он не быстрее , ни в коем случае , просто он может запускать большие , действительно большие LLM. Даже те что на P100 запустить не получиться , в этом фишка. А так да , скорость не большая , но она и не нужна. Ну лично мне

Ответить
Развернуть ветку
Robert47

И кстати копеечный Xeon быстрее i7-13700k , потому что в нейросетях решает не тактовая частота ядра - а их количество! Лично у меня 32 ядра , выполнение LLM модели будет быстрее , но DDR4 это конечно да , тут нужен DDR5

Ответить
Развернуть ветку
Fenfel

Видимо я свернул где-то не туда когда думал что купить i7 хорошая идея. Сколько уйдёт на стенд с условным ксеоном как у вас и ~128GB + p40/100 и насколько это будет рентабельно по сравнению с консумерским пк? (я так понимаю всё это добро это либо авито либо алик)

Ответить
Развернуть ветку
Robert47

это Алик. Xeon - 1800 Рублей , Материнка - 6500 рублей , P -100 - 15 К рублей , плашки памяти , каждая по 6000 рублей 8 шт = 48 К руб. , в случае со 128 Гб , 24 К рублей , блок питания с Озона 6 К рублей на 1 килловат , NVME за 8 К рублей , охлаждение водянка 2.5К рублей. Да , я думаю это совсем не дорого! Для таких то характеристик , и да , используется сей сборка в качестве десктопа , компиляция кодов очень быстрая

Ответить
Развернуть ветку
Fenfel

Безумно конечно

Ответить
Развернуть ветку
Robert47

За такую сборку это копейки. Учитывая что и проц и P100 когда то стоили по 3500$ и ~6000$ соответственно. Вот это безумно!!!

Ответить
Развернуть ветку
Fenfel

Ну пока что я вижу смысл лишь в том чтобы подождать SD-3 и смотреть уже дальше. Если влезет в 12гб - то отлично, если не влезет и мои догадки про её возможности верны то однозначно брать условную 5090

Ответить
Развернуть ветку
Robert47

SD 3.0 запускайте через Automatic1111 , в режиме lowram. SD3 должен будет запуститься скорее всего. У меня лично , SDXL последней версий с активными LORA и ControlNet занимает всего 8Гб , в режиме med-vram.

Ответить
Развернуть ветку
Fenfel

Автоматик начал сильно сдавать позиции по оптимизации, быстроте и удобству после того как появился комфи а с ним SDXL и SVD

Ответить
Развернуть ветку
Robert47

1 секунда итерация SDXL на P100 , автоматик не может сдавать или выигрывать позиции , так как это всего лишь обёртка поверх моделей.

Ответить
Развернуть ветку
Fenfel

p100 по всем параметрам проигрывает кроме памяти за счёт HBM2 и шины 4096 и в итоге на 300 гб/c быстрее поэтому в это я ещё могу поверить. Но да я ошибся. У меня видимо автоматик сломался и поэтому SDXL ни в какую не шла поэтому я пересел на комфи (просто универсальней)

Ответить
Развернуть ветку
Robert47

комфи отличается от automatic1111 тем , что у него есть граф дизайнер , и это делает легче управление моделями искуственного интеллекта. P100 проигрывает по всем параметрам кому?

Ответить
Развернуть ветку
Robert47

Если кому нибудь из серии RTX , нет. За счёт своих 16Гб по цене в 15-18 тысяч , нет. И HBM2 для ИИ незаменим . Я же говорил , что в ИИ решает распараллеленность , толку иметь хороший графический процессор если он не может реализовать себя за счёт сужения шины памяти.

Ответить
Развернуть ветку
Robert47

Главным образом всё зависит от самой модели , а так же то , в каком режиме она работает. fp16 / fp32.
float point 16 precision - гораздо быстрее но в 2 раза менее точность - в Stable Diffusion fp16 от fp32 не имеет какой либо визуальной разницы , а поэтому его использование должно быть по умолчанию

Ответить
Развернуть ветку
Robert47

Процессор , P100 - это БУ , но и чёрт с ним , это же не машина в конце концов! Просто меняешь пасту и прокладки , вот и всё тех обслуживание. Всё остальное нулёвое , с завода

Ответить
Развернуть ветку
88 комментариев
Раскрывать всегда