Distillery - новый ИИ-генератор, сочетающий в себе уровень контроля Stable Diffusion и качество генерации Midjourney
В мире генераторов изображений ИИ выделяются две нейросети: Midjourney и Stable Diffusion. Midjourney может генерировать изображения с исключительным качеством, но его невозможно запустить на вашем компьютере. Stable Diffusion известен тем, что имеет открытый исходный код, но качество генерации у базовой модели все еще далеко от Midjourney.
Теперь появилась Distillery - модель ИИ, которая сочетает в себе уровень контроля Stable diffusion с простотой использования и качеством, близким к Midjourney.
Что такое Distillery?
Distillery - это сервис генерации с открытым исходным кодом, созданный компанией FollowFox, которая является венчурной студией, специализирующейся на создании небольших моделей искусственного интеллекта. По словам представителей компании, они обязуются раскрывать все свои бэкенды и модели сообществу.
Distillery с открытым исходным кодом
FollowFox выпустила свою новейшую модель Cosmopolitan, основанную на Stable Diffusion 1.5 (SD 1.5). Эта мощная модель доказала свою высокую эффективность в общих случаях использования, и теперь Distillery доступна бесплатно в Discord.
В соответствии с философией открытого исходного кода, компания предоставляет открытый доступ к своим методам обучения и кодам.
Процесс разработки включал в себя несколько этапов: выбор и создание набора данных, тонкая настройка модели и смешивание различных версий модели для достижения желаемого результата. Команда явно приложила много усилий, чтобы выпустить Distillery.
Вы можете ознакомиться с моделью с открытым исходным кодом в CivitAI, чтобы запустить ее на своем компьютере.
Если вам интересно узнать, как работает бэк-энд Distillery, прочитайте эту статью.
Вот как вы можете ее попробовать
Есть два способа попробовать модель Cosmopolitan:
- Через Distillery в Discord
- Запустите локально на своем компьютере, загрузив эту модель
В этом примере я расскажу вам о процессе генерации изображений в Discord. Перейдите на канал free-generations.
Нажмите клавишу "/", и вы увидите несколько вариантов:
- /command-infos - информация о командах Distillery
- /serve - создать четыре увеличенных изображения с использованием платных моделей
- /serve-free - создать четыре увеличенных изображения с использованием бесплатных моделей
- /suggest - создать сложный промпт из простого текста, используя LLM Distillery
- /upscale - увеличить изображение с помощью платной модели
- /upscale-free - увеличить изображение с помощью бесплатной модели
- /zoomout - уменьшить масштаб изображения
Генерация изображений заняла около минуты. Что вы думаете о результатах? Я думаю, что они выглядят очень хорошо; уровень детализации исключительный.
Еще больше полезностей про нейросети и анонсы статей - в моем хобби-блоге про нейросети в Телеграм.
Они потрясающе детализированы и не уступают Midjourney.
LoRA
LoRA, или Low Rank Adaptation, - это дополнительный и простой способ добавить предварительно обученный стиль к генерируемым изображениям.
Существуют десятки курируемых LoRA, которые интегрированы в модели Distillery по умолчанию. Для достижения наилучших результатов важно использовать LoRA с соответствующими словами активации в промпте.
Вот несколько примеров:
В настоящее время пользователям доступно 90+ различных стилей. Пользователи могут объединить до пяти различных LoRA в одном промпте, что может привести к неожиданным творениям. Мне нравится возможность сочетать столько стилей и влияний в одном изображении.
Полный список поддерживаемых LoRA смотрите здесь.
Слияние стилей
Уникальной особенностью Distillery является возможность слияния стилей и использования изображений в качестве основы для генерации. Ниже показано, как объединить изображение воина с фоном пляжа Ипанема, используя функции управления и адаптации Distillery.
Это потрясающе.
Вот еще один пример практического использования Distillery. Конечный результат, который предполагается получить, представляет собой смесь реализма и волшебства, символизируя открытые двери для безграничных творческих возможностей. Для получения результата в качестве базового используется изображение "открытого окна", а второе изображение - для стилистической обработки.
Изучение всех функций, моделей, стилей и вариантов их использования в Distillery займет некоторое время, но как только вы освоите их, это станет невероятно интересным занятием, потому что вы сможете использовать все вместе и начать смешивать стили и изображения, чтобы сделать новые открытия.
Цены
Distillery - это freemium-продукт на Discord с тремя тарифными планами:
- Free - дает вам 10 бесплатных генераций в день. При каждом бесплатном запросе вы получаете четыре изображения высокого разрешения (1024x1024 пикселей).
- Early User - стоимость 9,99 доллара в месяц. Вы получаете 300 премиум-генераций в месяц без ограничения по количеству ежедневных генераций. При каждом запросе вы получаете 4 изображения (в отличие от 2, предоставляемых в бесплатном варианте).
- Founders' Pass - за 24,99 доллара вы получаете 1 000 премиум-запросов в месяц (в 3,33 раза больше, чем у Early User). Участники Founders' Pass получат пожизненный доступ ко всем будущим публичным уровням и другим предложениям.
Обратите внимание, что это все еще альфа-версия модели и в будущем она может быть улучшена.
В целом, Distillery - это замечательная модель изображений с открытым исходным кодом, которая конкурирует с Midjourney по качеству и при этом обеспечивает максимальный контроль над процессом генерации. Открытый исходный код модели изображения также делает ее привлекательной для тех, кто хочет интегрировать ее в свои собственные продукты.
Distillery все еще находится в разработке, поэтому в следующих итерациях, скорее всего, будут внесены улучшения. Мы будем внимательно следить за развитием этого продукта в ближайшие месяцы!
Оригинал статьи на английском - здесь.
Я бы сильно поспорил с утверждением , что Stable Diffusion чем-то хуже Midjourney. Я бы сказал что MJ очень далёк от Stable Diffusion во всех отношениях (комм лицензия , качество и так далее), кроме того , ваш розовый петух Distillery есть ни что иное как часть Stable Diffusion , ему подобных бесплатных моделей на Цивите целая гора...
У SD есть проблема, что он место на диске жрет. У меня SD нагенерил себе базу на 196 гигов, а я бы не назвал себя очень активным его пользователем...
Базовая версия - 24 Гб . По поводу места , я для SD купил специально жёсткий диск на 4 ТБ , и накачал почти всё что можно сделать с SD , набил его на половину. Ещё заказал отдельно Nvidia P100 , хочу потом ещё 2ую видеокарту заказать. Хотел бы купить V100 , да денег пока нет. В работе мне SD , и ещё несколько других нейросетей заменяют целый штат сотрудников. Midjourney может закрыться , а вот Stable Diffusion у меня в кармане.
Ну и наконец , я могу свободно использовать как я и обозначил ранее в комм. целях , а MJ только по платной подписке ( которую я не могу и не хочу оплачивать ) , там он ставит Water Mark , само изображение есть не только у меня , но и у них ... Короче не нравиться мне MJ и всё тут :)
Расскажите что вы такого делаете по работе что вам
- не хватает возможностей мж
- сд заменяет нескольких сотрудников
что дороже, подписка на MJ или твое оборудование для SD?)
На моём оборудовании можно гонять не только SD , но и всё что угодно иного.
Моё оборудование это моё оборудование - как и исходники.
Где выше вероятность того, что вы останетесь без инструмента? Но знаете, в математике даже говорят об этом , люди обычно неверно оценивают вероятность наступления события , потому что пологаются только на полученый ранее опыт , а действительность - она совсем иная , в ней нет розовых пони.
Чё , зря что-ли крупные компании покупают оборудование? Зря что-ли строят ЦОД-ы?
зависит от задач конечно. Если у тебя дизайн студия или крупное агентство всякого смм, то вполне можно заморочиться. Если фрилансер или для своей конторы картинки генерить то проще раз в месяц 19$ в openAi заносить и все. Если резко все сломается, то думаю интернет помнит все архивы с DC и можно будет качнуть
MJ ватермарк ставит? Не видел!
А какие именно коммерческие задачи решаете?
Большой объём Stable Diffusion - это наоборот , знак качества. Знак качества потому , что ты точно уверен , что программа и данные не шляпа. Я был бы сильно удивлён и подозрителен, если бы программа весила 4 килобайта , и выдавала столь шедевральные картинки как у Stable Diffusion. У MJ она весит тоже не меньше , как и я описал ранее , MJ может исчезнуть , а SD - нет
Когда MJ исчезнет, перейдем на что-то другое, не вижу в этом проблмы
SD не жрет место при правильных настройках.
Например у бота Magic Art Bot (https://t.me/magic_sticker_bot?start=refVC10) SD занимает в пределах 30 гб на GPU-хостинге и не растет, хотя там немало генераций делается ежедневно.
Недостаток места должено решаться установкой дополнительного оборудования , достаточно купить и поставить хард или лучше SSD , всего то
Речь идёт о базовой версии SD, а не улучшенных моделях.
ну такое.. до миджорней ему как до китая раком. Даже DALL-E поинтересней смотрится. Вот к примеру тот же запрос про лошадь с астронавтом в chatGPT без плясок с промптами в дискордах)
вносим правочки и вуаля
Проект выглядит интересно) отличная статья
Будет хорошо, если у MJ и SD появится достойный конкурент.
к концу следующего года их будет десятки.
и все идет к тому, что это будет похоже на коммодити.
основная борьба в видео будет.
Отличная идея
круто что можно в таком разнообразии стилей , создать что-то нестандартное
Кто попробует, выкладывайте свои изображения сюда ).
Это прям отличная новость, спасибо, взял на заметку!
Гуру, уважаемые, подскажите дизайнеру. Мне нужно на оклейку минивэна для мебельной компании сгенерировать изображения слонов пьющих чай за столом на кухне и двоих жирафов в шкафе-купе. Помогите где рендернуть? Или ссылку или посреднические услуги. Заранее благодарю.
так все просто же)
1. как вы смогли запустить эту красоту на своем компьютере? скачал файл 2gb cosmopolitanBy_v10.safetensors а дальше нет инструкци(
2. как вы добились такого размера, у меня в браузере и то 512х768
3. в случае с https://vc.ru/design/921331-fooocus-v2-besplatnyy-midjourney-u-vas-na-kompyutere-podrobnaya-instrukciya-po-ustanovke-i-ispolzovaniyu-neyroseti здесь гораздо все понятнее
это DALL-E встроенный в chatGPT ничего устанавливать не нужно, просто в чате в браузере генерите сколько влезет на запрос простым русским языком. Нужно добавить - сделай широкоформатный файл максимального качества, иначе будут небольшие квадратные картинки
Некоторые картинки прям хороши, но есть криповые немного
крипово-значит тоже хорошо , передает ощущения достоверно
Да, согласен, некоторые не очень, но в целом довольно неплохо по сравнению с другими нейронками.
Так когда уже нейросетка какая-нить выйдет с генерацией пассивного дохода? Сколько можно уже про нейро-картинки, заезженная тема)
Они его и так генерируют, только владельцам
Эт понятно, но я ж про простых смертных)
а че сложного, берешь миллиардов 10 инвестиций у микрософта, нанимаешь лучших ученых, делаешь свою нейронку и отдыхаешь 😅
Наконец-то я могу генерировать свою собственную ерунду!
"Free - дает вам 10 бесплатных генераций в день. При каждом бесплатном запросе вы получаете четыре изображения высокого разрешения"
Не всё так, только 4 раза можно генерировать по четыре картинки в день в чате "free". Или подписка стоящая 10 долларов в месяц за 300 генераций четырёх картинок в день и 25 долларов за 1000 генераций по четыре картинки.
Или Stable Diffusion , генерируй сколько хочешь
10 раз по 4. Всего 40 изображений
Огромное спасибо за статью! Я автор и основатель компании FollowFox и проекта Дистиллери. Если будет интересно, можем организовать мини-интервью. Постараюсь ответить на вопросы, которые есть у вас и у ваших читателей.