Flux: как пользоваться нейросетью от создателей Stable Diffusion

Если нужна картинка, которую будет трудно отличить от фотографии.

Сгенерировано через Flux
Сгенерировано через Flux

Flux — нейросеть, которая создаёт гиперреалистичные изображения. Даже у самых популярных ИИ есть сложности с генерацией пальцев, естественной текстуры кожи и читабельного текста на картинках. Flux же научили делать изображения с учётом всех этих тонкостей. Примеры промптов и сравнение разных версий модели Flux — в этом тексте.

Содержание:

Кто создал Flux

Инженеры Flux Робин Ромбах, Андреас Блаттманн и Доминик Лоренц занимались разработкой Stable Diffusion — одной из самых популярных моделей для генерации изображений. Из-за разногласий с руководством они покинули компанию в марте 2024 года и почти сразу основали Black Forest Labs, получили $32 млн инвестиций и выпустили Flux.

У Flux три версии:

  • Flux.1 [pro] — продвинутый вариант для бизнеса и коммерческих задач. Подходит для работы через API.
  • Flux.1 [dev] — версия для некоммерческого использования.
  • Flux.1 [schnell] — опция для личного использования. Делает упрощённые работы и генерирует картинки максимально быстро.

Как начать генерировать изображения

Через Hugging Face

Есть Flux.1 [dev] и Flux.1 [schnell].

1. На домашней странице Hugging Face переходим во вкладку «Spaces».

2. Через поисковую строку ищем Flux.

Расположение вкладки «Spaces» на домашней странице Hugging Face
Расположение вкладки «Spaces» на домашней странице Hugging Face
Поиск нужной модели в Hugging Face
Поиск нужной модели в Hugging Face

3. Теперь выбираем нужную версию — Flux.1 [dev] или Flux.1 [schnell].

Через Glif.app

Есть Flux.1 [pro].

1. Для начала нужно создать аккаунт на Gliff.app через Google или Discord.

Регистрация в Glif.app
Регистрация в Glif.app

2. После регистрации открываем поле «Build».

3. Нажимаем «+» и добавляем блоки «Text input» и «Image generation».

4. Затем выбираем нужную модель и связываем блоки между собой через «input1». Вот так:

Как протестировать Flux.1 [pro] в Glif.app

Инструменты Flux

В онлайн-сервисах рядом со строкой для ввода запроса есть меню расширенных настроек.

Расширенные настройки Glif.app
Расширенные настройки Glif.app
Расширенные настройки Hugging Face
Расширенные настройки Hugging Face

«Seed» — выручит, если сгенерированное изображение подходит, но хочется немного переписать запрос или добавить какую-то деталь. Тогда сохраняем тот же seed, но переписываем промпт (текстовый запрос для нейросети). А если промпт не менять и seed сохранить, то сгенерируется один и тот же результат.

«Width» и «Height» — настройки размеров, ширина и высота нужного изображения.

«Guidance Scale» — шкала, которая определяет, насколько строго нейросеть должна следовать промпту. Если поставить значение на максимум, то ИИ сгенерирует ровно то, что прописано в запросе. Но при этом никаких креативных решений на картинке не будет.

«Number of inference steps» — количество шагов, за которые нейросеть сгенерирует изображение. Во Flux.1 [dev] стоит по умолчанию на 28, а во Flux.1 [schnell] — на 4. Чем больше шагов, тем качество картинки будет выше. Это не всегда играет решающую роль, но часто удлиняет время генерации.

Примеры генераций с промптами

Разработчики выделяют Flux за умение строить сложные композиции. Другие нейросети часто вместо разных людей изображают клонов. А если действующих лиц больше двух, то могут сгенерировать что-то совсем далёкое от промпта.

Промпт: «An elderly man with dark hair, a young girl with red hair, and an elderly woman with grey hair play cards in a mysterious setting».

(«Пожилой мужчина с тёмными волосами, молодая девушка с рыжими волосами и пожилая женщина с седыми волосами играют в карты в таинственной обстановке»).

Результаты Flux.1 [pro], Flux.1 [dev] и Flux.1 [schnell]

Композиционно [schnell] справился лучше всех. У [pro] и [dev] небольшие проблемы с цветом волос. Но с пальцами везде всё хорошо, разве что карты местами держат рубашкой к себе.

А как справится Flux с генерацией текста?

Промпт: «A traveller with a large hiking backpack is walking through the mountains, he is holding a cardboard, on which is written vc.ru».

(«Путешественник с большим походным рюкзаком идет по горам, он держит картонку с надписью vc.ru»).

Результаты Flux.1 [pro], Flux.1 [dev] и Flux.1 [schnell]

В двух случаях из трёх с текстом не возникло никаких проблем. Теперь задача посложнее: пусть сгенерирует изображение и со сложным положением рук, и с текстом.

Промпт: «A young guy wearing an I love Paris t-shirt shows a peace sign».

(«Молодой парень в футболке „Я люблю Париж“ показывает знак мира»).

Результаты Flux.1 [pro], Flux.1 [dev] и Flux.1 [schnell]

Промпт: «An elderly man and his grandson pose by a human-high sandcastle. They have just finished construction and are all covered in sand, with the sea and tourists in the background».

(«Пожилой мужчина и его внук позируют у песчаного замка высотой в человеческий рост. Они только что закончили строительство и полностью засыпаны песком, а на заднем плане видны море и туристы»).

Результаты Flux.1 [dev] и Flux.1 [schnell]

Промпт: «Two cats on a spaceship look out the porthole and see planet Earth from there».

(«Два кота на космическом корабле смотрят в иллюминатор и видят планету Земля»).

Результат Flux.1 [schnell] 
Результат Flux.1 [schnell] 

А вот результат по тому же запросу, только текст вбивали сразу на русском:

 Результат Flux.1 [schnell]  
 Результат Flux.1 [schnell]  

Есть ощущение, что коты немного слиплись. Но русский язык Flux, кажется, понимает.

Промпт: «A parade of eco-activists. There are 6 people in a row: two men, three young women, and one little boy. They carry a banner with the inscription “We have only one planet”».

(«Парад экоактивистов. В ряд идут 6 человек: двое мужчин, три молодые женщины и один маленький мальчик. Они несут транспарант с надписью „У нас только одна планета“»).

Результат Flux.1 [dev] 
Результат Flux.1 [dev] 

Композиционно всë верно, с пальцами проблем нет. Но самое главное — все герои выглядят по-разному, нет никаких клонов на картинке. А теперь вводим тот же промпт, но на русском языке.

Результат Flux.1 [dev]  
Результат Flux.1 [dev]  

Красиво. Но всё-таки не то: плакат куда-то потерялся, и мужчин больше, чем женщин.

Где ещё можно протестировать Flux

Есть и другие официальные онлайн-сервисы, которые поддерживают Flux. Для работы с ними часто нужен аккаунт на GitHub. Сами запросы оплатить российской картой из-за санкций не получится.

Ещё все три версии модели Flux можно скачать на ПК, чтобы не заходить каждый раз через браузер. Для этого понадобятся навыки программирования и подходящая техника, рекомендуют 16–24 Гб видеопамяти и GPU не ниже уровня NVIDIA A100.

Чем Flux отличается от конкурентов

Плюсы:

  • Создаёт максимально реалистичные изображения. Видны мелкие текстуры, тени падают куда надо, на коже у людей заметны естественные мимические морщины.
  • Отлично генерирует изображения с текстом на английском языке. У большинства аналогов с этим серьёзные проблемы. Можно делать визитки, плакаты, вывески и логотипы.
  • Хорошо понимает промпт со сложной композицией, генерирует нужное количество элементов (может перепутать только несущественные детали вроде цвета волос). Нейросеть не додумывает и не усложняет. Это важно для задач, где нужен конкретный результат, а не креативность.
  • Быстро генерирует изображения, чаще всего меньше минуты.

Минусы:

  • Установить приложение на компьютер сложнее, чем у аналогов. Понадобится мощная техника.
  • Не генерирует картинки с текстом на русском языке. Пока работает только с латиницей.
  • Нельзя оплатить российской картой большинство онлайн-сервисов, на которых можно попробовать FLUX.
  • Не подходит для проектов, где нужен высокий уровень креативности. Flux точно следует промпту, но предлагать свои идеи не будет.

Есть ещё одна особенность Flux, которую трудно назвать плюсом или минусом. Нейросеть, в отличие от аналогов, не очень требовательна к цензуре. Это хорошо сказывается на качестве генерируемых изображений. Ведь именно из-за цензурных ограничений иногда не получается сгенерировать «сочный бургер» — ИИ часто видят нарушения там, где их нет.

И хоть цензура плохо влияет на качество, она помогает не попасть под закон об авторском праве. Да и под ряд других законов.

Как правильно составить промпт для Flux

  • Использовать принцип «Что? Где? Когда? Как?». Начинаем писать с главного, а затем добавляем детали. Что делает герой на картинке, где он находится, какая вокруг атмосфера, как выглядит фон. Чем точнее, тем лучше.
  • Не добавлять сложных конструкций. Лучше не заигрывать со сложными метафорами, деепричастными оборотами и фразеологизмами.
  • Писать на английском языке. С этим поможет онлайн-переводчик.
  • Ссылаться на референсы. ИИ знает великих художников, фотографов и режиссеров.
  • Дублировать важные детали. Если нужен портрет девушки именно с зелёными глазами, а не с голубыми или карими, лучше прописать это несколько раз.
  • Учиться у других. В сети есть целые галереи со сгенерированными изображениями и промптами к ним.

Flux выпустили только в августе 2024-го, но разработчики уже показали тизер нейросети для генерации видео. На подкасте AI + a16z Робин Ромбах сказал, что команда Flux фокусируется на том, чтобы их ИИ делал ролики с минимальным количеством статичных кадров. Именно в этом, по его словам, проблема конкурентов.

Как вам результаты Flux? Смогли бы отличить от настоящих фотографий? Поделитесь своими генерациями в комментариях!

88
44
9 комментариев

Флюкс классный. Не смог обойти одну проблему — если не указывать "молодой", то мужчины получаются всегда бородатые. Запретить ему это мне не удалось. Я добавлял "without beard", "beardless" — не помогает.

3
Ответить

Интересное наблюдение!

Ответить

отличная штука и самое главное что бесплатная..

2
Ответить

Интересно!)

2
Ответить

А где можно найти инструмент с фиксацией лица (face lock)?

1
Ответить