Flux.1 - умопомрачительный ИИ-генератор изображений с открытыми весами и 12 миллиардами параметров

Выпущена Flux.1, установившая новые стандарты в мире моделей изображений с открытым весом. Имея 12 миллиардов параметров, она превосходит по качеству изображения и производительности таких гигантов индустрии, как Midjourney V6, OpenAI's Dall-E 3 и SD3 Ultra от Stability AI.

🔥Телеграм-бот SYNTX предоставляет доступ к более чем 40 ИИ-инструментам. Без ВПН, оплата любой картой, запросы на любом языке, пробуйте бесплатно! Под капотом - GPT4o/Gemini/Claude, MidJourney, DALL-E 3 и Ideogram, LUMA, Runway, Suno, Редактор с 12 различными ИИ-инструментами для ретуши фото.
☝️Это только часть функций, доступных в SYNTX!

У команды, создавшей Flux.1, интересная история.

Они являются разработчиками технологии Stable Diffusion и изобретателями латентной диффузии. После некоторых внутренних проблем в Stability AI ключевые члены команды ушли и основали новый стартап под названием Black Forest Labs.

Подобный "технологический исход" часто приводит к инновациям. Когда талантливые люди уходят в самостоятельное плавание, они могут свободно реализовывать новые смелые идеи без ограничений со стороны крупных организаций.

Еще больше полезностей - в телеграм-канале про нейросети и канале про генерацию изображений Миджорниум.

Flux.1 - это набор моделей преобразования текста в изображение, которые определяют новый уровень (SOTA) в детализации изображения, соблюдении промптов, разнообразии стилей и сложности сцен для преобразования текста в изображение.

Он поставляется в трех вариантах:

Flux.1 Pro. Это самая современная модель для генерации изображений, обеспечивающая первоклассное выполнение промптов, визуальное качество, детализацию изображений и разнообразие результатов.
Flux.1 Dev. Это модель с открытым весом, предназначенная для некоммерческого использования. Она создана на основе Flux.1 Pro и обеспечивает аналогичное качество и соблюдение промптов, при этом являясь более эффективной, чем обычная модель того же размера.
Flux.1 Schnell. Это самая быстрая модель, предназначенная для локальной разработки и личного использования. Она находится в открытом доступе под лицензией Apache 2.0.

Все публичные модели Flux.1 используют смесь мультимодальных и параллельных блоков трансформации диффузии и имеют 12 миллиардов параметров. Эти модели лучше предыдущих диффузионных моделей, поскольку в них используется согласование потоков - простой и понятный метод обучения генеративных моделей, включающих диффузию.

Кроме того, модели работают лучше и эффективнее используют аппаратное обеспечение благодаря использованию поворотных позиционных вкраплений и параллельных слоев внимания.

По мнению исследователей, Flux.1 Pro и Flux.1 Dev превосходят такие популярные модели, как Midjourney v6.0, Dall-E3 и Stable Diffusion 3 Ultra, в каждом из следующих аспектов:

Визуальное качество
Согласованность промпта
Вариативность размеров и пропорций
Типографика
Разнообразие вывода

Но так ли это на самом деле? Давайте попробуем разобраться в этом на примере:

Промпт: old man with glasses portrait, photo, 50mm, f1.4, natural light, Pathéchrome

Как вы думаете, какое из изображений выглядит лучше?

Все варианты модели Flux.1 поддерживают различные соотношения сторон и разрешения от 0,1 до 2,0 мегапикселей, как показано в следующем примере.

Ознакомьтесь с некоторыми из потрясающих примеров изображений, созданных с помощью Flux.1 Pro. Начнем с изображений людей, где основное внимание уделяется мелким деталям, таким как волосы, морщины, пальцы и конечности.

На левом изображении качество очень похоже на Midjourney. Уровень детализации человеческих черт, таких как волосы, морщины и пальцы, просто поразителен.

Промпт: A robot holding chalk looking at a blackboard that reads the following poem:”ln pixels’ dance, AI’s craft will rise, Transforming visions through machine eyes, From dreams to screens, new worlds unfurled, AI’s brush reshapes our visual world.”

Рендеринг текста - одна из самых сложных областей в генерации ИИ-изображений. Даже последняя версия Midjourney v6.1 все еще не справляется с моими начальными тестами. Flux.1, похоже, действительно хорош, даже с длинными текстами.

Промпт: beautiful anime artwork, a cute anime catgirl that looks depressed holding a piece of paper with a smile drawn on it over her mouth, she is about to cry

Это выглядит очень многообещающе. Мягкие тона и сияющие блики придают этому изображению профессиональный вид, который может сравниться с нарисованными вручную работами.

Некоторые пользователи, получившие доступ к Flux, быстро обнаружили, насколько пугающе реалистичными получаются изображения. Вот некоторые из самых реалистичных селфи-портретов, которыми поделились пользователи в X.

Как человек, экспериментировавший с различными ИИ-генераторами изображений, я могу с уверенностью сказать, что это одни из самых реалистичных портретов, созданных ИИ, которые я видел.

Для тех, кто хочет попробовать Flux.1, есть несколько бесплатных вариантов:

Вот пример генерации с помощью Replicate.

The world’s largest black forest cake, the size of a building, surrounded by trees of the black forest

Вот еще одна демонстрация Flux в Fal:

Extreme close-up of a single tiger eye, direct frontal view. Detailed iris and pupil. Sharp focus on eye texture and color. Natural lighting to capture authentic eye shine and depth. The word “FLUX” is painted over it in big, white brush strokes with visible texture.

И наконец, вот пример скриншота Flux в HuggingFace:

An image of an astronaut riding a horse in space

Доступ к Flux.1 Pro через API можно получить здесь. В настоящее время он находится в режиме превью; действуют некоторые ограничения.

Аккаунты активируются только для избранных партнеров.
API не является стабильным и может быть изменен.

Вот пример кода на языке Python:

import os import requests request = requests.post( 'https://api.bfl.ml/v1/image', headers={ 'accept': 'application/json', 'x-key': os.environ.get("BFL_API_KEY"), 'Content-Type': 'application/json', }, json={ 'prompt': 'A cat on its back legs running like a human is holding a big silver fish with its arms. The cat is running away from the shop owner and has a panicked look on his face. The scene is situated in a crowded market.', 'width': 1024, 'height': 1024, }, ).json() print(request) request_id = request["id"]

Обратите внимание, что отправка запросов к /v1/image ограничена 12 активными заданиями. Если вы превысите этот лимит, будет возвращен код состояния 429, и вам придется подождать, пока не завершится одна из предыдущих задач.

Ознакомиться с полным процессом использования API можно здесь.

Некоторые из вас могут задаться вопросом, а могу ли я продавать или распространять изображения в коммерческих целях? Ответ - да или нет, в зависимости от модели, которую вы используете.

Flux.1 Pro. Коммерческое использование Flux.1 Pro поддерживается, но доступ к этой модели в настоящее время ограничен партнерами через такие платформы, как Replicate и Fal.ai.
Flux.1 Dev. Использование изображений ограничено некоммерческими целями, то есть вы не можете продавать или распространять изображения, созданные с помощью этой модели, для получения коммерческой выгоды.
Flux.1 Schnell. Модель находится в открытом доступе под лицензией Apache 2.0, что обеспечивает большую гибкость в использовании. Это означает, что вы можете использовать Flux.1 Schnell как в личных, так и в коммерческих целях, если вы соблюдаете условия лицензии Apache 2.0.

В целом, если вы хотите использовать модели Flux.1 в коммерческих целях, вам лучше всего подойдут Flux.1 Pro и Flux.1 Schnell. Flux.1 Pro обеспечивает высочайшее качество и доступна благодаря особым партнерским отношениям, а Flux.1 Schnell предлагает более доступное решение на основе лицензии с открытым исходным кодом.

🔥Телеграм-бот SYNTX предоставляет доступ к более чем 40 ИИ-инструментам. Без ВПН, оплата любой картой, запросы на любом языке, пробуйте бесплатно! Под капотом - GPT4o/Gemini/Claude, MidJourney, DALL-E 3 и Ideogram, LUMA, Runway, Suno, Редактор с 12 различными ИИ-инструментами для ретуши фото.
☝️Это только часть функций, доступных в SYNTX!

Несмотря на то, что открытые модели Flux очень интересны, необходимо учитывать практическое ограничение. Запуск этих моделей локально вместе с большой языковой моделью (LLM) требует значительной вычислительной мощности - как правило, A100 GPU или выше. С 12 миллиардами параметров (24 ГБ на диске) и 9 ГБ для текстового кодировщика Flux.1 находится за пределами возможностей большинства устройств потребительского класса.

Модель с открытым весом, Schnell, уже очень хороша. Я не сомневаюсь, что сообщество будет работать над поиском новых методов настройки, обучения и расширения версии Apache 2.0. Я с нетерпением жду, когда появятся удивительные, точно настроенные модели, которые будут генерировать умопомрачительные изображения.

В следующих статьях я сравню Flux с Midjourney, Dall-E 3 и Gemini 2. Также я планирую написать руководство о том, как запустить Flux Schnell на вашем компьютере.

Еще больше полезностей - в телеграм-канале про нейросети и канале про генерацию изображений Миджорниум.

#flux #генерацияизображений

Источник статьи на английском - здесь

26 комментариев

Комментарий удалён модератором

NeuroЭнтузиаст (Алексей)

7 авг

Автор

Так обычно и бывает )

Ответить

Критик на пенсии

Ну чё, молодцы ребята. Однозначно эти модели лучше генерируют, чем Stable Diffusion

Власов Роман

Согласен. SD 3 вообще отстой, нечего с ней даже сравнивать. Но у миджорни, судя по всему, появился серьезный конкурент.

Времени SD ушли...

Наталья

8 авг

Несколько дней рисую в нем все подряд,от иллюстраций до реалистичных портретов, мой вывод таков, креативности и художественности в нем меньше, чем в Миджорни, но реализм на высоте, часто даже лучше Миджорни справляется

Полностью с вами согласен)

Flux.1 - умопомрачительный ИИ-генератор изображений с открытыми весами и 12 миллиардами параметров

Что такое Flux.1?

Лучше, чем Midjourney?

Примеры изображений

Фотореализм нового уровня

Как получить доступ к Flux.1

Доступ через API

Коммерческое использование и лицензирование