FLUX и Midjourney, подвиньтесь. Ideogram выкатили свою лучшую модель в открытый доступ

Рынок генерации картинок лихорадит. Команда Ideogram устроила знатный сюрприз и выложила в открытый доступ веса своей флагманской модели Ideogram 4. Это не какой-то очередной тюнинг чужого чекпоинта, а полноценная open-weight модель на 9.3 миллиарда параметров, обученная с нуля.

И пока другие нейронки выдают абстрактную кашу вместо букв, Ideogram 4 пришла забирать корону в сфере дизайна, постеров и коммерческой графики.

FLUX и Midjourney, подвиньтесь. Ideogram выкатили свою лучшую модель в открытый доступ

Главный киллер-фича

Дизайнеры знают, как тяжело заставить ИИ написать на картинке банальное Sale без орфографических мутаций. Ideogram 4 решает эту боль напрочь. Модель обходит по качеству рендеринга текста гигантов, которые весят в разы больше (например, FLUX.2 dev на 32B или HunyuanImage 3.0 на 80B).

В слепом тесте от ContraLabs профессиональные дизайнеры выбирали лучший результат из четырех моделей. Итог:

  • Ideogram 4 - 47.9% побед
  • Gemini - 30%
  • FLUX - 15.5%
  • Grok 15%

Среди открытых моделей она сейчас удерживает абсолютное первое место на бенчмарке Design Arena, уступая по общей композиции только тяжелым закрытым API от Google и OpenAI. Модель нативно выдает разрешение до 2K.

FLUX и Midjourney, подвиньтесь. Ideogram выкатили свою лучшую модель в открытый доступ
FLUX и Midjourney, подвиньтесь. Ideogram выкатили свою лучшую модель в открытый доступ

JSON-промпты и тотальный контроль над кадром

Разработчики добавили фичи, от которых кайфанут все, кто устал подбирать синонимы в промптах

  1. Structured JSON Prompting. Теперь модели можно скармливать четкую структуру в формате JSON. Там можно прописать точные координаты объектов, цветовую палитру в HEX-кодах и жестко настроить композицию.
  2. Bounding-box Control. Вы буквально можете разметить сетку кадра и сказать: Вот в этом квадрате нарисуй чашку, а вот тут напиши текст.
  3. Magic Prompt. Для тех, кому лень писать JSON-код вручную, прямо на сайте работает бесплатный ассистент, который переводит обычный текст в структурированные координаты.

Сколько вешать в VRAM?

Запустить этого монстра на домашней видеокарте можно, но придется раскошелиться на железо. На Hugging Face выкатили две версии

  • Квантованная nf4 (CUDA-only). Сами веса весят около 15 GB. Для нормальной локальной генерации без тормозов и в хорошем разрешении нужно минимум 24 GB VRAM (привет владельцам RTX 3090/4090). На 16 GB запустится, но будет очень впритык.
  • Полноразмерная fp8. Весит около 25–26 GB. Тут уже стоит ориентироваться на 32 GB+ VRAM или запускать на Mac с объединенной памятью (но на CPU/Mac это пока скорее история для тестов, а не для быстрой работы).

Нюансы лицензии

Раскатывать губу на бесплатный продакшн пока рано. Ideogram открыли веса под лицензией Ideogram 4 Non-Commercial, а сам доступ на Hugging Face - gated (нужно подавать заявку). То есть для тестов, личных проектов, ресерча и локального дебага это пушка. Но если вы захотите генерировать на ней коммерческие баннеры в промышленных масштабах, придется покупать API.

Ideogram 4 это огромный шаг для опенсорса. Возможность контролировать верстку через JSON и bounding-box делает модель не просто игрушкой для генерации красивых артов, а реальным рабочим инструментом для UI-дизайнеров и маркетологов.

Убьет ли поддержка JSON-промптов классический инжиниринг подсказок, или дизайнерам все равно придется по старинке дописывать photorealistic, 8k?

Полезные ссылки

Не отставайте от технологий! Подписывайтесь на Telegram-канал, чтобы быть в курсе последних трендов и лайфхаков.

Начать дискуссию