FLUX и Midjourney, подвиньтесь. Ideogram выкатили свою лучшую модель в открытый доступ
Рынок генерации картинок лихорадит. Команда Ideogram устроила знатный сюрприз и выложила в открытый доступ веса своей флагманской модели Ideogram 4. Это не какой-то очередной тюнинг чужого чекпоинта, а полноценная open-weight модель на 9.3 миллиарда параметров, обученная с нуля.
И пока другие нейронки выдают абстрактную кашу вместо букв, Ideogram 4 пришла забирать корону в сфере дизайна, постеров и коммерческой графики.
Главный киллер-фича
Дизайнеры знают, как тяжело заставить ИИ написать на картинке банальное Sale без орфографических мутаций. Ideogram 4 решает эту боль напрочь. Модель обходит по качеству рендеринга текста гигантов, которые весят в разы больше (например, FLUX.2 dev на 32B или HunyuanImage 3.0 на 80B).
В слепом тесте от ContraLabs профессиональные дизайнеры выбирали лучший результат из четырех моделей. Итог:
- Ideogram 4 - 47.9% побед
- Gemini - 30%
- FLUX - 15.5%
- Grok 15%
Среди открытых моделей она сейчас удерживает абсолютное первое место на бенчмарке Design Arena, уступая по общей композиции только тяжелым закрытым API от Google и OpenAI. Модель нативно выдает разрешение до 2K.
JSON-промпты и тотальный контроль над кадром
Разработчики добавили фичи, от которых кайфанут все, кто устал подбирать синонимы в промптах
- Structured JSON Prompting. Теперь модели можно скармливать четкую структуру в формате JSON. Там можно прописать точные координаты объектов, цветовую палитру в HEX-кодах и жестко настроить композицию.
- Bounding-box Control. Вы буквально можете разметить сетку кадра и сказать: Вот в этом квадрате нарисуй чашку, а вот тут напиши текст.
- Magic Prompt. Для тех, кому лень писать JSON-код вручную, прямо на сайте работает бесплатный ассистент, который переводит обычный текст в структурированные координаты.
Сколько вешать в VRAM?
Запустить этого монстра на домашней видеокарте можно, но придется раскошелиться на железо. На Hugging Face выкатили две версии
- Квантованная nf4 (CUDA-only). Сами веса весят около 15 GB. Для нормальной локальной генерации без тормозов и в хорошем разрешении нужно минимум 24 GB VRAM (привет владельцам RTX 3090/4090). На 16 GB запустится, но будет очень впритык.
- Полноразмерная fp8. Весит около 25–26 GB. Тут уже стоит ориентироваться на 32 GB+ VRAM или запускать на Mac с объединенной памятью (но на CPU/Mac это пока скорее история для тестов, а не для быстрой работы).
Нюансы лицензии
Раскатывать губу на бесплатный продакшн пока рано. Ideogram открыли веса под лицензией Ideogram 4 Non-Commercial, а сам доступ на Hugging Face - gated (нужно подавать заявку). То есть для тестов, личных проектов, ресерча и локального дебага это пушка. Но если вы захотите генерировать на ней коммерческие баннеры в промышленных масштабах, придется покупать API.
Ideogram 4 это огромный шаг для опенсорса. Возможность контролировать верстку через JSON и bounding-box делает модель не просто игрушкой для генерации красивых артов, а реальным рабочим инструментом для UI-дизайнеров и маркетологов.
Убьет ли поддержка JSON-промптов классический инжиниринг подсказок, или дизайнерам все равно придется по старинке дописывать photorealistic, 8k?
Полезные ссылки
Не отставайте от технологий! Подписывайтесь на Telegram-канал, чтобы быть в курсе последних трендов и лайфхаков.